13 octubre 2005

Reconocimiento de caracteres para evitar spam

(hoy toca uno útil....)
Seguramente algunas personas se preguntan en qué consiste el código antispam que mete blogger y otros sistemas de publicación, pues hoy van a poder dormir tranquilos, porque por fin en este blog (referencia internacional en cultura cibernética) lo voy a explicar.

La cosa es impedir que un ordenador spameador se dedique a llegar a los blogs y empezar a meter comentarios a diestro y siniestro con el único fin de publicitar algo que seguramente no nos interesa. Para evitar que esto ocurra, lo que hace es presentarnos una imagen de este tipo:
Los spameadores podrían intentar meter un programilla inteligente que analizara esa imagen y tratara de sacar el código, pero lo tienen algo complicado porque cada vez que se intenta poner un comentario, blogger cambia el formato de letra, el tamaño, el color, cuida que no tenga ningún sentido la palabra y además lo desalinea para que sea más chungo detectar el tipo de letra.

El proceso de reconocer caracteres es relativamente sencillo. Si por ejemplo blogger pusiera como código antispam algo así de simple:

El robot de reconocimiento de caracteres lo tendría así de sencillo:
Primero intentaría buscar en qué lugar de la imagen se encuentra el texto, inscribiéndolo en un rectángulo.

Luego intentaría trasladarse por ese área buscando los espacios en blanco que separan las letras.

Luego en cada pequeña área intentaría saber qué letra representa, según el tamaño del cuadrado donde está inscrito, hay pocas opciones, porque depende de la forma gráfica de cada letra!!
Y por último, debería pasar esa palabra ya reconocida al campo correspondiente donde debería rellenar el valor de la imagen.
¿Fácil?
Ahora vamos a intentar lo mismo con uno de los ejemplos de arriba:

Si intentamos hacer el mismo procedimiento...
La primera parte está fácil, lo cuadramos en un rectángulo que abarque todo el texto:

Hasta aquí todo va bien, pero ahora viene lo complicado...je.. ¿Dónde está el espacio entre cada letrica? Y para colmo lo pone en cursiva!!

Los programas profesionales de reconocimiento de caracteres son capaces de reconocer cursivas, pero no cuando se encuentran desalineadas respecto a la horizontal, y por supuesto cuando hay espacio de separación entre las letras!!

Pues hala, espero a el /la guapit@ que se anime a crear el programita para reconocer las imágenes de blogger....

Lo que hace el aburrimiento, hay que ver.

20 comentarios:

chin dijo...

Satisfecha mi curiosidad porque además la tenía.
Gracias guapa, mira, te voy a dedicar un post.

don tonino dijo...

Pero que lista es esta chica.

monocamy dijo...

A mí tu antispam siempre me dice cosas guarras...

¿Seguro que salen letras inconexas al azar? pues .. no sé... igual interactúa con mi química o aRgo..

:PP

scape95 dijo...

Tiempo al tiempo. Pronto eso no servirá de nada. Y entonces ¿qué pondrán después? ¿Una ecuación de tercer grado?

Sigo pensando que ese antispam molesta más a los visitantes "reales" que a los "spammers".

Te dejo un blog de los que te gustan: original y sin copy&paste...

http://aburridoii.blogspot.com/

XDDDDD

Jose dijo...

Pipi...soy un robot spamero..pipipi...
Mi diseño es perfecto, me dan igual las cursivas, la desalineación, los colores...
me salto todo...
Me ofrezco para saltar protección antispam...
La subasta empieza en 1000 dolares..
pipipi.. Además se hacer calceta..pipipipi..

Yabu dijo...

Bueno, en realidad los captchas que es como se llaman estos bichos se hace utilizando problemas irresolubles de inteligencia artificial. Es decir, si no hay un algoritmo para resolver lo de las cursivas pues eso ponen. Hay una parte teorica detras aunque no lo parezca, es lo mismo que los algoritmos de cifrado asimetricos.

Cuando la inteligencia artificial avanza, tambien lo hacen los captchas. Al final tendran que buscar otro metodo, yo ya hay alguna web en la que tengo dificultades para logearme por lo complicado de las letritas.

Luces dijo...

pero qué lista es esta niña....;)

quedaAlgunoLibre? dijo...

estas bien niña?? problemas en casa?? con la familia?? con tu jefe?? jajajajajaj es broma!!!

Muy útil tu descripción!!

Besote

O.k.,o.k.! dijo...

Pues yo debo ser un robot spammero, porque más de una vez me ha costado horrores reconocer alguna letra y he tenido que acabar repitiendo el proceso con el siguiente captcha (?)

...Y me sigo resistiendo a enchufar uno en mi blog, hasta que llegue a los 5 spams diarios. (monocamy, que te veoXDDDD)

Dosjerez dijo...

Tarde o temprano lo lograrán, en ese momento supongo que se pondrán cosas basadas en la prueba de turing.

NoBrain dijo...

el blog de la ceci te enseña
el blog de la ceci entretiene
y yo te digo contento
hasta el comentario que viene.

Príncipe32 dijo...

si q estás aburrida, si

Elizabeth dijo...

Tu blog es más productivo que ir al colegio!!!

Michi dijo...

No eres la unica aburrida, zzzzzzz

gemmita dijo...

Nenaaaaaaaaaaaa, ayer fue la final de Ot, perdió la rubiales, y tu sin postear nada al respecto????????????''. La madre que te meneó! Ande está esa crónica????????????''

criztina dijo...

Muy interesante.
esto se está convirtiendo en el cultural de LaCeci!!
:-)
Gracias por contárnoslo. Algo más para nuestro "cajón desastre"!!! (en mi caso es mi cabeza, que tiene un lío!!! jejejeje)
De todas maneras no me extraña que sea imposible de detectar, si hasta a mi me cuesta a veces sabés que letra de mierda han puesto y tengo que repetir el intento!!!

scape95 dijo...

Estaba pensando (cosa rara) en el rollo éste del spam, y os dejo un par de observaciones:

- Veo poco spam en los blogs que visito. Muy poco. ¿Les entra poco de verdad o es que lo borran sus editores?

- Os cuento lo que veo en mi blog. Tras poner un nuevo post (o republicar) me llegan, en cuestión de 5-10 minutos, entre 2 y 5 comentarios-spam. Y después ninguno más. Los borro y listo. ¿Os pasa igual?

Y ahora, voy a rellenar las letritas de los coj.... ;)

Buen finde, salu2!!

Kuddik dijo...

¿Y los que nos viene justito para leer y escribir?

O.k.,o.k.! dijo...

Scape95: a mí, casi cada vez que publico, a los segundos (a veces ni me da tiempo de haber leído la entrada, cómo queda en el blog) sale un spam. Lo borro, y listo.

¡¡¡¡¡¡¡¡¡¡ODIO EL ANTISPAM!!!!!!!!!

Hedone dijo...

Me chola que publiques de vez en cuando algo de culturilla general, trucos de bricolaje y tunning de motos. Me deshuevo leyéndote de vez em ciamdp además aprendo cosas. Que sepas que me has picado con el bricolaje...

Por cierto, pásate por Tetamen de Atracón que te va a gustar el ofertón de cacharrería tecnológica que acabo de publicar

Besos y buen finde bicho!!