Utilizan inteligencia artificial para describir fotografías para invidentes -

Cuando las personas en Facebook navegan por su Feed de noticias, encuentran todo tipo de
contenidos -artículos, comentarios de amigos, invitaciones a eventos y, por supuesto, fotos-
. La mayoría de las personas pueden ver instantáneamente lo que hay en estas imágenes, ya
sea su nuevo nieto, un bote en un río o la imagen borrosa de una banda en el escenario.
Sin embargo, muchos usuarios con discapacidad visual también pueden experimentar esas
imágenes, siempre y cuando estén etiquetadas correctamente con texto alternativo (o “alt
text”). Un lector de pantalla puede describir el contenido de estas imágenes utilizando una
voz sintética, y permitir que las personas con discapacidad visual comprendan las imágenes
en su Feed de Facebook.
Desafortunadamente, muchas fotos se publican sin texto alternativo, por lo que en 2016 se
presentó una nueva tecnología llamada Texto Alternativo Automático (AAT por sus siglas
en inglés), basada en Inteligencia Artificial.
El AAT utiliza el reconocimiento de objetos para generar descripciones de fotos a pedido
para que las personas ciegas o con discapacidad visual puedan disfrutar más plenamente de
su Feed de noticias. Desde entonces, se ha estado mejorando y presentar la próxima
generación de AAT.
La evolución de ATT representa múltiples avances tecnológicos que mejoran la experiencia
fotográfica de los usuarios. En primer lugar, se amplió más de 10 veces la cantidad de
objetos que AAT puede detectar e identificar de manera confiable en una foto, lo que a su
vez significa menos fotos sin descripción. Además, las descripciones son más detalladas,
con la capacidad de identificar actividades, puntos de referencia, tipos de animales, y
mucho más — como “Puede ser una selfie de 2 personas, al aire libre, en la Torre de Pisa”.
Facebook informó que “somos la primera empresa de la industria que será capaz de incluir
información sobre la ubicación posicional y el tamaño relativo de los elementos en una
foto. En lugar de describir el contenido de una foto como “Puede ser una imagen de 5
personas”, podemos especificar que hay dos personas en el centro de la foto y otras tres
hacia los márgenes, lo que implica que las dos en el centro son el foco. O en lugar de
simplemente describir un paisaje encantador como “Puede ser una casa y una montaña”,
podemos resaltar que la montaña es el objeto principal en una escena según lo grande que
parece en comparación con la casa en su base.
En conjunto, estos avances ayudan a los usuarios con discapacidad visual a comprender
mejor el contenido de las fotos publicadas por familiares y amigos — y sus propias fotos —
al proporcionar más información, más detallada.
El concepto de “texto alternativo” se remonta a los primeros días de Internet, cuando era
una alternativa de texto a la descarga de imágenes para conexiones lentas.
Por supuesto, el texto alternativo también ayudó a las personas con discapacidad visual a
navegar por Internet, ya que el software de lectura de pantalla puede usarse para generar
descripciones de imágenes en audio.
Hace casi cinco años se aprovechó la experiencia en visión computacional de Facebook
para ayudar a resolver este problema. La primera versión de AAT se desarrolló utilizando
datos etiquetados por humanos, con los que se entrenó una red neuronal convolucional
profunda utilizando millones de ejemplos de forma supervisada.
El modelo completo de AAT pudo reconocer 100 conceptos comunes, como “árbol”,
“montaña” y “al aire libre”. Y dado que los usuarios de Facebook a menudo comparten
fotos de amigos y familiares, las descripciones de AAT utilizaron modelos de
reconocimiento facial que identificaron a las personas.

Para la última versión de AAT, se aprovechó un modelo entrenado con datos supervisados
parcialmente, utilizando miles de millones de imágenes públicas de Instagram y sus
hashtags. Para que los modelos funcionen mejor para todos, se ajustaron para que los datos
fueran muestreados a partir de imágenes en todas las geografías, y utilizando traducciones
de hashtags en muchos idiomas.
Para obtener información más rica, como posición y recuento en la imagen, también se
entrenó a un detector de objetos de dos etapas, Faster R-CNN, utilizando Detectron2, una
plataforma de código abierto para la detección y segmentación de objetos desarrollada por
Facebook AI Research. El AAT mejorado reconoce de manera confiable más de 1200
conceptos — 10 veces más que la versión original lanzada en 2016.
El AAT usa una redacción simple para brindar descripciones precisas predeterminadas, en
lugar de una oración larga. No es poético, pero es muy funcional. Los usuarios pueden
obtener la descripción rápidamente en 45 idiomas diferentes.