Visión periférica e Inteligencia Artificial
Los beneficios de la visión periférica para las máquinas
Los investigadores encuentran similitudes entre la forma en que algunos sistemas de visión por computadora procesan las imágenes y la forma en que los humanos ven por el rabillo del ojo
by Overstand, 24/05/2022
¿Quizás la visión por computadora y la visión humana tienen más en común de lo que parece?
La investigación del MIT sugiere que cierto tipo de modelo robusto de visión por computadora percibe las representaciones visuales de manera similar a la forma en que los humanos usan la visión periférica. Estos modelos, conocidos como modelos adversarialmente robustos, están diseñados para superar sutiles bits de ruido que se han agregado a los datos de la imagen.
La forma en que estos modelos aprenden a transformar imágenes es similar a algunos elementos involucrados en el procesamiento periférico humano, encontraron los investigadores. Pero debido a que las máquinas no tienen una periferia visual, poco trabajo sobre los modelos de visión por computadora se ha centrado en el procesamiento periférico, dice el autor principal Arturo Deza, un postdoctorado en el Centro de Cerebros, Mentes y Máquinas.
“Parece que la visión periférica, y las representaciones texturales que están sucediendo allí, han demostrado ser bastante útiles para la visión humana. Entonces, nuestra idea fue, OK, tal vez también podría haber algunos usos en las máquinas”, dice la autora principal Anne Harrington, estudiante graduada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación.
Los resultados sugieren que el diseño de un modelo de aprendizaje automático para incluir alguna forma de procesamiento periférico podría permitir que el modelo aprenda automáticamente representaciones visuales que son resistentes a algunas manipulaciones sutiles en los datos de imagen. Este trabajo también podría ayudar a arrojar algo de luz sobre los objetivos del procesamiento periférico en humanos, que aún no se comprenden bien, agrega Deza.
La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Visión doble
Tanto los humanos como los sistemas de visión por computadora tienen lo que se conoce como visión foveal, que se utiliza para escudriñar objetos muy detallados. Los humanos también poseen visión periférica, que se utiliza para organizar una escena espacial amplia. Los enfoques típicos de visión por computadora intentan modelar la visión foveal, que es cómo una máquina reconoce objetos, y tienden a ignorar la visión periférica, dice Deza.
Pero los sistemas de visión por computadora foveal son vulnerables al ruido adversario, que un atacante agrega a los datos de imagen. En un ataque adversario, un agente malicioso modifica sutilmente las imágenes para que cada píxel haya cambiado muy levemente; un humano no notaría la diferencia, pero el ruido es suficiente para engañar a una máquina. Por ejemplo, una imagen puede parecer un automóvil para un ser humano, pero si se ha visto afectada por el ruido del adversario, un modelo de visión por computadora puede clasificarla erróneamente como, por ejemplo, un pastel, lo que podría tener serias implicaciones en un vehículo autónomo.
Para superar esta vulnerabilidad, los investigadores realizan lo que se conoce como entrenamiento contradictorio, donde crean imágenes que han sido manipuladas con ruido contradictorio, las envían a la red neuronal y luego corrigen sus errores al volver a etiquetar los datos y luego volver a entrenar el modelo.
“Simplemente haciendo ese proceso adicional de reetiquetado y entrenamiento parece dar mucha alineación perceptual con el procesamiento humano”, dice Deza.
Él y Harrington se preguntaron si estas redes entrenadas por adversarios son sólidas porque codifican representaciones de objetos que son similares a la visión periférica humana. Entonces, diseñaron una serie de experimentos humanos psicofísicos para probar su hipótesis.
Tiempo de pantalla
Comenzaron con un conjunto de imágenes y utilizaron tres modelos de visión por computadora diferentes para sintetizar representaciones de esas imágenes a partir del ruido: un modelo de aprendizaje automático "normal", uno que había sido entrenado para ser resistente a los adversarios y otro que había sido diseñado específicamente para dan cuenta de algunos aspectos del procesamiento periférico humano, llamados Texforms.
El equipo utilizó estas imágenes generadas en una serie de experimentos en los que se pidió a los participantes que distinguieran entre las imágenes originales y las representaciones sintetizadas por cada modelo. Algunos experimentos también hicieron que los humanos diferenciaran entre diferentes pares de imágenes sintetizadas al azar de los mismos modelos.
Los participantes mantuvieron sus ojos enfocados en el centro de una pantalla mientras se proyectaban imágenes en los lados más alejados de la pantalla, en diferentes lugares de su periferia. En un experimento, los participantes tenían que identificar la imagen extraña en una serie de imágenes que se mostraban durante solo milisegundos a la vez, mientras que en el otro tenían que hacer coincidir una imagen presentada en su fóvea, con dos imágenes de plantilla candidatas colocadas en su periferia. .
Cuando las imágenes sintetizadas se mostraron en la periferia lejana, los participantes fueron en gran medida incapaces de notar la diferencia entre el original para el modelo adversarialmente robusto o el modelo Texform. Este no fue el caso del modelo estándar de aprendizaje automático.
Sin embargo, lo que quizás sea el resultado más sorprendente es que el patrón de errores que cometen los humanos (en función de dónde aterrizan los estímulos en la periferia) está fuertemente alineado en todas las condiciones experimentales que usan los estímulos derivados del modelo Texform y el adversario. modelo robusto. Estos resultados sugieren que los modelos robustos frente a adversarios capturan algunos aspectos del procesamiento periférico humano, explica Deza.
Los investigadores también calcularon experimentos específicos de aprendizaje automático y métricas de evaluación de la calidad de la imagen para estudiar la similitud entre las imágenes sintetizadas por cada modelo. Descubrieron que los generados por el modelo contradictorio robusto y el modelo Texforms eran los más similares, lo que sugiere que estos modelos calculan transformaciones de imagen similares.
“Estamos arrojando luz sobre esta alineación de cómo los humanos y las máquinas cometen los mismos tipos de errores y por qué”, dice Deza. ¿Por qué ocurre la robustez contradictoria? ¿Existe un equivalente biológico para la robustez contradictoria en las máquinas que aún no hemos descubierto en el cerebro?
Deza espera que estos resultados inspiren trabajo adicional en esta área y alienten a los investigadores de visión artificial a considerar la construcción de modelos más inspirados biológicamente.
Estos resultados podrían usarse para diseñar un sistema de visión por computadora con algún tipo de periferia visual emulada que podría hacerlo automáticamente resistente al ruido adversario. El trabajo también podría informar el desarrollo de máquinas que puedan crear representaciones visuales más precisas mediante el uso de algunos aspectos del procesamiento periférico humano.
“Incluso podríamos aprender sobre la visión humana tratando de obtener ciertas propiedades de las redes neuronales artificiales”, agrega Harrington.
El trabajo anterior había mostrado cómo aislar partes "robustas" de imágenes, donde los modelos de entrenamiento en estas imágenes los hacían menos susceptibles a fallas adversarias. Estas imágenes robustas parecen versiones codificadas de las imágenes reales, explica Thomas Wallis, profesor de percepción en el Instituto de Psicología y Centro de Ciencias Cognitivas de la Universidad Técnica de Darmstadt.
“¿Por qué estas imágenes robustas se ven de la manera que lo hacen? Harrington y Deza utilizan cuidadosos experimentos de comportamiento humano para demostrar que la capacidad de las personas para ver la diferencia entre estas imágenes y las fotografías originales en la periferia es cualitativamente similar a la de las imágenes generadas a partir de modelos inspirados biológicamente del procesamiento de información periférica en humanos”, dice Wallis, que no participó en esta investigación. “Harrington y Deza proponen que el mismo mecanismo de aprender a ignorar algunos cambios de entrada visual en la periferia puede ser la razón por la cual las imágenes robustas se ven de la manera que lo hacen, y por qué el entrenamiento en imágenes robustas reduce la susceptibilidad adversaria. Esta intrigante hipótesis merece una mayor investigación y podría representar otro ejemplo de una sinergia entre la investigación en inteligencia biológica y de máquinas”.
Este trabajo fue apoyado, en parte, por el MIT Center for Brains, Minds and Machines y Lockheed Martin Corporation.
Este artículo ha sido elaborado tomando el MIT como fuente.