Los humanos observamos el mundo a través de una combinación de diferentes modalidades, como la visión, el oído y nuestra comprensión del lenguaje. Las máquinas, por otro lado, interpretan el mundo a través de datos que los algoritmos pueden procesar.
Entonces, cuando una máquina "ve" una foto, debe codificar esa foto en datos que pueda usar para realizar una tarea como la clasificación de imágenes. Este proceso se vuelve más complicado cuando las entradas vienen en múltiples formatos, como videos, clips de audio e imágenes.
“El principal desafío aquí es, ¿cómo puede una máquina alinear esas diferentes modalidades? Como humanos, esto es fácil para nosotros. Vemos un automóvil y luego escuchamos el sonido de un automóvil que pasa, y sabemos que es lo mismo. Pero para el aprendizaje automático, no es tan sencillo”, dice Alexander Liu, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que aborda este problema.
Liu y sus colaboradores desarrollaron una técnica de inteligencia artificial que aprende a representar datos de una manera que captura conceptos que se comparten entre las modalidades visuales y de audio. Por ejemplo, su método puede aprender que la acción de un bebé llorando en un video está relacionada con la palabra hablada "llorando" en un clip de audio.
Usando este conocimiento, su modelo de aprendizaje automático puede identificar dónde se lleva a cabo una determinada acción en un video y etiquetarla.
Funciona mejor que otros métodos de aprendizaje automático en tareas de recuperación multimodal, que implican encontrar un dato, como un video, que coincida con la consulta de un usuario dada en otra forma, como el lenguaje hablado. Su modelo también facilita que los usuarios vean por qué la máquina cree que el video que recuperó coincide con su consulta.
Esta técnica podría utilizarse algún día para ayudar a los robots a aprender sobre conceptos en el mundo a través de la percepción, más como lo hacen los humanos.
Junto a Liu en el artículo están el posdoctorado de CSAIL, SouYoung Jin; los estudiantes de posgrado Cheng-I Jeff Lai y Andrew Rouditchenko; Aude Oliva, científica investigadora sénior en CSAIL y directora del MIT-IBM Watson AI Lab del MIT; y el autor principal James Glass, científico investigador principal y director del Grupo de Sistemas de Lenguaje Hablado en CSAIL. La investigación se presentará en la Reunión Anual de la Asociación de Lingüística Computacional.
Representaciones de aprendizaje
Los investigadores centran su trabajo en el aprendizaje de representación, que es una forma de aprendizaje automático que busca transformar los datos de entrada para facilitar la realización de una tarea como la clasificación o la predicción.
El modelo de aprendizaje de representación toma datos sin procesar, como videos y sus leyendas de texto correspondientes, y los codifica extrayendo características u observaciones sobre objetos y acciones en el video. Luego mapea esos puntos de datos en una cuadrícula, conocida como espacio de incrustación. El modelo agrupa datos similares como puntos únicos en la cuadrícula. Cada uno de estos puntos de datos, o vectores, está representado por una palabra individual.
Por ejemplo, un clip de video de una persona haciendo malabares podría asignarse a un vector etiquetado como "malabares".
Los investigadores restringen el modelo para que solo pueda usar 1000 palabras para etiquetar vectores. El modelo puede decidir qué acciones o conceptos quiere codificar en un solo vector, pero solo puede usar 1000 vectores. El modelo elige las palabras que cree que representan mejor los datos.
En lugar de codificar datos de diferentes modalidades en cuadrículas separadas, su método emplea un espacio de incrustación compartido donde dos modalidades se pueden codificar juntas. Esto permite que el modelo aprenda la relación entre las representaciones a partir de dos modalidades, como un video que muestra a una persona haciendo malabares y una grabación de audio de alguien que dice "haciendo malabares".
Para ayudar al sistema a procesar datos de múltiples modalidades, diseñaron un algoritmo que guía a la máquina para codificar conceptos similares en el mismo vector.
“Si hay un video sobre cerdos, el modelo podría asignar la palabra 'cerdo' a uno de los 1000 vectores. Luego, si el modelo escucha a alguien decir la palabra 'cerdo' en un clip de audio, aún debe usar el mismo vector para codificar eso”, explica Liu.
un mejor cobrador
Probaron el modelo en tareas de recuperación multimodal utilizando tres conjuntos de datos: un conjunto de datos de video y texto con clips de video y subtítulos de texto, un conjunto de datos de video y audio con clips de video y subtítulos de audio hablado, y un conjunto de datos de imagen y audio con imágenes y audio hablado. subtítulos
Por ejemplo, en el conjunto de datos de audio y video, el modelo eligió 1000 palabras para representar las acciones en los videos. Luego, cuando los investigadores le enviaron consultas de audio, el modelo trató de encontrar el clip que mejor coincidía con esas palabras habladas.
“Al igual que una búsqueda en Google, escribes un texto y la máquina trata de decirte las cosas más relevantes que estás buscando. Solo nosotros hacemos esto en el espacio vectorial”, dice Liu.
No solo era más probable que su técnica encontrara mejores coincidencias que los modelos con los que la compararon, sino que también es más fácil de entender.
Debido a que el modelo solo podía usar 1,000 palabras en total para etiquetar vectores, un usuario puede ver más fácilmente qué palabras usó la máquina para concluir que el video y las palabras habladas son similares. Esto podría hacer que el modelo sea más fácil de aplicar en situaciones del mundo real donde es vital que los usuarios entiendan cómo toma decisiones, dice Liu.
El modelo todavía tiene algunas limitaciones que esperan abordar en trabajos futuros. Por un lado, su investigación se centró en datos de dos modalidades a la vez, pero en el mundo real, los humanos encuentran muchas modalidades de datos simultáneamente, dice Liu.
“Y sabemos que 1000 palabras funcionan en este tipo de conjunto de datos, pero no sabemos si se puede generalizar a un problema del mundo real”, agrega.
Además, las imágenes y videos en sus conjuntos de datos contenían objetos simples o acciones sencillas; los datos del mundo real son mucho más desordenados. También quieren determinar qué tan bien se amplía su método cuando hay una diversidad más amplia de entradas.
Esta investigación fue apoyada, en parte, por MIT-IBM Watson AI Lab y sus empresas miembro, Nexplore y Woodside, y por MIT Lincoln Laboratory.
Este artículo ha sido elaborado tomando el MIT como fuente.