Los modelos de Inteligencia Artificial se encuentran actualmente en boca de muchos, y no es para menos. Empresas como OpenAI, Google o Meta son desarrolladoras que llevan mucho tiempo trabajando en este tipo de modelos de Inteligencia Artificial, y han puesto diferentes versiones de estos disponibles al público.
El concepto de agente multimodal hace referencia a la capacidad del modelo de Inteligencia Artificial de hacer uso de información proveniente de diferentes formatos para otorgar una respuesta. Hemos sido testigos de la evolución de este tipo de modelos, desde sus inicios siendo capaces de procesar información en formato de texto, hasta la actualidad, donde muchos de estos están capacitados para responder a nuestras cuestiones con datos de otro tipo, como imágenes o consultas de voz. Esta evolución ha estado marcada por los últimos avances en Machine Learning de estos años, y es interesante ver cómo el rendimiento de estos modelos es tal que cada vez son más las personas que utilizan modelos de lenguaje para apoyarse en sus cuestiones diarias.

Actualmente, los modelos de lenguaje multimodales tienen una gran relevancia en el mundo tecnológico, y parece que las empresas están destinando gran parte de sus recursos en un campo específico, la Inteligencia Artificial. La capacidad multimodal de los nuevos modelos abre todo un abanico de posibilidades, permitiendo crear “agentes” que actuen con conocimiento, y reflejen razonamiento en sus acciones.
El objetivo de este artículo es proporcionar una comprensión más detallada de los agentes de IA multimodales, las tecnologías que los impulsan y sus aplicaciones actuales y potenciales. Examinaremos cómo estos agentes están cambiando la forma en que interactuamos con la tecnología y cómo podrían moldear el futuro de la IA. Además, discutiremos los desafíos técnicos y éticos que conlleva el desarrollo de estos sistemas avanzados, así como las tendencias emergentes que están definiendo el campo.
Agentes de IA multimodales. Conceptos fundamentales y diferenciación
Comenzaremos dando respuesta a una pregunta esencial que puede surgir al comenzar a leer este artículo: ¿Qué son los agentes de IA multimodales?

En esencia, la multimodalidad es una característica que, aplicada a un modelo de Inteligencia Artificial, le permite obtener información a partir de fuentes de datos de diversos tipos. Podemos definir al aprendizaje multimodal, entonces, como un subcampo de la IA que tiene como objetivo llevar al límite la capacidad de aprendizaje de las máquinas, entrenándolas con grandes cantidades de texto y otro tipo de datos, como imágenes, vídeos, secuencias de audio, etc. La multimodalidad permite a los modelos aprender nuevos patrones y correlaciones entre las descripciones de texto y datos de otro tipo, relacionados entre sí.
En base a esta definición, un agente de IA multimodal constituye todo un sistema en funcionamiento, a disposición de las personas, que permite nuestra interacción con él de diferentes maneras, manteniendo una coherencia en sus respuestas que el agente logra en base a una comprensión profunda de la información que le proporcionamos.
¿Qué diferencias existen entre los agentes de IA multimodales y otro tipo de aplicaciones de la Inteligencia Artificial?

Los agentes de IA multimodales actuales destacan por su capacidad para procesar e integrar información proveniente de múltiples modalidades, como texto, imágenes, audio y video, a diferencia de los sistemas tradicionales o unimodales que trabajan con un solo tipo de dato. Esto les permite lograr la capacidad de resolver tareas que no necesariamente deben estar ligadas a una única modalidad, generando así respuestas más completas y con un contexto más profundo del que logran otros sistemas unimodales. Si bien es cierto que la multimodalidad inherente en estos sistemas los hace más robustos frente a escenarios complejos, ya que la falta de información o baja calidad de datos en una modalidad puede ser compensada con información proveniente de otra, estamos ante modelos que necesitan una cantidad de energía mucho mayor para poder funcionar, a comparación modelos más tradicionales.
En contraste, los sistemas unimodales suelen estar restringidos a tareas específicas: reconocimiento facial en imágenes y vídeos; procesamiento de lenguaje en textos, etc. Esta limitación es en muchos casos beneficiosa, pues nos permite integrar este tipo de modelos en dispositivos que no destacan por su potencia, abaratando enormemente los costes de funcionamiento y mantenimiento que implica su uso. Además, la arquitectura de los sistemas unimodales es siempre más sencilla que la que emplean los agentes multimodales, por lo que el entrenamiento y mejoras que necesite a posteriori se podrán llevar a cabo en menor tiempo y con una cantidad menor de datos.
Tipos de datos disponibles para los agentes de IA multimodal

Como hemos comentado, estos sistemas son característicos por su capacidad de obtener información proveniente de datos de distintos tipos. Aunque inicialmente se limitaban a texto, muchos sistemas actuales son capaces de procesar información de fuentes como:
- Voz. La multimodalidad permite a los modelos de lenguaje reconocer y analizar el habla humana. Esta característica permite a las empresas entregar productos que otorguen interacciones más naturales y accesibles a todas las personas.
- Imágenes. El análisis de imágenes y comprensión de contenido visual, desde fotografías hasta gráficos o diagramas, amplía el contexto sobre el que los modelos de lenguaje generan una respuesta a nuestras interacciones. En ocasiones, una imagen vale más que mil palabras.
- Vídeo. Otra de las características clave que permite la multimodalidad es el procesamiento de secuencias de vídeo. El análisis de imágenes en movimiento facilita al modelo de lenguaje comprender el contexto temporal, identificar acciones y comportamientos, y extraer información visual dinámica.
- Sensores. Utilizar la información captada mediante sensores y dispositivos IoT amplía enormemente las aplicaciones de la IA multimodal en las distintas industrias. Los modelos de lenguaje obtienen un contexto mucho más amplio cuando se integran datos del mundo físico, como temperatura, movimiento, ubicación, etc.
El texto es otra de las fuentes de las que los sistemas multimodales pueden obtener su información, y una de las más relevantes y empleadas durante los entrenamiento y posteriores usos tras el despliegue. La importancia del texto como fuente de datos reside, en parte, a que es uno de los tipos con mayor disponibilidad en Internet, por lo que es común pensar que la mayor parte del conjunto de datos de entrenamiento de estos modelos se basa en texto.
Aplicaciones actuales de la IA multimodal
La evolución y crecimiento de los modelos de lenguaje nos ha permitido a los humanos disponer de más herramientas con las que comunicarnos con las máquinas. Los nuevos modelos pueden aprender de datos obtenidos con sensores, vídeos o grabaciones de audio, lo que sin duda a aumentado enormemente la aplicabilidad de estos modelos en la industria moderna. A continuación, mencionamos algunos ejemplos de uso de estos modelos:
- Atención médica. La industria médica puede resultar una de las más favorecidas con la evolución de esta tecnología. La empresa Zebra Medical Vision utiliza IA multimodal para el análisis de imágenes médicas y la detección de ciertas enfermedades, como cáncer de mama, osteoporosis y otras de ámbito cardiovascular.
- Comercio minorista y atención al cliente. Los actuales sistemas de IA multimodal tienen la capacidad de analizar más a fondo las consultas de los usuarios, atendiendo a su tono de voz y expresiones faciales (en sistemas que lo permitan), pudiendo ofrecer servicios mucho más personalizados.
- Agricultura de precisión. Actualmente, gran parte la industria agricultora emplea dispositivos IoT para optimizar los rendimientos de los cultivos. En este sentido, los datos provenientes de sensores localizados en tierra, drones y satélites pueden emplearse para optimizar todos los aspectos del cultivo, creando un sistema de agricultura inteligente.
- Vehículos autónomos. La capacidad de conducción autónoma en estos vehículos reside en la posibilidad de toma de decisiones de todo un complejo sistema de IA multimodal. Los sistemas que integran estos vehículos son capaces de percibir el entorno del vehículo y tomar decisiones en base a la información que procesan. Si bien es cierto que el rendimiento de estos sistemas es correcto y hasta sobresaliente en ciertos casos, aún no se trabaja en lograr una autonomía total y legal para los vehículos que integren esta tecnología.
- Gestión del tráfico. La representación de señales de tráfico, cámaras de vigilancia y otros sistemas de información puede ser empleada para capacitar a agentes multimodales que colaboren en la optimización del flujo de tráfico, manteniendo su capacidad de responder a las condiciones que reflejen los datos en tiempo real. Estas industrias y otras que no hemos incluido en este artículo son ejemplos de aplicaciones prácticas acerca de cómo la multimodalidad en Inteligencia Artificial puede abrirnos las puertas a los humanos hacia la ejecución de nuestro trabajo de forma más precisa, y a optimizar nuestro tiempo a una escala sin precedentes.
Por otro lado, Intuitive, una empresa que desarrolla material especializado para cirugía, ha desarrollado los sistemas quirúrgicos da Vinci, asistidos por IA multimodal, los cuales permiten a los cirujanos realizar procedimientos mínimamente invasimos con mayor precisión.
En el caso del comercio, un enfoque óptimo se basa en integrar consultas textuales con el historial de navegación y las preferencias visuales de los usuarios, con el fin de mejorar las recomendaciones de productos, creando una experiencia de compra más intuitiva y satisfactoria.
Ventajas y desafíos propios de los sistemas de IA multimodales
La multimodalidad representa una revolución en nuestra manera de interactuar con las máquinas y, aunque se trata de un campo de la Inteligencia Artificial que tiene un largo camino por delante, hemos visto como las capacidades actuales de esta tecnología le han permitido buscarse un hueco en numerosas industrias, como las ya mencionadas.

Entre las principales ventajas del uso de sistemas multimodales, encontramos:
- Mayor precisión en análisis y predicciones. Al combinar múltiples fuentes de datos, los sistemas multimodales logran, generalmente, mejores resultados en tareas que impliquen el uso de Inteligencia Artificial.
- Comprensión contextual. Muy en la línea con respecto a la mejora en la precisión de estos modelos, la capacidad de procesar datos de diferentes tipos les otorga una comprensión más completa y matizada de la información de la que disponen.
- Innovación continua. Al tratarse de un campo con un largo desarrollo en los años venideros, la multimodalidad en Inteligencia Artificial abre la puerta a nuevas aplicaciones y avances tecnológicos.
- Mejora en la toma de decisiones. La combinación de distintas modalidades de datos permite a los sistemas tomar decisiones contextualmente más relevantes. Esta habilidad nos resulta de gran utilidad a los humanos, puesto que es más probable que nosotros, los humanos, actuemos con osadía ante ciertas situaciones.
Por otra parte, los agentes de IA multimodales representan ciertos retos técnicos y éticos que debemos tener en consideración si decidimos trabajar con ellos:
- Complejidad técnica. No es una sorpresa; el desarrollo de sistemas capaces de procesar e integrar múltiples tipos de datos de forma óptima requiere una comprensión profunda en arquitecturas de Inteligencia Artificial. Las grandes empresas del sector continuan sus avances en este campo, asumiendo que se trata de una tecnología en constante evolución.
- Alto coste de mantenimiento y operatividad. Los modelos de IA multimodal requieren una cantidad de datos para su entrenamiento mucho mayores que la que emplean los sistemas unimodales. Este entrenamiento también conlleva gastos de energía asociados, y al llevar meses de entrenamiento, representa un coste que puede no ser compensado con los beneficios que se obtengan del modelo. A este punto habría que sumar la potencia de cálculo del dispositivo donde se quiera ejecutar el modelo. Actualmente, la mayoría de dispositivos dentro del “Edge Computing” (dispositivos IoT, smartphones) no tienen la capacidad de ejecutar estos modelos de manera local, por lo que la accesibilidad y escalabilidad de los modelos se ve ampliamente limitada.
- Implicaciones éticas. Instituciones de todo el mundo trabajan para desarrollar unos estándares que regulen el impacto en la sociedad y el empleo que compensen el aumento de la autonomía y la capacidad de toma de decisiones de estos sistemas.
Con el fin de garantizar un desarrollo e implementación responsables de los agentes de IA multimodales, es necesario que comencemos a trabajar en las cuestiones técnicas y morales a medida que evoluciona esta tecnología.
Una mirada hacia el futuro de los sistemas de IA multimodales

Existe mucha controversia y especulación acerca de lo que serán capaces de hacer los futuros modelos de lenguaje, a medida que se descubran nuevos hallazgos en la IA multimodal y avance la tecnología actual. Sin embargo, muchos profesionales concuerdan en la posibilidad de desarrollar sistemas mucho más complejos y eficientes que los actuales. A continuación, mencionamos algunos de estos:
- Asistentes virtuales hiperrealistas. El futuro de los asistentes virtuales que conocemos apunta una interacción más fluida, similar a la comunicación humana.
- Integración de realidad aumentada. La fusión de IA multimodal con realidad aumentada promete revolucionar industrias como el comercio minorista y la educación. En un contexto plenamente especulativo, podríamos imaginar probarnos ropa virtualmente con un asistente IA, que nos ofrezca recomendaciones personalizadas basadas en nuestro estilo y preferencias.
- Mejoras en la interacción usuario-máquina. Los avances en IA multimodal están allanando el camino para interfaces más intuitivas. Todo apunta a que dentro de unos años podremos interactuar con dispositivos mediante gestos naturales y comandos de voz contextuales, eliminando la necesidad de interfaces táctiles tradicionales. Las empresas del mercado móvil están apostando fuertemente en Inteligencia Artificial, y gran parte de las novedades que se presentan muestran ejemplos de como la IA nos facilita la interacción con nuestro dispositivo.
- Avances en robótica. Los expertos también concuerdan en la posibilidad de que la IA multimodal se acabe integrando en robots industriales y destinados al servicio, lo que mejorará su autonomía y adaptabilidad. La interpretación precisa del entorno permitiría a los nuevos robots tomar decisiones más complejas en tiempo real.
- Asistencia inteligente más sofisticada. Es muy probable que los próximos avances en el campo de la multimodalidad permita a los grandes modelos comprender lenguajes menos naturales, facilitando la comunicación con señas, dibujos o patrones captados en vídeos.
En una de las últimas grandes actualizaciones que OpenAi lanzó para ChatGPT, desplegando su modelo GPT-4o, mejoraron las respuestas del chat de voz que hay integrado en este servicio. Ahora el modelo de lenguaje ofrece respuestas por voz de forma mucho más natural y precisa, estando un paso más cerca de desarrollar asistentes virtuales hiperrealistas.