Los seres humanos pueden ser uno de los mayores obstáculos que mantienen a los vehículos totalmente autónomos fuera de las calles de la ciudad.
Si un robot va a conducir un vehículo de manera segura por el centro de Boston, debe ser capaz de predecir qué harán a continuación los conductores, ciclistas y peatones cercanos.
Sin embargo, la predicción del comportamiento es un problema difícil y las soluciones de inteligencia artificial actuales son demasiado simplistas (pueden suponer que los peatones siempre caminan en línea recta), demasiado conservadoras (para evitar a los peatones, el robot simplemente deja el auto en el estacionamiento) o pueden solo pronostique los próximos movimientos de un agente (las carreteras generalmente transportan a muchos usuarios a la vez).
Los investigadores del MIT han ideado una solución engañosamente simple para este complicado desafío. Dividen un problema de predicción de comportamiento de múltiples agentes en partes más pequeñas y abordan cada una individualmente, de modo que una computadora pueda resolver esta tarea compleja en tiempo real.
Su marco de predicción de comportamiento primero adivina las relaciones entre dos usuarios de la carretera (qué automóvil, ciclista o peatón tiene el derecho de paso y qué agente cederá el paso) y usa esas relaciones para predecir futuras trayectorias para múltiples agentes.
Estas trayectorias estimadas fueron más precisas que las de otros modelos de aprendizaje automático, en comparación con el flujo de tráfico real en un enorme conjunto de datos compilado por la empresa de conducción autónoma Waymo. La técnica del MIT incluso superó al modelo recientemente publicado de Waymo. Y debido a que los investigadores dividieron el problema en partes más simples, su técnica usó menos memoria.
“Esta es una idea muy intuitiva, pero nadie la ha explorado completamente antes, y funciona bastante bien. La simplicidad es definitivamente una ventaja. Estamos comparando nuestro modelo con otros modelos de última generación en el campo, incluido el de Waymo, la empresa líder en esta área, y nuestro modelo logra el máximo rendimiento en este desafiante punto de referencia. Esto tiene mucho potencial para el futuro”, dice el coautor principal Xin “Cyrus” Huang, estudiante graduado en el Departamento de Aeronáutica y Astronáutica y asistente de investigación en el laboratorio de Brian Williams, profesor de aeronáutica y astronáutica y un miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).
Junto a Huang y Williams, hay tres investigadores de la Universidad de Tsinghua en China: el coautor principal Qiao Sun, asistente de investigación; Junru Gu, estudiante de posgrado; y el autor principal Hang Zhao PhD '19, profesor asistente. La investigación será presentada en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones.
Múltiples modelos pequeños
El método de aprendizaje automático de los investigadores, llamado M2I, toma dos entradas: trayectorias pasadas de automóviles, ciclistas y peatones que interactúan en un entorno de tráfico, como una intersección de cuatro vías, y un mapa con ubicaciones de calles, configuraciones de carriles, etc.
Utilizando esta información, un predictor de relaciones infiere cuál de los dos agentes tiene el derecho de paso primero, clasificando a uno como pasador y al otro como cedente. Luego, un modelo de predicción, conocido como predictor marginal, adivina la trayectoria del agente que pasa, ya que este se comporta de manera independiente.
Un segundo modelo de predicción, conocido como predictor condicional, adivina qué hará el agente que cede en función de las acciones del agente que pasa. El sistema predice una serie de trayectorias diferentes para el cedente y el pasador, calcula la probabilidad de cada uno individualmente y luego selecciona los seis resultados conjuntos con la mayor probabilidad de que ocurran.
M2I genera una predicción de cómo estos agentes se moverán a través del tráfico durante los próximos ocho segundos. En un ejemplo, su método hizo que un vehículo redujera la velocidad para que un peatón pudiera cruzar la calle, y luego aceleró cuando despejaron la intersección. En otro ejemplo, el vehículo esperó hasta que pasaron varios autos antes de girar de una calle lateral a una calle principal muy transitada.
Si bien esta investigación inicial se enfoca en las interacciones entre dos agentes, M2I podría inferir relaciones entre muchos agentes y luego adivinar sus trayectorias al vincular múltiples predictores marginales y condicionales.
Pruebas de manejo en el mundo real
Los investigadores entrenaron a los modelos utilizando Waymo Open Motion Dataset, que contiene millones de escenas de tráfico reales que involucran vehículos, peatones y ciclistas registradas por sensores y cámaras lidar (detección y rango de luz) montados en los vehículos autónomos de la compañía. Se centraron específicamente en casos con múltiples agentes.
Para determinar la precisión, compararon las seis muestras de predicción de cada método, ponderadas por sus niveles de confianza, con las trayectorias reales seguidas por los automóviles, ciclistas y peatones en una escena. Su método era el más preciso. También superó a los modelos de referencia en una métrica conocida como tasa de superposición; si dos trayectorias se superponen, eso indica una colisión. M2I tuvo la tasa de superposición más baja.
“En lugar de simplemente construir un modelo más complejo para resolver este problema, adoptamos un enfoque que se parece más a cómo piensa un ser humano cuando razona sobre las interacciones con los demás. Un ser humano no razona sobre todos los cientos de combinaciones de comportamientos futuros. Tomamos decisiones bastante rápido”, dice Huang.
Otra ventaja de M2I es que, debido a que divide el problema en partes más pequeñas, es más fácil para el usuario comprender la toma de decisiones del modelo. A la larga, eso podría ayudar a los usuarios a confiar más en los vehículos autónomos, dice Huang.
Pero el marco no puede dar cuenta de los casos en los que dos agentes se influyen mutuamente, como cuando dos vehículos avanzan en una parada de cuatro vías porque los conductores no están seguros de quién debería ceder el paso.
Planean abordar esta limitación en trabajos futuros. También quieren usar su método para simular interacciones realistas entre los usuarios de la carretera, lo que podría usarse para verificar los algoritmos de planificación para automóviles autónomos o crear grandes cantidades de datos de conducción sintéticos para mejorar el rendimiento del modelo.
“La predicción de trayectorias futuras de múltiples agentes que interactúan está poco explorada y es extremadamente desafiante para permitir una autonomía total en escenas complejas. M2I proporciona un método de predicción muy prometedor con el predictor de relación para discriminar agentes predichos de forma marginal o condicional, lo que simplifica significativamente el problema”, escribió Masayoshi Tomizuka, Cheryl y John Neerhout, Jr. Profesor Distinguido de Ingeniería Mecánica en la Universidad de California en Berkeley y Wei Zhan, investigador profesional asistente, en un correo electrónico. “El modelo de predicción puede capturar la relación inherente y las interacciones de los agentes para lograr el desempeño más avanzado”. Los dos colegas no participaron en la investigación.
Esta investigación cuenta con el apoyo, en parte, de Qualcomm Innovation Fellowship. Toyota Research Institute también proporcionó fondos para apoyar este trabajo.
Este artículo ha sido elaborado tomando el MIT como fuente.