Exprimir el valor de los datos para AI

Los datos lo son todo (en muchos aspectos, son lo único) para los proveedores de vehículos autónomos (AV) que dependen del aprendizaje profundo como clave para la conducción autónoma.

Los datos son la razón por la que las empresas audiovisuales están acumulando millas y millas de experiencia en pruebas en vías públicas, registrando y acumulando petabytes de conocimiento de la carretera. Waymo, por ejemplo, reclamó en julio más de 10 millones de millas en el mundo real y 10 mil millones de millas en simulación.

Pero aquí hay otra pregunta que a la industria no le gusta hacer:

Suponga que las empresas audiovisuales ya han recopilado petabytes o incluso exabytes de datos en carreteras reales. ¿Cuánto de ese conjunto de datos se ha etiquetado? Quizás más importante, ¿qué tan precisos son los datos que se han anotado?

En una entrevista reciente con EE Times, Phil Koopman, cofundador y director de tecnología de Edge Case Research, afirmó que "nadie puede permitirse el lujo de etiquetarlo todo".

Etiquetado de datos:lento y costoso

La anotación generalmente requiere ojos humanos expertos para ver un videoclip corto, luego dibujar y etiquetar cuadros alrededor de cada automóvil, peatón, señal de tráfico, semáforo o cualquier otro elemento posiblemente relevante para un algoritmo de conducción autónoma. El proceso no solo requiere mucho tiempo, sino que también es muy costoso.

Una historia reciente en Medium titulada "Anotación de datos:el negocio de miles de millones de dólares detrás de los avances de la IA" ilustra la rápida aparición de "servicios de etiquetado de datos administrados" diseñados para entregar datos etiquetados específicos del dominio con énfasis en el control de calidad. La historia señaló:

Además de sus equipos internos de etiquetado de datos, las empresas de tecnología y las nuevas empresas autónomas también dependen en gran medida de estos servicios de etiquetado administrado ... algunas empresas autónomas están pagando empresas de etiquetado de datos superiores a millones de dólares al mes.

En otra historia de IEEE Spectrum hace unos años, Carol Reiley, cofundadora y presidenta de Drive.ai fue citada diciendo:

Miles de personas etiquetan cajas alrededor de cosas. Por cada hora conducida, son aproximadamente 800 horas humanas para etiquetar. Todos estos equipos lucharán. Ya somos magnitudes más rápidos y optimizamos constantemente.

Algunas empresas, como Drive, están utilizando el aprendizaje profundo para mejorar la automatización de la anotación de datos, como una forma de acelerar el tedioso proceso de etiquetado de datos.

Usemos datos sin etiquetar

Sin embargo, Koopman cree que hay otra forma de "exprimir el valor de los datos acumulados". ¿Qué tal lograr esto "sin etiquetar la mayoría de los petabytes de datos registrados?"

Explicó que Edge Case Research "tropezó" con esto, al idear una forma de permitir que la industria AV acelere el desarrollo de un software de percepción más seguro. Edge Case Research lo llama "Holograma", que es en esencia un "sistema de análisis de riesgos y pruebas de estrés de percepción de inteligencia artificial" diseñado para vehículos autónomos.

Más específicamente, como explicó Koopman, "Hologram usa datos sin etiquetar" y el sistema ejecuta los mismos datos sin etiquetar dos veces.

En primer lugar, ejecuta datos de referencia sin etiquetar en un motor de percepción normal listo para usar. Luego, con los mismos datos sin etiquetar, se aplica Holograma, agregando una perturbación muy leve:ruido. Al poner estrés en el sistema, Hologram, como resulta, puede exponer la debilidad potencial de la percepción en los algoritmos de IA.

Si se agrega un poco de grano a un videoclip, por ejemplo, un humano podría percibir que "hay algo allí, pero no sé qué es".

Pero un sistema de percepción impulsado por IA, sometido a estrés, puede pasar por alto totalmente un objeto desconocido o patearlo a través del umbral y ponerlo en un contenedor de clasificación diferente.

Cuando la IA todavía está aprendiendo, es útil conocer su nivel de confianza (ya que determina lo que está viendo). Pero cuando la IA se aplica en el mundo, el nivel de confianza no nos dice mucho. La IA a menudo está "adivinando" o simplemente "asumiendo".

En otras palabras, la IA está fingiendo.

El holograma, por diseño, puede "pinchar" el software de percepción impulsado por la inteligencia artificial. Expone dónde falló un sistema de inteligencia artificial. Por ejemplo, un sistema estresado resuelve su confusión haciendo desaparecer misteriosamente un objeto de la escena.

Quizás, lo que es más interesante, Hologram también puede identificar, bajo ruido, donde la IA “casi falla” pero acertó. El holograma revela áreas en un videoclip donde el sistema impulsado por IA de otra manera "podría haber tenido mala suerte", dijo Koopman.

Sin etiquetar petabytes de datos, pero ejecutándolo dos veces, Hologram puede proporcionar un aviso donde las cosas se ven "sospechosas" y áreas donde "es mejor que vuelvas y mires de nuevo", ya sea recopilando más datos o realizando más capacitación, dijo Koopman. .

Esta, por supuesto, es una versión muy simplificada de Hologram, porque la herramienta en sí, en realidad, "viene con muchas salsas secretas respaldadas por una tonelada de ingeniería", dijo Koopman. Pero si Hologram puede decirles a los usuarios "solo las partes buenas" que merecen una revisión humana, puede resultar en una forma muy eficiente de obtener un valor real de los datos actualmente bloqueados.

"Las máquinas son increíblemente buenas para jugar con el sistema", señaló Koopman. O "hacer cosas como 'p-hacking'". P-hacking es un tipo de sesgo que ocurre cuando los investigadores recopilan o seleccionan datos o análisis estadísticos hasta que los resultados no significativos se vuelven significativos. Las máquinas, por ejemplo, pueden encontrar correlaciones dentro de los datos donde no existen.

Conjunto de datos de fuente abierta

Cuando se le preguntó si esta es una buena noticia para Edge Case Research, Koopman dijo:“Desafortunadamente, estos conjuntos de datos están disponibles solo para la comunidad de investigadores. No para uso comercial ".

Además, incluso si usa un conjunto de datos de este tipo para ejecutar Hologram, debe usar el mismo motor de percepción que se usa para recopilar datos, para comprender las áreas de debilidad en el sistema de IA de uno.

Captura de pantalla del holograma

A continuación se muestra una captura de pantalla que muestra cómo funciona la última versión comercial de Hologram.

El motor de hologramas encuentra instancias en las que un sistema de percepción no ha podido identificar esta señal de alto y proporciona a los analistas herramientas poderosas para descubrir las condiciones desencadenantes, como el ruido de fondo. (Fuente:Edge Case Research)

Al agregar ruido, Hologram busca las condiciones de activación que hicieron que un sistema de inteligencia artificial casi pierda una señal de alto (barras naranjas), o que no reconozca por completo una señal de alto (barras rojas hacia abajo).

Las barras naranjas advierten a los diseñadores de inteligencia artificial sobre áreas específicas que requieren reentrenamiento del algoritmo AL mediante la recopilación de más datos. Las barras rojas permiten a los diseñadores de inteligencia artificial explorar y especular sobre las condiciones de activación:¿qué causó que la inteligencia artificial no alcanzara la señal de alto? ¿Estaba el letrero demasiado cerca de un poste? ¿Había un fondo ruidoso o no había suficiente contraste visible? Cuando se acumulan suficientes ejemplos de condiciones desencadenantes, podría ser posible identificar desencadenantes específicos, explicó Eben Myers, gerente de producto de Edge Case Research.

Hologram ayuda a los diseñadores de AV a encontrar casos extremos en los que su software de percepción exhibe un comportamiento extraño y potencialmente inseguro. (Fuente:Edge Case Research)

Asociación con Ansys

A principios de esta semana, Ansys anunció un acuerdo de asociación con Edge Case Research. Ansys planea integrar Hologram en su software de simulación. Ansys ve la integración como un componente fundamental fundamental para diseñar "la primera cadena de herramientas de simulación holística de la industria para el desarrollo de AV". Ansys está colaborando con BMW, que ha prometido entregar su primer AV en 2021.

ANSYS y BMW crean una cadena de herramientas de simulación para la conducción autónoma (Fuente:Ansys)

- Junko Yoshida, coeditor en jefe global, AspenCore Media, corresponsal internacional en jefe, EE Times

>> Este artículo se publicó originalmente el nuestro sitio hermano, EE Times:"Use datos sin etiquetar para ver si la inteligencia artificial solo está fingiendo".

10 factores para encontrar el interruptor perfecto para su aplicación Los componentes que ahorran energía mejoran la eficiencia energética industrial

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas