Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Sistema de control de automatización

La evolución de la visión 3D

La visión 3D está en el corazón de la automatización moderna que mejora los procesos industriales de innumerables maneras y nos hace la vida más fácil. Nos ayuda a clasificar productos, inspeccionar objetos en aplicaciones de control de calidad y encontrar defectos en ellos, y también completar las tareas más variadas de manera más rápida y eficiente de lo que los humanos podrían hacer. Los robots guiados por visión se usan comúnmente para realizar tareas peligrosas y manejar objetos pesados, por lo que también aumentan la seguridad y eliminan el riesgo de lesiones.

Las tecnologías de detección 3D han recorrido un largo camino para ofrecer todos estos beneficios que podemos disfrutar hoy, y aún siguen avanzando. Desde la primera fotografía hasta la imagen digital, desde el 2D al 3D, y desde el escaneo 3D de objetos estáticos hasta la captura de escenas dinámicas. ¿Qué viene después?

Junto con Tomas Kovacovsky, cofundador y CTO de Photoneo Group, analizamos la historia de la visión artificial en 3D hasta los últimos avances que dominan las tendencias actuales, como la Industria 4.0. Echémosle un breve vistazo.

La fotografía y las primeras tecnologías de captura de imágenes

Desde los inicios de la fotografía, la gente se ha sentido fascinada por la posibilidad de capturar y registrar eventos. La primera fotografía conocida fue tomada en algún lugar entre 1826 y 1827 del inventor francés Joseph Nicéphore Niépce. Si bien su proceso fotográfico requería al menos ocho horas, si no varios días, de exposición en la cámara, su asociado Louis Daguerre desarrolló el primer proceso fotográfico anunciado públicamente (conocido como daguerrotipo) que solo tomaba unos minutos de exposición. La invención se presentó al público en 1839 – un año que generalmente se considera el nacimiento de la fotografía práctica.

Durante mucho tiempo, la fotografía solo sirvió como medio para registrar eventos. Debido a que el procesamiento de imágenes tomó bastante tiempo, la tecnología analógica no era ideal para usarla en tareas de toma de decisiones o visión artificial.

En 1969, William Boyle y George E. Smith de los Laboratorios Americal Bell inventó el Sensor CCD (dispositivo de carga acoplada) para grabar imágenes , que fue un hito importante en el desarrollo de la imagen digital. Un sensor CCD captura imágenes convirtiendo fotones en electrones, es decir, toma la luz y la traduce en datos digitales. Aunque los CCD no podían competir con la película estándar para la captura de imágenes en ese momento, comenzaron a usarse para ciertas aplicaciones y la pelota se puso en marcha.

De 2D a 3D

La detección 2D lanzó la era de la automatización y fue el enfoque predominante en la automatización del sector industrial durante mucho tiempo. La visión 2D se usa en algunas aplicaciones simples incluso hoy en día, incluidas las siguientes:

Sin embargo, la principal limitación de las tecnologías 2D es que no pueden reconocer las formas de los objetos ni medir la distancia en la dimensión Z.

Las aplicaciones 2D requieren condiciones buenas y bien definidas con iluminación adicional, lo que también limita aplicaciones como la recolección de contenedores. Esta tarea robótica se puede realizar con un sistema de visión 2D, pero generalmente es problemática debido a la posición aleatoria de los objetos en un contenedor y una gran cantidad de información en la escena que los sistemas de visión 2D no pueden manejar.

La gente reconoció la necesidad de información 3D para poder automatizar tareas más complejas. Entendieron que los humanos podían ver su entorno en una vista 3D y decir la distancia de los objetos porque tenían dos ojos:visión estereoscópica.

En la década de 1960, Larry Roberts , quien es aceptado como el padre de la visión artificial , describió cómo obtener información geométrica en 3D a partir de fotografías en 2D de dibujos lineales y cómo una computadora podría crear un modelo 3D a partir de una sola fotografía 2D.

En la década de 1970, se inició un curso de "Visión artificial" en el Laboratorio de Inteligencia Artificial del MIT para abordar tareas de visión artificial de bajo nivel. Aquí, David Marr desarrolló un enfoque único para la comprensión de escenas a través de la visión por computadora, donde utilizó la visión como un sistema de procesamiento de información. Su enfoque comenzó con un boceto en 2D, que fue desarrollado por la computadora para obtener una imagen en 3D final.

La investigación en visión artificial se intensificó en la década de 1980 y generó nuevas teorías y conceptos. Estos dieron lugar a una serie de distintas tecnologías de visión artificial en 3D, que se han adoptado gradualmente en entornos industriales y de fabricación para automatizar la más amplia gama de procesos.

Primeras tecnologías de visión 3D

El esfuerzo por imitar la visión estereoscópica humana resultó en el desarrollo de una de las primeras tecnologías de detección 3D:estéreo pasivo. . Este método de triangulación observa una escena desde dos puntos de vista y calcula el triángulo cámara – objeto escaneado – cámara , buscando correlaciones entre las dos imágenes. Según la disparidad entre las imágenes, calcula la distancia (profundidad) desde el objeto escaneado. Sin embargo, este enfoque se basa en encontrar detalles idénticos en las imágenes, por lo que no funciona bien con paredes blancas o escenas sin patrones. La confiabilidad del estéreo pasivo es pequeña y la salida 3D generalmente tiene mucho ruido y requiere mucha potencia informática.

Para compensar esta desventaja, los investigadores comenzaron a experimentar proyectando patrones de luz en la escena para crear una textura artificial en la superficie e identificar más fácilmente las correspondencias en la escena. Este método se llama estéreo activo . Aunque este método es más confiable que el estéreo pasivo, la calidad de la reconstrucción a menudo se ve comprometida por los estrictos requisitos de tiempo de procesamiento, lo que lo hace insuficiente para muchas aplicaciones.

Uno de los métodos más antiguos y todavía muy populares para adquirir información 3D es la perfilometría láser. . Esta técnica proyecta una banda estrecha de luz (o un punto) sobre una superficie 3D, lo que produce una línea de iluminación que aparece distorsionada desde un ángulo distinto al del proyector. Esta desviación codifica información de profundidad. Los escáneres lineales capturan un perfil de profundidad a la vez en rápida sucesión, para lo cual requieren que el objeto escaneado o la cámara se muevan constantemente. La perfilometría láser fue uno de los primeros métodos de escaneo 3D que se adoptó para uso industrial y sigue siendo muy popular en aplicaciones metrológicas, por ejemplo.

Otro método inventado mediante la proyección de patrones de luz estructurada en una escena es la luz estructurada. . Uno de los trabajos más citados sobre el uso de la luz estructurada con códigos binarios para la restauración digital fue The Digital Michelangelo Project. dirigido por Marc Levoy y su equipo en la Universidad de Stanford. El proyecto comenzó en 1998 para digitalizar las estatuas de Miguel Ángel con el uso de un proyector y un sensor de cámara. Los datos de escaneo láser del David de Miguel Ángel se usaron luego para la restauración de la estatua que comenzó en 2002. Aunque el método usado en este proyecto no fue lo suficientemente rápido para usarse en aplicaciones en tiempo real, brindó la precisión muy alta necesaria para la digitalización de varios artefactos y objetos. Gracias a esto, la tecnología encontró su nicho en aplicaciones metrológicas y otras tareas de robótica y visión artificial que requieren una alta precisión de escaneo.

Gradualmente, la tecnología de luz estructurada se expandió más allá de la metrología y penetró todo tipo de aplicaciones en línea utilizando robots guiados por visión. La ventaja de los escáneres 3D de luz estructurada es que no requieren movimiento. Debido a que pueden tomar una instantánea de toda el área de escaneo y no es necesario recorrer todo el objeto con el escáner, son más rápidos que los dispositivos basados ​​en perfilometría láser y no requieren tanto procesamiento posterior de datos.

De escenas estáticas a dinámicas

La captura de movimiento es mucho más desafiante que el escaneo 3D de escenas estáticas y descalifica métodos que requieren tiempos de adquisición más largos.

Porque estéreo pasivo es un método pasivo que no usa iluminación adicional, podría usarse para capturar escenas dinámicas pero solo si se cumplen ciertas condiciones. Aun así, los resultados no serían buenos.

Perfilometría láser No es un método mucho más exitoso que el estéreo pasivo a este respecto. Debido a que captura un perfil a la vez, para hacer una instantánea completa de la escena, la cámara o la escena deben moverse. Sin embargo, la tecnología no puede capturar un evento dinámico. Para reconstruir la profundidad de un solo perfil, se requiere la captura de una imagen de escaneo de área estrecha, por lo que su tamaño limita la velocidad de fotogramas y, en consecuencia, también la velocidad de escaneo.

Luz estructurada los sistemas, por otro lado, proyectan múltiples patrones de luz en la escena en una secuencia, uno tras otro. Para ello, la escena debe ser estática. Si el objeto escaneado o la cámara se mueven, el código se rompe y la nube de puntos 3D se distorsiona.

La necesidad de hacer una reconstrucción 3D de objetos dinámicos condujo al desarrollo de Time-of-Flight (ToF) sistemas Similar a la tecnología de luz estructurada, ToF es un método activo que envía señales de luz a la escena y luego interpreta las señales con la cámara y su software. A diferencia de la luz estructurada, ToF estructura la luz en el tiempo y no en el espacio. Funciona según el principio de medir el tiempo durante el cual una señal de luz emitida por la fuente de luz golpea el objeto escaneado y regresa al sensor.

Los primeros sistemas ToF tenían una calidad bastante baja. Los grandes jugadores en este campo incluyeron empresas como Canesta, 3DV Systems o Microsoft (que luego adquirió ambas empresas). Uno de los primeros proyectos conocidos fue ZCam, una cámara de tiempo de vuelo desarrollada por 3DV y luego comprada por Microsoft para ser utilizada para la adquisición de información 3D y la interacción con objetos virtuales en la consola de videojuegos Xbox de Microsoft.

En 2010, Microsoft lanzó su sistema de sensor Kinect para Xbox, una cámara con detección de movimiento basada en la tecnología PrimeSense. La tecnología PrimeSense utilizó un patrón estructurado para codificar ciertos píxeles (no todos) y obtener información en 3D. Aunque el método no podía proporcionar contornos detallados y de alta resolución en los bordes de los objetos escaneados, fue ampliamente adoptado ya que su velocidad de procesamiento era bastante rápida y la tecnología también era muy asequible. Se ha utilizado principalmente en el ámbito académico pero apenas se puede encontrar también en el entorno industrial para el picking robótico y otras tareas.

A diferencia de Kinect 1, Kinect 2 se basó en la tecnología ToF. Los avances en ToF hicieron que el método se volviera cada vez más popular y ampliamente adoptado:podía proporcionar una calidad superior a la tecnología PrimeSense, pero la resolución de los escaneos 3D de escenas dinámicas aún no era suficiente.

Los sistemas ToF actuales son bastante populares en aplicaciones de visión 3D gracias a su rápida velocidad de escaneo y adquisición casi en tiempo real. Sin embargo, su resolución sigue siendo un problema y también tienen problemas con niveles de ruido más altos.

En 2013, a Photoneo se le ocurrió una idea revolucionaria sobre cómo capturar objetos que se mueven rápidamente para obtener información 3D en alta resolución y precisión submilimétrica.

La tecnología patentada de Luz Estructurada Paralela se basa en un sensor CMOS patentado especial que presenta un obturador de múltiples toques con un patrón de mosaico de píxeles, que cambia fundamentalmente la forma en que se puede tomar una imagen.

Este novedoso enfoque de instantánea utiliza luz estructurada pero intercambia el papel de la cámara y el proyector:mientras que los sistemas de luz estructurada emiten múltiples patrones desde el proyector en una secuencia, la tecnología de luz estructurada paralela envía un barrido láser muy simple, sin patrones, a través de la escena. y construye los patrones en el otro lado, en el sensor CMOS. Todo esto sucede en una sola instancia de tiempo y permite la construcción de múltiples imágenes virtuales dentro de una ventana de exposición. El resultado es una imagen 3D de alta resolución y alta precisión de escenas en movimiento sin artefactos de movimiento.

Una escena dinámica capturada por la tecnología Parallel Structured Light .

La tecnología de luz estructurada paralela se implementa en la cámara 3D MotionCam-3D de Photoneo. El desarrollo de la cámara y su lanzamiento al mercado marcó un hito en la historia de la visión artificial, ya que redefinió la robótica guiada por visión y amplió las posibilidades de automatización a un grado sin precedentes. El enfoque novedoso fue reconocido con muchos premios, incluido el Premio Visión 2018 , Premio Platino a los innovadores en el diseño de sistemas de visión 2019 , inVision Top Innovations 2019 , Premio IERA 2020 , Robotics Business Review's RBR50 Robotics Innovation Awards 2021 , inVision Top Innovations 2021 y Premio a la innovación de SupplyTech 2022 .

Escaneo 3D en movimiento y color

En 2022, Photoneo amplió las capacidades de MotionCam-3D equipándola con una unidad de color para la captura de datos de color. MotionCam-3D Color se considera la próxima bala de plata en visión artificial, ya que finalmente permite la creación de nubes de puntos 3D coloridas en tiempo real de escenas en movimiento con una calidad perfecta. Gracias a la combinación única de geometría 3D, movimiento y color, la cámara abre la puerta a aplicaciones de IA exigentes y tareas robóticas que no solo dependen de la información de profundidad sino también de los datos de color.

Creación de una nube de puntos en 3D a todo color en tiempo real de una escena en movimiento con MotionCam-3D Color .

Áreas de aplicación habilitadas por innovaciones de visión artificial

Las posibilidades que ofrecen las últimas innovaciones en visión artificial 3D nos permiten automatizar tareas hasta hace poco inviables. Estas aplicaciones se pueden encontrar en la fabricación, la logística, la automoción, la alimentación, la agricultura, la medicina y otros sectores e incluyen:

¿Qué sigue?

La visión artificial continúa desarrollándose para traer nuevos avances con nuevas posibilidades. La dirección de las innovaciones siempre está influenciada por las demandas del mercado, las expectativas de los clientes, la competencia y otros factores.

Podemos esperar que la tendencia de implementar IA en todas las áreas de la visión artificial definitivamente continúe con el objetivo de eliminar el desarrollo de algoritmos hechos a la medida. Podemos ver un enorme potencial en el área de la inteligencia artificial (IA) y su combinación con la tecnología de luz estructurada en paralelo. Por un lado, la IA depende de buenos datos. Por otro lado, la nueva tecnología de visión artificial puede proporcionar una gran cantidad de datos 3D reales de alta calidad. La combinación de estos dos enfoques puede transformar la robótica inteligente y habilitar una nueva esfera de posibilidades.

Otra dirección prometedora de desarrollos futuros es la computación perimetral. Es probable que los fabricantes continúen con sus esfuerzos para integrar la IA directamente en los sensores y especializarlos para un propósito definido (por ejemplo, conteo de personas, dimensionamiento o detección automática de características de objetos definidos), lo que facilita la implementación para los integradores y minimiza la necesidad de componentes adicionales. Las nuevas soluciones de hardware capaces de capturar escenas en movimiento combinadas con algoritmos avanzados de IA ampliarán los campos de aplicación cada vez más amplios incluso en áreas más desafiantes como la robótica colaborativa o la automatización logística completa.


Sistema de control de automatización

  1. ¿Cuál es la realidad de la visión del robot?
  2. La evolución del mantenimiento industrial
  3. Inspección por visión artificial:herramientas del oficio
  4. Cisco Cyber ​​Vision:Bajo el capó
  5. La evolución de la práctica de mantenimiento
  6. El poder de una visión clara y concisa
  7. ¿5G cumplirá la visión de 2020?
  8. La evolución de los materiales médicos
  9. La evolución de las máquinas médicas
  10. La evolución del servicio dinámico de Houston
  11. La evolución de las placas de circuito impreso