Data Lake frente a Big Data para aplicaciones industriales
Lago de datos y big data son dos términos modernos que a menudo se malinterpretan y se utilizan incorrectamente. Debido a los grandes volúmenes de datos implícitos, estos términos a veces se usan indistintamente. Sin embargo, el lago de datos y el big data son diferentes, aunque es posible que sus definiciones actuales aún no estén completamente establecidas.
Figura 1. Los datos modernos pueden provenir de muchas fuentes y ser de diferentes tipos. Imagen utilizada por cortesía de Analytics Vidhya
Veamos primero un breve contexto histórico. A fines de la década de 2000, con el crecimiento explosivo de las plataformas de redes sociales, como Facebook y Twitter, muchos científicos de datos comenzaron a darse cuenta del potencial de tales plataformas para generar grandes cantidades de datos personales valiosos. En consecuencia, se desarrollaron nuevas aplicaciones de software para facilitar el procesamiento y análisis de datos. Un ejemplo destacado es Apache Hadoop, esencialmente un conjunto de herramientas de aplicaciones de código abierto que pueden procesar grandes niveles de información de datos.
En la siguiente década, la Internet de las cosas (IoT) entró en escena. Esto abrió las puertas a millones de fuentes de datos más que podrían proporcionar información sobre las preferencias y patrones de una persona, al mismo tiempo que enviaban información sobre el producto en sí.
Al mismo tiempo, el aprendizaje automático estaba logrando avances importantes y encontrando aplicaciones más prácticas en el panorama industrial. Esto resultó en una mayor necesidad de manejar grandes volúmenes de datos en las industrias, particularmente en procesos automatizados.
Todas las proyecciones indican que la cantidad total de datos disponibles en el mundo continuará expandiéndose a ritmos acelerados en los próximos años. Como referencia, en 2016, el mundo superó el hito de 1 Zettabyte de tráfico anual de Internet generado. Un Zettabyte equivale a 1 billón de Gigabytes.
Se espera que el tráfico anual de Internet supere los 3 Zettabytes en 2021. Estas proyecciones, junto con las capacidades ampliadas de la computación en la nube, indican que el valor y los usos de los macrodatos (y los lagos de datos) quizás apenas estén comenzando.
¿Qué es Big Data?
Al mirarlo simplemente desde la perspectiva del volumen, la definición de big data es un objetivo en movimiento. A medida que la cantidad de datos y espacio de almacenamiento disponible sigue creciendo, también lo hace el punto de referencia de lo que se considera una gran cantidad de información.
Hoy en día, un repositorio de datos de 100 Terabytes de tamaño o más generalmente se considera que está en el rango de big data. Los repositorios de datos grandes, como los de las plataformas de redes sociales, pueden estar en el rango de varios Petabytes.
Otra referencia utilizada para definir big data es cuando la cantidad de información no puede ser manejada por herramientas informáticas tradicionales, como SQL. Por ejemplo, hoy en día, no es raro que las bases de datos alcancen un tamaño de 1 terabyte al año. Pero, con las aplicaciones SQL cada vez más poderosas, esta magnitud de la base de datos aún se puede administrar; por lo tanto, normalmente no se consideran macrodatos.
Modelo 4V de Big Data
Hasta ahora, hemos analizado la definición de big data desde la perspectiva del volumen. Hay otros tres factores importantes a considerar:velocidad, variedad y veracidad. Estos, junto con el volumen, forman el modelo 4V.
Figura 2. El modelo 4V de big data:volumen, velocidad, variedad y veracidad. Imagen utilizada por cortesía de APSense
La variedad se refiere a todos los diferentes tipos de datos almacenados en un repositorio de big data:texto, imágenes, sonido, video, etc. También se refiere al hecho de que los datos pueden provenir de múltiples fuentes.
La velocidad es una consideración importante en big data porque la información se transmite constantemente. La velocidad se relaciona con la velocidad a la que se recopilan, generan y distribuyen los datos.
La veracidad mide la precisión y la calidad de los datos para evaluar si un científico de datos puede usarlos para el análisis y para sacar conclusiones a partir de ellos.
Ahora que entendemos los macrodatos, revisemos los lagos de datos antes de sumergirnos en cómo usarlos en un sistema de control.
¿Qué es un lago de datos?
Los lagos de datos son repositorios centralizados de grandes cantidades de datos sin procesar, que es información que puede ser valiosa o no en el futuro y cuyo propósito aún no se conoce al 100%. Los lagos de datos pueden almacenar bases de datos relacionales y no relacionales, junto con otros tipos de archivos y entidades.
Aunque la información en un lago de datos no se procesa ni se organiza, está estructurada de modo que se consideren todas las entradas y salidas para crear una buena arquitectura.
Data Lake frente a Big Data
Un lago de datos es una instancia de una aplicación de big data. Siguen los criterios descritos en el modelo 4V, con algunas particularidades añadidas. En términos de volumen, los lagos de datos están, en promedio, cerca del extremo inferior de lo que se considera big data.
La información de los lagos de datos es variada, pero la condición es que solo se trate de datos sin procesar sin procesar. Las velocidades de entrada y salida son tan relevantes como con cualquier sistema moderno y las evaluaciones de la calidad de los datos se realizan en un lago de datos bien diseñado.
Aplicaciones industriales para datos
La automatización avanzada está impulsando un rápido aumento en la cantidad de información que se maneja en la fábrica. Gracias a esto, la fabricación y otros procesos industriales ahora están entrando en el ámbito de los macrodatos, y varias actividades comerciales ahora emplean herramientas como lagos de datos.
Un ejemplo destacado es el mantenimiento predictivo. La capacidad de predecir una falla mecánica o eléctrica es muy valiosa y puede proporcionar ahorros sustanciales en los costos de reparación. Los lagos de datos son herramientas útiles que pueden recopilar información proveniente de archivos de registro, múltiples sensores y dispositivos de entrada, que se pueden usar para comprender tendencias y predecir problemas.
El aprendizaje automático es un concepto en el que los robots reciben información que puede ayudarlos a adaptarse a las cambiantes condiciones externas. La captura de información es similar al mantenimiento predictivo, con el paso adicional de que las evaluaciones y los cambios en el proceso se envían automáticamente al controlador del sistema. Los datos de aprendizaje automático se pueden almacenar en un lago de datos estructurados.
Figura 3. El aprendizaje automático tiene varias estrategias y cada una requiere grandes cantidades de datos. Imagen utilizada por cortesía de WordStream
Para concluir, un lago de datos es una instancia de una aplicación de big data. Estas dos formas de ver los datos pueden funcionar juntas. Al utilizar tanto big data como data lake, un ingeniero de control puede predecir fallas, crear rutinas de mantenimiento, hacer crecer la transformación digital de la instalación y mucho más.
¿Para qué utiliza Big Data y Data Lakes en su trabajo?
Tecnología de Internet de las cosas
- Sensores y procesadores convergen para aplicaciones industriales
- Cervoz:elegir el almacenamiento flash adecuado para aplicaciones industriales
- GE presenta el servicio en la nube para datos industriales, análisis
- Perspectivas para el desarrollo de IoT industrial
- Cuatro grandes desafíos para la Internet industrial de las cosas
- Seis elementos esenciales para aplicaciones exitosas informadas por sensores
- Cómo entender el big data:RTU y aplicaciones de control de procesos
- Preparando el escenario para el éxito de la ciencia de datos industriales
- Para obtener una visión real de Internet industrial:no solo capture datos, utilícelos
- ¿Los macrodatos proporcionarán una panacea para los presupuestos sanitarios en crisis?
- 7 Aplicaciones industriales de IoT