Preparación de datos de archivos para lagos de datos en la nube
Una estrategia de lago de datos en la nube es una evolución natural para las organizaciones de TI empresariales con gran cantidad de datos que se trasladan a la nube, ya que eleva la nube de un casillero de almacenamiento de datos barato a un lugar donde los datos pueden aprovecharse para obtener un nuevo valor y monetizarse.
Si 2020 y 2021 fueron años de rápida aceleración de la nube, 2022 será el año en que las empresas comiencen a tomarse en serio la incorporación de datos de archivos no estructurados a lagos de datos en la nube. Hay algunas razones detrás de esta tendencia. En primer lugar, las organizaciones cuentan con petabytes de datos no estructurados, que comprenden al menos el 80 % de los 64 zetabytes de datos (y en aumento) almacenados en todo el mundo en la actualidad. La mayor parte son datos de archivos, desde imágenes médicas hasta transmisión de video, datos de sensores de automóviles eléctricos y productos IoT y los documentos que la gente usa en todos los sectores para colaborar y hacer negocios.
En segundo lugar, los datos de archivo se están volviendo inmanejables, costosos de almacenar y los CIO saben que están sentados en una potencial mina de oro de conocimientos si tan solo pudieran determinar cómo llevarlos a los lugares correctos para su análisis. Finalmente, las principales plataformas en la nube están invirtiendo fuertemente en herramientas de análisis de datos/ML/IA y niveles de almacenamiento de objetos de menor costo para respaldar proyectos de lagos de datos.
Ver también: Lagos de datos, datos de series temporales y análisis industrial
La maduración de los lagos de datos en la nube
Habilitar lagos de datos es uno de los principales objetivos que los administradores de TI están priorizando, junto con la seguridad, la gestión de costos y la visibilidad, según un estudio reciente que llevamos a cabo. La nube ha cambiado las estrategias tradicionales de lagos de datos, que comenzaron cuando las empresas querían analizar datos semiestructurados como CSV y archivos de registro. En 2006, nació Hadoop y obtuvo una adopción generalizada justo en el momento en que las conversaciones sobre Big Data comenzaban a circular. Sin embargo, Hadoop finalmente demostró ser más lento y costoso de lo esperado, complicado de configurar, escalar y administrar, y diseñado principalmente para el procesamiento por lotes. Para resolver estos problemas, Apache Spark entró en escena, ejecutándose hasta 100 veces más rápido para algunas cargas de trabajo y siendo adecuado para el análisis en tiempo real. Es importante destacar que el enfoque de empresas como Databricks era ejecutar Spark en la nube, mientras que Hadoop se implementaba principalmente en las instalaciones.
En los últimos años, las plataformas de lagos de datos basados en la nube han madurado y ahora están listas para el horario de máxima audiencia. El almacenamiento de objetos de escalamiento horizontal más económico de los proveedores de la nube ofrece una plataforma para proyectos masivos a escala de petabytes que simplemente no es viable en las instalaciones. Los lagos de datos de próxima generación se basan en Apache Spark para admitir S3 o el almacenamiento de datos de objetos, lo que hace posible ingerir y procesar datos semiestructurados y no estructurados. El almacenamiento de archivos también está en transición a la nube y debe aprovecharse como parte de un lago de datos en la nube, por lo que es posible que no todos los datos estén en el almacenamiento de objetos.
Una estrategia de lago de datos en la nube es una evolución natural para las organizaciones de TI empresariales con gran cantidad de datos que se trasladan a la nube, ya que eleva la nube de un casillero de almacenamiento de datos barato a un lugar donde los datos pueden aprovecharse para obtener un nuevo valor y monetizarse.
Cómo domar el lago de datos en la nube
Si bien estos son todavía los primeros días para los lagos de datos en la nube, es imperativo incluir datos de archivos en su lago de datos, ya que los modelos de aprendizaje automático requieren grandes cantidades para generar resultados significativos. Sin embargo, estos datos no estructurados no están estandarizados entre tipos de archivos:archivos de video, archivos de audio, datos de sensores, registros no comparten una estructura común. Y volcar todos estos datos de archivo de cualquier manera en la plataforma del lago de datos en la nube no es una estrategia sabia, sino un desastre para limpiar más tarde. A pesar de su promesa, existen muchos riesgos con los lagos de datos, que van desde altos costos de administración, brechas de habilidades, preocupaciones de seguridad y gobernanza, problemas de portabilidad al mover datos entre nubes y plataformas de almacenamiento y la preocupación de larga data de que el lago de datos se convierta en un pantano cuando los datos. se vuelve demasiado grande y enredado para buscar y analizar.
Estas son algunas consideraciones al embarcarse en llevar datos de archivos a un lago de datos en la nube para evitar o minimizar los conflictos .
Los lagos de datos en la nube han ganado popularidad porque los datos se pueden ingerir en su formato nativo sin el extenso procesamiento previo necesario para los almacenes de datos. La otra cara de la moneda es que los lagos de datos se han convertido en pantanos de datos, especialmente para datos de archivos no estructurados, ya que estos datos no tienen una estructura común. El análisis de datos de archivos se está volviendo más crítico con el aumento de los motores AI/ML que dependen de él. Los lagos de datos en la nube se pueden optimizar para datos no estructurados sin destruir su atractivo de ingesta de datos en formato nativo mediante la automatización de la indexación, búsqueda, recopilación y optimización de datos de archivos.
Tecnología de Internet de las cosas
- Construya su infraestructura de nube para el rendimiento y la eficiencia
- ¿Su carrera de TI está lista para la nube?
- Las cinco principales prácticas de seguridad para AWS Backup
- Cómo definir la estrategia de datos para el mundo de múltiples nubes
- Cómo prepararse para la IA utilizando IoT
- GE presenta el servicio en la nube para datos industriales, análisis
- ¿Su sistema está listo para IoT?
- ¿Qué es la computación en la niebla y qué significa para IoT?
- La nube en IoT
- Beneficios de usar la computación en la nube para almacenar datos de IoT
- ¿Estás listo para una Smart Factory?