Preparación de datos de archivos para lagos de datos en la nube

Una estrategia de lago de datos en la nube es una evolución natural para las organizaciones de TI empresariales con gran cantidad de datos que se trasladan a la nube, ya que eleva la nube de un casillero de almacenamiento de datos barato a un lugar donde los datos pueden aprovecharse para obtener un nuevo valor y monetizarse.

Si 2020 y 2021 fueron años de rápida aceleración de la nube, 2022 será el año en que las empresas comiencen a tomarse en serio la incorporación de datos de archivos no estructurados a lagos de datos en la nube. Hay algunas razones detrás de esta tendencia. En primer lugar, las organizaciones cuentan con petabytes de datos no estructurados, que comprenden al menos el 80 % de los 64 zetabytes de datos (y en aumento) almacenados en todo el mundo en la actualidad. La mayor parte son datos de archivos, desde imágenes médicas hasta transmisión de video, datos de sensores de automóviles eléctricos y productos IoT y los documentos que la gente usa en todos los sectores para colaborar y hacer negocios.

En segundo lugar, los datos de archivo se están volviendo inmanejables, costosos de almacenar y los CIO saben que están sentados en una potencial mina de oro de conocimientos si tan solo pudieran determinar cómo llevarlos a los lugares correctos para su análisis. Finalmente, las principales plataformas en la nube están invirtiendo fuertemente en herramientas de análisis de datos/ML/IA y niveles de almacenamiento de objetos de menor costo para respaldar proyectos de lagos de datos.

Ver también: Lagos de datos, datos de series temporales y análisis industrial

La maduración de los lagos de datos en la nube

Habilitar lagos de datos es uno de los principales objetivos que los administradores de TI están priorizando, junto con la seguridad, la gestión de costos y la visibilidad, según un estudio reciente que llevamos a cabo. La nube ha cambiado las estrategias tradicionales de lagos de datos, que comenzaron cuando las empresas querían analizar datos semiestructurados como CSV y archivos de registro. En 2006, nació Hadoop y obtuvo una adopción generalizada justo en el momento en que las conversaciones sobre Big Data comenzaban a circular. Sin embargo, Hadoop finalmente demostró ser más lento y costoso de lo esperado, complicado de configurar, escalar y administrar, y diseñado principalmente para el procesamiento por lotes. Para resolver estos problemas, Apache Spark entró en escena, ejecutándose hasta 100 veces más rápido para algunas cargas de trabajo y siendo adecuado para el análisis en tiempo real. Es importante destacar que el enfoque de empresas como Databricks era ejecutar Spark en la nube, mientras que Hadoop se implementaba principalmente en las instalaciones.

En los últimos años, las plataformas de lagos de datos basados en la nube han madurado y ahora están listas para el horario de máxima audiencia. El almacenamiento de objetos de escalamiento horizontal más económico de los proveedores de la nube ofrece una plataforma para proyectos masivos a escala de petabytes que simplemente no es viable en las instalaciones. Los lagos de datos de próxima generación se basan en Apache Spark para admitir S3 o el almacenamiento de datos de objetos, lo que hace posible ingerir y procesar datos semiestructurados y no estructurados. El almacenamiento de archivos también está en transición a la nube y debe aprovecharse como parte de un lago de datos en la nube, por lo que es posible que no todos los datos estén en el almacenamiento de objetos.

Cómo domar el lago de datos en la nube

Si bien estos son todavía los primeros días para los lagos de datos en la nube, es imperativo incluir datos de archivos en su lago de datos, ya que los modelos de aprendizaje automático requieren grandes cantidades para generar resultados significativos. Sin embargo, estos datos no estructurados no están estandarizados entre tipos de archivos:archivos de video, archivos de audio, datos de sensores, registros no comparten una estructura común. Y volcar todos estos datos de archivo de cualquier manera en la plataforma del lago de datos en la nube no es una estrategia sabia, sino un desastre para limpiar más tarde. A pesar de su promesa, existen muchos riesgos con los lagos de datos, que van desde altos costos de administración, brechas de habilidades, preocupaciones de seguridad y gobernanza, problemas de portabilidad al mover datos entre nubes y plataformas de almacenamiento y la preocupación de larga data de que el lago de datos se convierta en un pantano cuando los datos. se vuelve demasiado grande y enredado para buscar y analizar.

Estas son algunas consideraciones al embarcarse en llevar datos de archivos a un lago de datos en la nube para evitar o minimizar los conflictos .

Optimizar el lago de datos. Antes de poder analizar cualquier dato, debe limpiarse, normalizarse y clasificarse, lo que puede ser un proceso muy manual que contribuye a sobrecostos y ralentiza el tiempo de valorización. Esto siempre ha sido un desafío para una iniciativa de almacenamiento de datos y lo mismo se aplica a los lagos de datos y las casas de lagos de datos. Los lagos de datos son atractivos porque pueden ingerir datos en su formato nativo; requerir optimización antes de poner datos en el lago destruye esta facilidad de uso. ¿Cómo puede optimizar automáticamente los datos del archivo sin requerir un cambio en el comportamiento del usuario? La clave para optimizar los datos de los archivos son los metadatos:la información sobre los tipos de archivos, las fechas de creación y último acceso, los propietarios, los proyectos y la ubicación. La capacidad de indexar y etiquetar automáticamente archivos en propiedades de metadatos evitará problemas de saturación de datos y facilitará la búsqueda y segmentación más adelante, en lugar de simplemente dejar los lagos de datos sin administrar.
Use la indexación de metadatos para encontrar conjuntos de datos precisos para necesidades específicas. Las herramientas que pueden indexar archivos y buscar metadatos en todo el almacenamiento (incluidas las ubicaciones locales, perimetrales y en la nube) pueden reducir miles de millones de archivos a unos pocos miles para que solo envíe los archivos precisos que desea analizar a la nube.
Etiquete los datos sobre la marcha para mejorar la capacidad de búsqueda y uso . Una vez que encuentre los archivos que necesita, puede usar un sistema de aprendizaje automático para refinar aún más la búsqueda con más etiquetas. Este proceso debe ser continuo y automatizado, por lo que con el tiempo se desarrolla una estructura adicional y su lago de datos tiene una capacidad de búsqueda más sencilla junto con una mayor calidad en general.
Acomode el borde. A medida que crece la informática perimetral debido a los nuevos casos de uso de los datos de los sensores, la transmisión de datos desde el perímetro se volverá insostenible. ¿Cómo puede procesar más datos en el perímetro y llevar justo lo que necesita a un lago de datos en la nube? El preprocesamiento perimetral será más crítico a medida que crezcan los volúmenes de datos perimetrales.
Cree taxonomías por industria. No existe una nomenclatura de etiquetado estándar para cada industria. Tener algunas clasificaciones de etiquetado comunes por sector facilitará la búsqueda y extracción de datos, especialmente en entornos colaborativos como la investigación y las ciencias de la vida.
Abordar la movilidad de datos. Para ser verdaderamente móviles, los datos deben poder residir en diferentes sistemas en entornos de nube híbrida y, al mismo tiempo, acceder de forma nativa a los servicios en esos entornos. El desbloqueo de datos de los sistemas de almacenamiento patentados devuelve el control a TI y elimina las tarifas y las molestias de mover datos de una plataforma a la siguiente. La forma en que se utilizan y acceden a los datos y su valor cambia con el tiempo. Al preparar sus datos para el futuro, puede adaptarse al cambio y a los nuevos requisitos. Las soluciones independientes de gestión y movilidad de datos pueden ayudar aquí.
Desarrolla la cultura adecuada. Las principales organizaciones de TI continúan identificando la cultura (personas, procesos, organización, gestión del cambio) como el mayor impedimento para convertirse en organizaciones basadas en datos, según una investigación de 2021 realizada por New Vantage Partners. Una cultura basada en datos debe abarcar no solo a los analistas y las líneas de negocio, sino también a los equipos de infraestructura de TI. Los líderes de TI deberán desempeñar un papel para ayudar a los profesionales de redes, servidores y almacenamiento de datos a reorientar sus responsabilidades y tareas diarias hacia un marco de toma de decisiones centrado en los datos. Las herramientas y los procesos deben ser multifuncionales, lo que permite una visión holística de los activos de datos de la organización y la colaboración en torno a estrategias para administrar esos activos para beneficio de la organización.

Los lagos de datos en la nube han ganado popularidad porque los datos se pueden ingerir en su formato nativo sin el extenso procesamiento previo necesario para los almacenes de datos. La otra cara de la moneda es que los lagos de datos se han convertido en pantanos de datos, especialmente para datos de archivos no estructurados, ya que estos datos no tienen una estructura común. El análisis de datos de archivos se está volviendo más crítico con el aumento de los motores AI/ML que dependen de él. Los lagos de datos en la nube se pueden optimizar para datos no estructurados sin destruir su atractivo de ingesta de datos en formato nativo mediante la automatización de la indexación, búsqueda, recopilación y optimización de datos de archivos.

De la sartén a la cocina conectada 4 tendencias del metaverso industrial:¿hipérbole o revolución?

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas