El argot de los ases:términos comunes para los entusiastas de los macrodatos
Los macrodatos se cargan con grandes palabras. Tener una buena comprensión de los términos de datos comunes lo ayuda no solo a comprender, sino también a participar e influir en las conversaciones sobre iniciativas de datos. Consulte los debates fundamentales sobre la evolución y la revolución de los datos en www.datamakespossible.com.
Bien, comencemos y desmitifiquemos algunos términos que ha escuchado antes y presentemos algunos que pueden ser nuevos.
Científico de datos
Combinando partes iguales de ciencia, negocios y arte, el científico de datos utiliza el conocimiento de algoritmos, herramientas y procesos para extraer algo de valor de los datos. Un científico de datos a menudo ejecutará el aprendizaje automático o la inteligencia artificial para extraer, agrupar o analizar conjuntos de datos.
Heteroscedasticidad y datos heterocedásticos
Hetero QUÉ ? Este puede ser un término nuevo para usted, así que veamos un ejemplo muy básico de lo que esto significa.
Algunos datos son constantes y nunca cambia. Los weblogs de ayer son una constante. Hasta que inventemos el viaje en el tiempo, no podrás volver atrás y cambiar lo que alguien hizo ayer.
El siguiente nivel de complejidad de los datos es lineal . Una cola o correo de voz es un ejemplo de crecimiento lineal. Si un trabajador puede procesar diez mensajes por hora, entonces necesitaríamos cinco trabajadores para manejar 50 mensajes por hora. Datos que crecen en cuadrático la moda crecería a 4x (o más) la tasa. Un ejemplo de esto podrían ser las redes sociales. Cuando escribes una publicación, 4, 10, 100 o incluso millones de personas pueden leerla. Esas personas pueden compartir su publicación, comentarla o generar algunos metadatos que cambian cada segundo. Aquí es donde empezamos a entrar en heterocedasticidad. Se define por una alta velocidad (se mueve y cambia rápidamente) con una alta variabilidad (es decir, no hay una manera fácil de predecir quién comenta, comparte y le gusta una publicación, o cuál será la velocidad de respuesta).
Otra gran analogía es cocinar. Cuando cocinamos una comida, combinamos ingredientes de diferentes formas para intentar crear algo que sea (con suerte) delicioso. Como sabe cualquiera que haya intentado cocinar, cualquier cantidad de pequeños cambios (agregar un poco de sal, cocinar durante 2 minutos demasiado, cortar los tomates demasiado grandes o pequeños) pueden tener un impacto profundo en el resultado y en la convergencia de la receta final. para ese plato estrella.
Incluso si nunca antes ha usado este término, la heterocedasticidad es algo con lo que se encontrará cada vez más con las cargas de trabajo de IoT industrial. Esto es especialmente cierto cuando se trata de datos de alta velocidad (como la transmisión), o con frecuencia cuando se trata de datos no estructurados que cambian rápidamente, como páginas HTML, que atraviesa el rastreador web de Google.
Aprendizaje automático
El aprendizaje automático (ML) es un campo de la informática que permite a las computadoras reconocer y extraer patrones de datos sin procesar mediante un entrenamiento riguroso de modelos de datos.
ML habilita "las tres C de los macrodatos":clasificación, agrupamiento y filtrado colaborativo.
La clasificación es el problema de identificar a qué conjunto de categorías / subcategorías o población / subpoblación pertenece un nuevo patrón a los conjuntos de datos de entrenamiento que contienen ese patrón o instancias en las que la categoría ya está identificada y conocido. Por ejemplo, la clasificación podría implicar entrenar un algoritmo para decir, reconocer tumores en un conjunto de exploraciones de resonancia magnética, y luego pedirle al algoritmo que identifique otras exploraciones que tengan tumores.
La agrupación implica agrupar puntos de datos sin procesar en conjuntos o "agrupaciones". Un ejemplo aquí podría ser un algoritmo ML que se ejecuta en registros web en tiempo real, agrupando el tráfico válido (para permitir) en una categoría y los posibles ataques (para bloquear) en otra.
El filtrado colaborativo es solo una palabra elegante para "recomendaciones". Un ejemplo es determinar y mostrar productos que muestran cierta afinidad entre sí.
Gran parte de lo que hacemos en ML se denomina "aprendizaje superficial". El aprendizaje profundo suele ser un componente de la verdadera inteligencia artificial.
Inteligencia artificial
La inteligencia artificial (IA) abarca y amplía el aprendizaje automático al proporcionar a las computadoras la capacidad de realizar un análisis cognitivo profundo.
Mientras que ML generalmente implica algún tipo de intervención humana inicial en la forma de creación, ajuste o entrenamiento de algoritmos (como alimentar escáneres de tumores a la computadora), la IA permite que la computadora seleccione, sintonice y entrenarse para realizar alguna función específica. En última instancia, la IA utiliza el aprendizaje profundo para emular la toma de decisiones y los procesos de aprendizaje humanos.
Puede que no te des cuenta, pero la IA probablemente sea parte de tu vida diaria. Más sobre esto en la definición de PNL a continuación.
Realidad virtual
La realidad virtual (VR) permite a los usuarios adentrarse en mundos virtuales que se ven y suenan completamente diferentes a su entorno físico.
La realidad virtual permite experiencias de entretenimiento como montañas rusas virtuales, pero también tiene importantes aplicaciones comerciales. La RV normalmente requiere unos auriculares con pantalla digital.
Realidad aumentada
La realidad aumentada (RA) se esfuerza por superponer los artefactos digitales sobre el mundo real, lo que permite la interacción. Recientemente, la RA se ha vuelto muy exitosa gracias a la popularidad de las aplicaciones de juegos.
Procesamiento de lenguaje natural
El procesamiento del lenguaje natural (PNL) permite que las computadoras analicen y comprendan el lenguaje humano escrito o hablado. Si habla por teléfono o en casa, probablemente haya experimentado la PNL.
La PNL es un gran lugar para explicar la diferencia entre el aprendizaje profundo y superficial. La primera generación de PNL (aprendizaje superficial) se centró en dividir una oración en tokens (palabras) y luego aplicar algunas reglas a los tokens. La PNL de aprendizaje profundo de hoy, sin embargo, analiza el contexto completo de una declaración y razona el verdadero significado.
Imagínese una reseña web escrita. El aprendizaje superficial simplemente miraría un número limitado de tokens de datos como "número de estrellas de calificación de reseñas" y "análisis de sentimiento" básico. Esto puede implicar contar el número de palabras positivas frente a negativas. Estos puntos de datos se alimentan a través de un conjunto de reglas a menudo frágiles para llegar a una conclusión sobre si la revisión fue positiva o negativa.
Un motor de aprendizaje profundo aplica más inteligencia a este análisis, casi como lo que un humano podría suponer si leyera la misma reseña. Por ejemplo, si una revisión tiene muchas calificaciones “positivas”, como calificaciones de cinco estrellas, una buena proporción de recuento positivo a negativo, etc., un motor de PNL superficial podría concluir que fue una revisión positiva. Sin embargo, un motor de PNL de aprendizaje profundo podría interpretar (como lo haría un humano) que la revisión fue realmente negativa al leer "Nunca volveré a comprar este producto". Esa frase por sí sola niega cualquier sentimiento positivo que un usuario pueda haber proporcionado.
Reconocimiento de imágenes
El reconocimiento de imágenes brinda a las computadoras la capacidad de comprender el significado de una simple imagen visual. Con frecuencia, se incluye en las ofertas de ML o AI de un proveedor (junto con NLP).
El reconocimiento de imágenes permite a las computadoras identificar objetos como el lenguaje escrito mediante el reconocimiento óptico de caracteres u OCR (texto en vallas publicitarias), etiquetar objetos (como "montaña", "árbol", "automóvil", "rascacielos") e incluso realizar análisis faciales (como dibujar cuadros delimitadores alrededor de las caras).
La industria automotriz está llevando el reconocimiento de imágenes a un nivel completamente nuevo con su aplicación de análisis facial para detectar y alertar a los conductores que pueden sentirse fatigados.
Datos estructurados, no estructurados y semiestructurados
Históricamente, muchos de los datos con los que trabajamos estaban muy estructurados. Esto significa que encaja perfectamente en un formato de fila / columna (como bases de datos). Como resultado, muchos sistemas informáticos fueron diseñados para ingerir y generar esa forma de datos.
Los humanos son una bestia diferente. Nos destacamos en la generación y el consumo de datos no estructurados, como texto, voz e imágenes que fluyen libremente, como instantáneas de la cámara. Todos estos datos, inherentemente, no tienen "estructura". No podemos "depender" de ciertos idiomas, palabras, entonaciones, etc.
Los datos semiestructurados se encuentran en algún punto intermedio. Un buen ejemplo es el correo electrónico. Tiene alguna estructura como "asunto", "hasta", "desde", "fecha", pero la carga útil principal es una mancha de texto no estructurado en el "cuerpo" del correo electrónico.
Solo en los últimos 10 años, nuestros sistemas informáticos se han vuelto lo suficientemente potentes como para realizar análisis de datos no estructurados.
Lago de datos
Cualquier motor de análisis, como Hadoop, proporcionará almacenamiento y procesamiento, a menudo, en una disposición estrechamente acoplada. Cada vez que agrega más procesamiento, inherentemente agrega más almacenamiento.
Sin embargo, muchas organizaciones están sentadas sobre montañas (petabytes) de datos que quieren retener de forma duradera, pero no analizar de inmediato. Una de las razones del retraso es el procesamiento previo y la limpieza de los datos antes del análisis.
Un lago de datos proporciona un almacenamiento de bajo costo, muy duradero y accesible desde cualquier lugar con procesamiento limitado. Permite una retención de datos mucho mayor que la que se procesa a la vez.
Al observar el paradigma de una receta, un lago de datos es como su despensa de ingredientes crudos (verduras, arroz, caldo). Solo cuando desee cocinar, extraiga el subconjunto correcto de ingredientes, según la receta, y los prepare para esa comida.
Base de datos
Lo que comúnmente llamamos "una base de datos" también se conoce como un sistema de gestión de bases de datos relacionales (RDBMS) o un sistema OLTP (procesamiento de transacciones en línea). Oracle, MySQL, SQL Server son todos ejemplos comunes de esto.
Muchas pequeñas "transacciones" que (típicamente) provienen de los usuarios finales caracterizan a los RDBMS.
Piense en sitios web de comercio electrónico minorista. En un momento dado, varios cientos de miles de usuarios realizan pequeñas lecturas (consultas) y escrituras (inserciones) cuando buscan productos, leen reseñas, generan pedidos, etc. Se espera que estos sistemas realicen estas consultas muy rápidamente.
Almacén de datos
Un almacén de datos (también conocido como almacén de datos empresarial o EDW) es donde la empresa ejecuta análisis para responder varias preguntas comerciales importantes. ¿Cuál es nuestra línea de productos de más rápido crecimiento? ¿Qué categorías de productos tienen el mejor ROI? ¿Cuáles son nuestras regiones, categorías, vendedores, etc. con peor desempeño?
Los EDW suelen ser utilizados por un puñado (quizás una docena o unas pocas docenas) de usuarios internos, que ejecutan consultas de larga duración en conjuntos de datos masivos (posiblemente cientos de TB o docenas de PB).
Visualización
Una herramienta de visualización proporciona una interfaz visual para realizar análisis complejos.
Con la simple función de arrastrar y soltar, incluso los pasantes no calificados pueden generar una gran cantidad de informes complejos, como ventas trimestrales, productos más vendidos, crecimiento, etc.
Por lo general, estos sistemas requieren que el motor que los está conectando tenga una interfaz SQL, que (no por casualidad) todos los RDBMS y EDW proporcionan. Si es como muchos analistas de datos, el 95% de su interacción con sus sistemas será a través de una de estas herramientas de visualización.
Espero que haya disfrutado de esta breve descripción de los términos comunes que encontramos en Big Data. Siéntase libre de impresionar ahora a la gente en el enfriador de agua al discutir cómo la visualización de un crecimiento de datos sin precedentes, las ventajas de crear un lago de datos, desbloquear el valor de los datos heterocedásticos a través de ML e IA está cambiando completamente el mundo. ¿Tienes curiosidad por el impacto de los datos en el mundo? Ahora que habla la jerga, únase a las discusiones en datamakespossible.com.
Este artículo se produjo en colaboración con Western Digital.
El autor es miembro y científico jefe de datos de Western Digital, y está dando forma, impulsando e implementando la plataforma, los productos y las tecnologías de Big Data mediante análisis avanzados y coincidencia de patrones con la fabricación de semiconductores. datos en la empresa.
Tecnología de Internet de las cosas
- Los beneficios de adaptar IIoT y soluciones de análisis de datos para EHS
- Perspectivas para el desarrollo de IoT industrial
- El trilema:Tres consejos para el funcionamiento eficaz de la subestación
- Cuatro grandes desafíos para la Internet industrial de las cosas
- El potencial para integrar datos visuales con IoT
- Realidad aumentada:¿el próximo gran avance para RR.HH.?
- Es hora de cambiar:una nueva era en el límite
- Preparando el escenario para el éxito de la ciencia de datos industriales
- Las tendencias continúan impulsando el procesamiento al límite para la IA
- ¿Los macrodatos proporcionarán una panacea para los presupuestos sanitarios en crisis?
- DataOps:el futuro de la automatización del cuidado de la salud