¿Podemos automatizar la calidad de los datos para respaldar la inteligencia artificial y el aprendizaje automático?

¿Pueden las organizaciones automatizar la calidad de los datos para mejorar la IA y el ML?

Durante la última década, las empresas han comenzado a captar y desbloquear el potencial que pueden brindar la inteligencia artificial (IA) y el aprendizaje automático (ML). Si bien aún está en sus inicios, las empresas están comenzando a comprender el impacto significativo que esta tecnología puede generar, ayudándolas a tomar decisiones mejores, más rápidas y más eficientes.

Por supuesto, AI y ML no son una panacea para ayudar a las empresas a adoptar la innovación. De hecho, el éxito de estos algoritmos es tan bueno como sus cimientos, específicamente, datos de calidad.

Sin él, las empresas verán fracasar el mismo objetivo para el que han instalado AI y ML, con las consecuencias imprevistas de datos incorrectos que causarán daños irreversibles a la empresa tanto en términos de eficiencia como de reputación.

Pero hay otra área de exploración que está madura para el desarrollo; es decir, ¿se puede mejorar y mantener la calidad de los datos mediante la automatización y el aprendizaje automático?

El riesgo de la mala calidad de los datos

Desde servicios de transmisión de películas hasta chatbots, para ayudar a informar cómo los supermercados organizan sus estantes y guiarnos a través de los principales centros de transporte, ML influye en nuestras vidas de formas que eran inimaginables hace una década.

Pero, ¿qué sucede si el algoritmo está configurado para funcionar sobre la base de una mala calidad de los datos? Los riesgos en el futuro podrían ser mucho más graves que recibir una película que no te gusta.

Si comenzamos a confiar en el aprendizaje automático para mejorar el descubrimiento y las pruebas de productos farmacéuticos, por ejemplo, ¿qué sucedería si se formulara un medicamento pero hubiera errores en los datos de compuestos químicos utilizados para simular las pruebas? Las implicaciones podrían ser graves.

Una aplicación emergente de ML que también podría verse afectada por una base de datos deficiente son los vehículos autónomos. Desde mapas y direcciones hasta cómo reacciona un vehículo ante un ciclista, los datos utilizados para enseñar a la máquina serán cruciales para la adopción por parte de los consumidores y los reguladores.

Los algoritmos de ML, esos conjuntos de reglas y cálculos que ayudan a resolver problemas definidos, pueden respaldar la mejora de la calidad de los datos o pueden descartarse por datos inexactos si no se considera la posibilidad de datos deficientes en su construcción.

Calidad de datos automatizada

Al igual que con cualquier transformación digital, pasar de una gestión de calidad de datos manual a automatizada y luego "inteligente" requerirá un plan a largo plazo. Experian ha identificado cuatro etapas sobre la progresión de la gestión de datos, que llamamos Curva de madurez de la gestión de datos. Inconsciente, Reactivo, Proactivo y Optimizado y Controlado reflejan las cuatro etapas que abarcan un ciclo completo de una estrategia de calidad de datos.

La evaluación ha revelado una progresión constante en la curva de madurez, a medida que las organizaciones comienzan a liberar el potencial de los datos que poseen y se lo toman más en serio. Lo más intrigante de todo es que aquellos que se encuentran en la etapa optimizada y gobernada podrían estar viendo el comienzo de otro nivel, algo que se puede denominar "automatizado inteligentemente".

'Automatizado inteligentemente' se refiere a tener sistemas y procesos implementados para ayudar a las personas responsables de la calidad de los datos a identificar dónde están sus mayores preocupaciones. A estas alturas, todos deberíamos estar revisando las métricas de rendimiento clave de forma regular para identificar tendencias en la calidad de los datos, tal vez observando las tasas generales de finalización de los atributos clave o monitoreando cualquier problema de tiempo con la recepción de datos o las etapas de carga de datos. Pero comprender realmente la calidad de sus datos requiere que analicemos más a fondo el contenido.

Por ejemplo, ¿es suficiente decir que ha recopilado una fecha de nacimiento para cumplir con los requisitos de datos de terceros en el 99% de los casos, cuando una gran proporción de las fechas que ha recopilado son derivadas del sistema y, por lo tanto, no son fechas de nacimiento reales? Esto puede causar problemas reales y las consecuencias no deseadas pueden afectar su proceso de toma de decisiones.

Los próximos pasos

La mayoría de los programas de calidad de datos ya contienen un elemento de automatización y prueba y aprendizaje. La siguiente etapa en esta evolución es el uso del aprendizaje automático para reconocer y responder automáticamente a diferentes tipos de datos, "automatizados de manera inteligente".

Por ejemplo, una herramienta de administración de datos que puede reconocer información estándar como una dirección, correo electrónico, número de tarjeta de crédito o número de seguro nacional con poca capacitación previa o redacción de reglas antes de tomar acciones como validar la entrada o marcar un problema de cumplimiento a un gerente.

El objetivo final es ML para la calidad de los datos que luego mejora con el tiempo. Un buen ejemplo de esto es el nombre de la empresa:¿Tesco PLC es lo mismo que Tesco Stores Ltd? ¿Qué pasa con una parte del grupo Tesco que no tiene la palabra "Tesco" en el nombre de la empresa?

Agrupar entidades comerciales puede ser tan simple como buscar el nombre, o más complejo al observar los detalles de las cuentas de la empresa, las direcciones de las oficinas centrales, los nombres de los directores ejecutivos, las direcciones web y otros metadatos para encontrar asociaciones en todo el mundo.

Este tipo de hipótesis son los desafíos comerciales que una estrategia sólida de datos puede soportar. Sin embargo, ¿podemos pasar a un lugar donde podamos automatizar este aprendizaje y mejorar la calidad de nuestros datos con el tiempo con menos esfuerzo manual, dando a nuestra gente de datos más tiempo para analizar y respaldar el negocio?

Ese es el desafío para ML:tomar las reglas básicas para la calidad de los datos, implementarlas y luego sugerir mejoras a medida que los cambios en los datos del mundo real se vuelven visibles como excepciones o valores atípicos. Es un tema emergente y esperamos ver un gran desarrollo en los próximos años.

Tu estrategia de datos

Fundamentalmente, cada ejemplo de ML depende de datos que son adecuados para su propósito; si no, esos datos y, como consecuencia, no se puede confiar en las decisiones que se toman debido a ellos.

Para evitar esto, las organizaciones deben asegurarse de tener una estrategia de datos sólida. Piense en las razones para embarcarse en ML; ¿Cuáles son los resultados explicables que quieren lograr y evitar?

Luego, al realizar una evaluación inicial de sus datos para detectar la calidad de lo que ya tienen, la organización puede tomar medidas y planificar qué más necesitan para mejorar la calidad general de sus datos.

Ser capaz de identificar y rastrear las decisiones tomadas a través de ML, y todos los procesos de toma de decisiones automatizados, es vital si se van a adoptar e implementar con éxito.

El monitoreo continuo de la calidad de los datos también es crucial. Al hacer esto, podrá identificar rápidamente qué áreas necesitan atención y estar seguro de que está en la mejor posición posible con las iniciativas ML actuales y potenciales.

Entonces, las organizaciones estarán en una posición para que ML les permita administrar la calidad de sus datos de manera más eficiente, haciendo que sus procesos de toma de decisiones sean más rápidos y mejores.

Llevando esto a su conclusión lógica, usar el aprendizaje automático puede ayudarnos a identificar aquellas preocupaciones de datos que permanecen ocultas hasta que se convierten en un problema real. Si podemos entrenar modelos para identificar los atributos clave que pueden influir en una decisión o proceso en el futuro, y luego monitorear las fluctuaciones o patrones preocupantes, incluso podremos predecir el impacto que estas preocupaciones de datos podrían tener en su negocio.

Por ejemplo, si sabemos que el número de dormitorios de un inmueble impacta directamente en las decisiones de nuestro negocio, y comprobamos que tenemos datos incompletos o aproximados en este campo a una determinada escala que va empeorando, ¿podríamos predecir, en función de dónde? sabemos que se utilizan los datos, estimaciones de ingresos de alquiler, valoraciones de hipotecas o predicciones de consumo de calefacción?

El impacto de esta creciente preocupación por la calidad de los datos podría ayudar a construir el caso comercial para corregirlo ahora en lugar de cuando sea un problema real.

Navegando por el campo minado del cumplimiento con la automatización robótica de procesos 7 tendencias clave de RPA para 2020:del habilitador de IA a una escalabilidad más estratégica

Sistema de control de automatización

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial