Cómo las incrustaciones de palabras descubren nuevos termoeléctricos
Hable con cualquiera hoy y le dirán que la inteligencia artificial es el próximo gran avance:la patata caliente de la que todos quieren un trozo, pero nadie puede masticar.
Una buena mayoría de ellos también le dirá que gran parte de lo que sucede como IA es en realidad solo una exageración:una glorificación del buen aprendizaje automático y las matemáticas antiguas vestidas con Powerpoint. Y en su mayor parte, tendrían razón.
Sin embargo, un área en la que la aplicación de herramientas de inteligencia artificial, como el aprendizaje profundo, ha sido nada menos que revolucionaria es en el procesamiento del lenguaje natural.
Un ejemplo sencillo son los chatbots que gestionan los sitios web. Están a cargo de arquitecturas de aprendizaje profundo relativamente complicadas llamadas redes neuronales de memoria a largo plazo (LSTM). Estos algoritmos pueden "comprender" lo que les decimos y formar oraciones coherentes y legibles en respuesta. Claro, este bot no es un Sócrates, pero no arroja un revoltijo de palabras al azar. Existe la sugerencia innegable de alguna inteligencia de bajo nivel.
Incrustaciones de palabras
La era moderna del aprendizaje profundo en el procesamiento del lenguaje comenzó con la publicación en 2013 del artículo word2vec de Tomas Mikolov. Su triunfo fue desarrollar un método computacionalmente factible para generar incrustaciones de palabras o vectores de palabras utilizando redes neuronales.
Considere las palabras hombre, mujer, rey y reina . Si se le pide que agrupe estas palabras, tiene varias opciones de sentido común. Tiendo a ver [hombre, mujer ] y [rey, reina ]. Podrías estar viendo [hombre, rey ] y [mujer, reina ].
La incrustación de palabras captura las relaciones semánticas entre las palabras de un texto. De https://samyzaf.com/ML/nlp/nlp.html
También sé que la palabra rey y hombre se relacionan exactamente de la misma manera que 'mujer ' y 'reina '.
hombre:rey =mujer:reina
Incluso si nunca antes había escuchado estas palabras, puedo aprender estas relaciones al observar las oraciones que encuentro. 'Este hombre es un rey ' , 'La reina era una mujer piadosa ', 'Ella reinó como la reina de la gran pantalla ', 'Su reino vendrá '. Estas oraciones sugieren por la sola proximidad de las palabras que el rey es mayormente un hombre y que una reina es muy probable que sea una mujer .
Las incrustaciones de palabras hacen lo mismo, pero para millones de palabras de miles de documentos. La clave aquí es que las palabras se aprenden del contexto . Lo que permite este juego de analogía matemática son los poderes de la computación moderna y la magia del aprendizaje profundo.
Inserciones de palabras de aprendizaje profundo
Digamos que queremos encontrar las incrustaciones de todas las palabras en Harry Potter .
Primero creamos una especie de bóveda-biblioteca-cámara matemática. Un monstruoso gigante multidimensional que es lo suficientemente grande como para contener todas las palabras que necesitamos. Este es el espacio vectorial .
El objetivo es pasar por Harry Potter palabra por palabra y poner cada palabra en una bóveda en la cámara. Palabras similares como Vestido y capa ir en la misma bóveda. Quidditch y Soplón están en bóvedas adyacentes. Coche y Centauro están tan lejos como Banana y Voldemort .
La palabra incrustación de una palabra es la dirección de la bóveda en la que se encontrará. Matemáticamente, esto lo convierte en un vectores en el espacio vectorial .
Puedes ver por qué ningún ser humano querría este trabajo. Hay demasiadas palabras y demasiado movimiento involucrado.
Sin embargo, una red neuronal hace esto excepcionalmente bien. Hace esto por, bueno, magia.
A La red neuronal profunda es una especie de máquina masiva con millones de engranajes y palancas. Al principio es todo un caos y nada encaja con nada a pesar de que hay un barajar por todas partes. Luego, lentamente, algunos de los engranajes comienzan a bloquearse. Las palancas caen en su lugar y el orden surge del caos. La máquina comienza a moverse. ¡Frankenstein está vivo!
El lenguaje aquí es deliberadamente vago. Quiero llevarlo a las aplicaciones de las incrustaciones de palabras, en lugar de cómo se derivan. Habiendo dicho eso, en un nivel fundamental no sabemos muy bien cómo las redes neuronales hacen lo que hacen. Por lo tanto, en nuestros experimentos tenemos que jugar con el número de capas, las funciones de activación, el número de neuronas en cada capa, etc. antes de llegar a nuestra tarea. Pero ese es un tema para otro día.
Termoeléctrica
En un artículo publicado en 2019, un equipo de investigadores del Lawrence Berkeley Lab generó las incrustaciones de palabras de todos los resúmenes en alrededor de 3,3 millones de artículos publicados en 1000 revistas. Esta lista es obviamente enorme y cubre casi todos los temas publicados en ciencia de materiales en las últimas dos décadas.
Cuando se trata de un texto científico, las fórmulas químicas y los símbolos también son "palabras". Por lo tanto, hay un vector de palabra para LiCoO 2 – que es un cátodo de batería común. Luego puede hacer preguntas como:¿cuáles son los vectores de palabras más cercanos a LiCoO2?
Sabemos que LiCoO2 es un vector en el espacio vectorial. Así que todo lo que tenemos que hacer es encontrar los vectores que están cerca.
La respuesta sale como LiMn 2 O 4 , LiNi 0,5 mn 1,5 O 4 , LiNi 0,8 Co 0,2 O 2 , LiNi 0,8 Co 0,15 Al 0,05 O 2 y LiNiO 2 —todos los cuales también son materiales de cátodo de iones de litio.
La vía de relación de compuestos químicos seleccionados con la palabra 'termoeléctrico'. Li2CuSb no está directamente relacionado con 'termoeléctrico', pero está cerca de otras palabras que son indicadores de esta propiedad, como 'banda indirecta' y 'optoelectrónica'. Desde [2]
¿Ves lo que hicimos aquí?
Realmente estábamos tratando de explorar otros materiales que fueran similares a nuestro cátodo favorito. En lugar de leer miles de artículos, tomar notas y elaborar una lista de compuestos de litio, la palabra incrustaciones resolvió la tarea en unos segundos.
Este es el poder de la incrustación de palabras. Al convertir consultas semánticas en operaciones vectoriales matemáticas, este enfoque nos permite consultar y comprender grandes bases de datos de texto mejor y de manera más eficiente.
Como otro ejemplo, los investigadores estudiaron con qué frecuencia se encontraba un compuesto químico cerca del vector de "termoeléctricos '. (Son materiales que convierten la energía eléctrica en calor o viceversa).
Puedes hacer esto a través de una operación vectorial directa llamada producto escalar. Los vectores que son similares tienen un producto escalar que se aproxima a uno. Los vectores diferentes tienen un producto escalar cercano a cero.
Realizando la misma operación sobre compuestos químicos en la base de datos y la palabra 'termoeléctrico ', los autores encontraron todos los productos químicos que tenían probabilidades de ser termoeléctricos .
La palabra incrustaciones de la base de datos de resúmenes puede responder preguntas como:Si Zr es Hexagonal, ¿Cromo es...? (Centrado en el cuerpo) de [2]
Los autores continúan mostrando que se pueden demostrar relaciones similares para varias propiedades de los materiales, como la estructura cristalina y la ferroelectricidad. Además, muestran que al usar esta técnica, varias de las termoeléctricas actuales podrían haberse predicho hace años a partir de la literatura existente.
El análisis es una expresión muy hermosa, elegante pero engañosamente simple de la pregunta "De todos los materiales estudiados por el hombre, ¿cuáles tienen probabilidades de ser termoeléctricos" .
Las bases de datos de materiales son la necesidad del momento
Supondría que ya tenemos esta lista; claramente, ¿alguien ha estado tomando nota de todo el trabajo que hemos estado haciendo? ¿Compilar manuales de materiales y bases de datos electrónicas?
La respuesta es un sorprendente no. La gran cantidad de conocimiento que hemos acumulado a lo largo de los años está encerrada en textos como libros, revistas y artículos. Hay tantos de estos que es imposible para nosotros escanearlos manualmente.
Esta es precisamente la razón por la cual las incrustaciones de palabras y las técnicas demostradas en este documento son nada menos que revolucionarias.
Prometen cambiar la forma en que interactuamos con el texto y acelerar rápidamente nuestra base de datos de materiales.
¿Cuáles son algunos de los materiales que se han estudiado para la piezoelectricidad? ¿Hay algún superconductor que nos hayamos perdido en la literatura? ¿Existe un nuevo fármaco que pueda curar el Alzheimer?
Pregunte la palabra incrustaciones. Ellos lo sabrían.
Tecnología Industrial
- Cómo no apestar al enseñar software nuevo
- Python New Line:Cómo imprimir SIN Newline en Python
- Cómo un nuevo estándar de contabilidad de arrendamientos afectará el transporte y la logística
- Cómo está respondiendo la industria de abarrotes al nuevo comportamiento de los consumidores
- Cómo un exportador de carne de Nueva Zelanda se enfrenta a la pandemia
- Cómo tener éxito en una nueva era para el comercio electrónico transfronterizo
- Cómo pueden los minoristas mitigar el impacto de los nuevos recargos por envío
- Cómo comercializar a nuevos clientes cuando los pedidos son lentos
- Pensilvania ofrece nuevos fondos para ayudar a los estudiantes de Filadelfia a descubrir oportunidades en la fabricación
- Cómo el estándar MTConnect está ayudando a dar forma a una nueva era en la fabricación
- Cómo planificar e invertir en un nuevo sistema CAD/CAM