Herramientas de análisis de fallas:elegir la adecuada para el trabajo

Existe una variedad de métodos de análisis de fallas y resolución de problemas que se utilizan para analizar fallas de equipos y procesos. Los diferentes métodos se describen y comparan para que los profesionales de mantenimiento y confiabilidad puedan seleccionar el análisis de fallas adecuado o la herramienta de resolución de problemas para producir la mejor solución al menor costo.

¿A quién le gustaría que trabajara en su equipo? La persona que selecciona las herramientas correctas de una caja de herramientas bien equipada y las usa hábilmente para completar el trabajo rápidamente sin errores o alguien que tiene algunas herramientas básicas pero tiene dificultades para completar el trabajo a tiempo y sin errores.

¿Qué herramienta funcionará mejor, un micrómetro o una pinza? Se requiere un micrómetro para medir el ajuste de un rodamiento, pero es posible que se necesite una abrazadera en C al soldar dos piezas de acero juntas.

Su caja de herramientas mental también debe contener una variedad de herramientas de análisis. Debe seleccionar el método de análisis más adecuado para resolver el problema en cuestión. Recuerde, cada herramienta tiene sus propias fortalezas, debilidades y área de aplicación preferida.

Los problemas y las fallas ocurren todos los días. Por lo general, solo tenemos el tiempo y los recursos para brindar ayuda. No todos los problemas justifican un análisis de la causa raíz.

Nuestro trabajo consiste en separar los problemas y las fallas que requieren alivio de aquellos en los que debemos evitar que ocurran en el futuro. Para ayudar a separarlos, hágase algunas preguntas:

¿Cuál es el impacto real actual del problema?
¿Cuál es el impacto potencial si el problema no se resuelve?
¿Con qué nivel de riesgo podemos vivir que esté respaldado desde un punto de vista moral / legal / contractual?
¿Cuál es un resultado aceptable que equilibre el riesgo, el costo y los beneficios?

Cuando nos enfocamos en una respuesta que brinde el alivio necesario y, según sea necesario, el descubrimiento de las causas fundamentales, nos volvemos más productivos.

Veamos algunas de las herramientas de análisis de causa raíz disponibles, incluidas sus fortalezas y debilidades, para que pueda seleccionar y usar la que necesita para obtener la información que necesita para resolver sus problemas.

Análisis de causa raíz (RCA) no es un método único bien definido; Existen muchos procesos y métodos diferentes para realizar análisis RCA que se definen por su enfoque o campo de origen :

Seguridad - análisis de accidentes, seguridad y salud en el trabajo
Producción - control de calidad en la fabricación industrial
Procesar :el alcance de la producción se amplía para incluir prácticas comerciales
Fallo del equipo :inspirado en el ejército, luego personalizado por la industria y utilizado en ingeniería y mantenimiento
Sistemas :incorpora todo lo anterior y agrega la gestión del cambio

Una búsqueda de "análisis de causa raíz" producirá docenas de resultados. Desafortunadamente, no existen definiciones uniformes, por lo que un método o proceso fundamental puede tener varios nombres y descripciones diferentes. Estos métodos varían en alcance y complejidad. Es igualmente importante utilizar el método de análisis correcto, para que coincida con el alcance y la complejidad del problema.

Algunas de las técnicas de análisis de causa raíz común (RCA) son:

Cinco por qué - Pregunta por qué, por qué, por qué hasta que se identifican las causas fundamentales.
Diagrama de Ishikawa / espina de pescado - Las causas y los efectos se enumeran en categorías.
Análisis de causa y efecto / Árbol de factores causales - Los factores causales se muestran en un árbol para que se puedan identificar las dependencias de causa-efecto.
Modos de falla y análisis de efectos / criticidad - Se definen los posibles modos de falla; los efectos y las probabilidades de esas fallas se describen para identificar las contramedidas apropiadas comenzando con el equipo más crítico.
Análisis de árbol lógico o de fallas - Se identifica una falla y los modos de falla se describen y prueban hasta que se identifican las raíces.
Análisis de barreras - Examina las vías a través de las cuales un peligro puede afectar a un objetivo y las barreras en las vías.
Análisis de cambios / Kepner-Tregoe - Comparar una situación que no presenta un problema con otra que sí lo hace para identificar los cambios o diferencias que explican lo sucedido.
Diagrama de Pareto - Muestra la frecuencia relativa de problemas o fallas en orden de clasificación para que las actividades de mejora del proceso se puedan enfocar en los pocos significativos.
Análisis de datos - Es un proceso de transformación y modelado de datos con el objetivo de descubrir información útil.

A continuación, describamos cada uno de estos métodos con más detalle y expliquemos sus ventajas y limitaciones.

Cinco porqués

Cinco porqués es una técnica de cuestionamiento que se utiliza para determinar la causa y los efectos de un problema o falla específicos. Pregunta por qué. La respuesta forma la base para la siguiente pregunta. Continúas hasta que llegas a algo fundamental o completamente fuera de tu control. El número cinco se basa en la observación de que preguntar "por qué" cinco veces normalmente resuelve el problema. Es posible que solo tome tres iteraciones, o es posible que todavía se pregunte "por qué" dentro de un mes. Depende del problema.

Figura 1 . Escenario de los cinco porqués

No todas las fallas tienen una única causa raíz. Para determinar causas adicionales, el interrogatorio debe repetirse comenzando con una observación diferente.

Ventajas
No se necesita un grupo grande para completar el análisis. Con frecuencia, una o dos personas son suficientes. Para fallas de componentes, la mecánica, la química y la física están bien definidas, por lo que funciona mejor en este nivel. No funciona tan bien por causas humanas y organizativas.

El método es flexible sin reglas sobre qué líneas de preguntas explorar o cuánto tiempo buscar causas raíz adicionales. En consecuencia, el resultado depende del conocimiento y la perseverancia de las personas involucradas.

Limitaciones
Este método se basa en el concepto de que cada efecto tiene una única causa. Si múltiples causas pueden resultar en el mismo efecto o una combinación de causas es necesaria para producir un efecto, estas pueden pasarse por alto. Es raro que una sola causa en cada nivel de por qué sea suficiente para explicar el efecto en cuestión.

Cuando se utilizan múltiples caminos de cinco por qué, puede haber más de una respuesta a algunos de los por qué, y es muy fácil que el análisis se vuelva demasiado complejo. Para abordar este problema, se desarrolló un análisis de árbol de factores causales. Si una de sus respuestas es incorrecta, puede haber sido posible, pero no fue una causa real y fue algo completamente diferente.

Diagrama de Ishikawa / espina de pescado

El diagrama de Ishikawa / espina de pescado (Figura 2) es una herramienta gráfica que se utiliza para identificar las posibles causas raíz y qué categoría de entradas del proceso representa la mayor fuente de variabilidad en la salida. Un diagrama de espina de pescado completo incluye una columna central y ramas que se asemejan a un esqueleto de pez. Las ramas se utilizan para categorizar las causas, ya sea por secuencia de proceso o función. En cada categoría, se enumeran las causas potenciales y luego se prueba su validez utilizando evidencia u otra herramienta analítica.

Figura 2 . Diagrama de Ishikawa / espina de pescado

Ventajas
Un diagrama de espina de pescado es útil porque muestra las relaciones entre las causas potenciales y es una buena manera de involucrar a las personas en la resolución de problemas. También es eficaz cuando lo usa una sola persona.

Limitaciones
Involucrar a varias personas en un diagrama de espina de pescado puede limitar su efectividad, porque fomenta un enfoque divergente donde la tentación de identificar y arreglar todo lo que pueda causar el problema es fuerte. Para que un diagrama de espina de pescado tenga éxito, se requiere una selección despiadada de las causas que no son suficientes, necesarias o que existen para dar como resultado el problema.

Análisis de causa y efecto / Árbol de factores causales

Un análisis de causa y efecto combina la pregunta utilizada en cinco por qué con la estructura de árbol de un árbol lógico o de fallas. Es útil pensar en él como una expansión del método de los cinco por qué en un formato de árbol lógico. Puede examinar múltiples causas en un solo efecto.

El problema, falla o desviación (el efecto) se coloca en la parte superior del árbol o en un solo elemento a la izquierda de una página. Al preguntar "por qué", los factores que fueron causas inmediatas de este efecto se muestran debajo y se vinculan mediante ramas. Estas causas se prueban para determinar su necesidad, suficiencia y existencia. Las causas que no cumplen con esta prueba se eliminan del árbol.

A continuación, se agregan las causas inmediatas de cada uno de estos factores. Cada causa agregada a la estructura debe cumplir con los mismos requisitos de necesidad, suficiencia y existencia.

Algunos analistas comienzan con un enunciado del problema respondiendo a quién, qué, cuándo y dónde, seguido de una lista de objetivos a los que impactó el evento. Luego, se desarrolla un árbol de factores causales para cada una de las metas impactadas. Esta construcción simultánea ayuda a revelar lagunas en el conocimiento.

Los árboles de factores causales suelen tener muchos criterios de valoración. Los puntos finales que requieren una acción correctiva son las causas fundamentales.

Varias ventajas resultan de la construcción de un árbol de factores causales:

Proporciona una estructura para registrar las causas y las pruebas que es fácil de seguir.
Puede manejar múltiples escenarios.
Funciona bien como técnica de análisis maestra.
Puede incorporar resultados de otras herramientas.

Los árboles de factores causales también tienen limitaciones:

Es difícil manejar y mostrar eventos que dependen del tiempo.
La complejidad dificulta el tratamiento de las dependencias de secuencia.
Identificará las lagunas de conocimiento, pero no tiene los medios para llenarlas.
Los puntos de parada pueden ser arbitrarios.

En el ejemplo del árbol de factores causales de la Figura 3, existen múltiples causas potenciales para un solo efecto. En la tercera fila desde abajo, estaban presentes dos causas que dieron como resultado que se excediera la resistencia a la resistencia del material. Primero fue una concentración de tensión causada por el desgaste del ajuste de un rodamiento en el eje. En segundo lugar, se incrementó la tensión de la correa causada por el aumento de la velocidad de la máquina varios meses antes de la falla. Aunque cualquiera de los dos pudo haber sido la causa, la presencia de ambos aceleró la fractura por fatiga del eje. Estos resultaron en una falla catastrófica de la transmisión cuando el eje se fracturó.

Figura 3. Árbol de factores causales de la sección secadora de la máquina de papel

Análisis de efectos y modos de falla

El análisis de modos y efectos de falla (FMEA) es, con mucho, la herramienta de análisis de causa raíz más completa y compleja disponible. Puede combinarse con análisis de criticidad o análisis de árbol de fallas para identificar aún más los modos de falla con la mayor probabilidad de severidad de consecuencias . Es un proceso inductivo que puede iniciarse a nivel de componente (eje, engranaje de cojinetes, etc.) o a nivel funcional (bombas de carga, hidráulica de prensa, etc.).

FMEA es un análisis de alto nivel y detallado del tipo "qué pasaría si" de un problema. En la Figura 4 se muestra un análisis básico de "qué pasaría si". Incluye un método de lluvia de ideas que utiliza preguntas de "qué pasaría si" para identificar posibles variaciones y fallas en un sistema. Una vez identificadas, estas preocupaciones y sus posibles consecuencias se evalúan por riesgo.

Figura 4 . Una simple declaración de "qué pasaría si"

Es útil pensar en el proceso FMEA como un proceso "qué pasaría si" muy detallado y riguroso.

El análisis de FMEA comienza con una definición del sistema a estudiar y avanza a través de una serie de pasos hasta que se realiza una corrección y se completa el seguimiento para evaluar su efectividad. FMEA se desarrolló para evaluar el impacto de las fallas de los componentes en un sistema. Se utiliza para identificar dónde podría ocurrir una falla (modo de falla) y el impacto de dicha falla (efectos).

Ventajas
FMEA es más útil en la planificación de contingencias donde se utiliza para evaluar el impacto de varias fallas posibles (contingencias). El FMEA se puede utilizar en lugar de un análisis de "qué pasaría si" si se necesitaran más detalles.

Cuando se combina con el análisis de criticidad, el análisis establecerá sistemáticamente relaciones entre las causas y los efectos de la falla, así como la probabilidad de que ocurra, y señalará los modos de falla individuales para la acción correctiva. Cuando se utiliza FMEA para complementar el análisis del árbol de fallas, se pueden identificar más modos y causas de fallas.

Limitaciones
FMEA se usa ampliamente en la aviación y en algunas industrias, pero tiene las siguientes limitaciones:

El tiempo y el esfuerzo necesarios para completar el análisis
Dilución del esfuerzo con casos intrascendentes
Incapacidad para lidiar con eventos de falla combinados
Normalmente no incluye interacciones humanas
Examina los peligros asociados con fallas, no uno durante el funcionamiento normal

Análisis de árbol lógico o de fallas

Una falla o árbol lógico es un proceso para descubrir las raíces físicas, humanas y latentes de un fallo. Comienza con una declaración de problema que describe la falla. La descripción precisa de la falla es fundamental para el éxito de la construcción del árbol lógico. Las descripciones de fallas son funcionales o de componentes.

Las fallas funcionales describen una variación de un estado deseado, como que la bomba no suministra la presión requerida o no puede mantener la velocidad de diseño sin una vibración elevada. Deben describirse cuantitativamente. El análisis del árbol de fallas en la Figura 4 comienza con una falla funcional de una bomba; no hay flujo de la bomba. Si la bomba era capaz de producir algún flujo, se debe incluir el flujo o la presión.

Las fallas de componentes describen el estado de un componente específico. En este caso, el análisis comenzaría con una declaración, como que el eje de la caja de engranajes se fracturó o el cojinete del transportador externo falló.

El segundo paso enumera los modos de falla justo debajo de la descripción de la falla. Un error común es enumerar todos los posibles modos de falla. Se necesita discernimiento para enumerar aquellos que son relevantes para el fracaso. Por ejemplo, la fractura es un modo de falla de un rodamiento, pero si el rodamiento no está fracturado, no será un modo de falla. Es útil preguntar:"¿Cómo se puede ...?"

Se elabora una hipótesis para cada modo y luego se prueba cada hipótesis utilizando la evidencia. Si la evidencia no puede respaldar la hipótesis, la hipótesis no se utiliza.

Este proceso se repite hasta llegar a las raíces físicas. Se requerirán iteraciones adicionales para llegar a las raíces humanas y latentes. Uno debe preguntarse:"¿Cómo se puede ...?" seguido de " ¿Qué confirma la evidencia? " Recuerde, cada hipótesis debe ser probada y verificada con evidencia. Aquí es donde muchos esfuerzos de análisis de la causa raíz se meten en problemas.

Ventajas
El análisis del árbol de fallas es muy bueno para mostrar cuán resistente es un sistema a fallas iniciales únicas o múltiples. Puede comenzar a nivel funcional o de componentes. OSHA reconoce el análisis de árbol de fallas como un método aceptable para el análisis de riesgos de procesos en su norma de gestión de seguridad de procesos.

Limitaciones
Los árboles lógicos y de fallas requieren una definición cuidadosa del problema. Dependiendo de la definición del problema, no siempre encuentra todas las posibles fallas iniciadoras. Si el alcance del problema es demasiado grande, el proceso se empantana en el análisis de elementos no consecuentes y se convierte en un enfoque de pistola dispersa para tratar de abordar las raíces que no son causales de la falla.

El ejemplo de la Figura 5 es un árbol lógico para una bomba que dejó de bombear. El desmontaje de la bomba reveló un eje fracturado. La fractura por fatiga que provocó la falla de la bomba comenzó con una concentración de esfuerzo. Esta fue la raíz física. Una investigación adicional encontró que el eje de la bomba se había hecho a partir de una impresión que no especificaba los radios en ubicaciones críticas. La omisión de radios fue la de las raíces humanas. La impresión del eje de la bomba se había realizado como una medida de reducción de costos, por lo que los ejes de la bomba podrían ser fabricados por el postor con el costo más bajo. El esfuerzo por reducir costos fue una de las raíces organizativas o latentes.

Figura 5 . Análisis del árbol de fallas de una falla funcional de la bomba

Análisis de barreras

El análisis de barreras examina las vías a través de las cuales un peligro puede afectar a un objetivo. Identifica las barreras o controles reales o potenciales utilizados para proteger al objetivo. El objetivo debe existir dentro de un conjunto específico de condiciones. La idea de un objetivo significa que casi cualquier cosa puede ser un objetivo:una pieza de equipo, datos, edificio o persona.

A continuación, el medio por el cual un objetivo se ve afectado negativamente se denomina peligro. Un efecto adverso es todo aquello que desplaza un objetivo fuera de su conjunto de condiciones especificado. Entonces es posible identificar de forma única pares de objetivo y peligro por la vía a través de la cual los peligros afectan a los objetivos.

Una vez que se identifican los peligros, los objetivos y las vías a través de los cuales los peligros afectan a los objetivos, se pueden describir los controles y las barreras que se utilizan para proteger, mitigar el daño y / o mantener un objetivo dentro de un conjunto específico de condiciones.

Las barreras y los controles generalmente se diseñan en sistemas para proteger a las personas, el equipo, los datos, etc. Es posible que no se identifiquen todos los peligros durante el diseño o que existan vías no reconocidas. Es posible que las barreras y controles existentes no estén presentes, o incluso si lo están, es posible que no sean tan efectivos como se pretendía originalmente. En consecuencia, los objetivos pueden carecer de la protección adecuada.

El propósito del análisis de barreras es identificar rutas o barreras desprotegidas y controles que ya no son efectivos. Históricamente, la energía que puede causar daño se ha utilizado para caracterizar las vías. Los caminos pueden incluir eléctricos, mecánicos, fluidos, químicos, calor, radiación, etc. En consecuencia, las barreras y los controles han sido físicos o están relacionados con daños físicos.

El análisis de barrera en la Figura 6 es un sistema de monitoreo de lubricación típico que se encuentra en muchas turbinas. El peligro es la pérdida de una película de fluido debido a un flujo de aceite insuficiente. Las barreras de prevención incluyen instrumentación para monitorear las temperaturas, el flujo y el nivel de aceite del depósito. Además del monitoreo, se utilizan barreras adicionales de bombas de aceite de emergencia y de reserva. La mitigación comienza cuando se excede un nivel de alarma, lo que requiere la intervención del operador. La barrera final sería una parada de emergencia de la turbina que podría desencadenarse por la temperatura de los cojinetes y la pérdida de flujo de aceite.

El cambio en la condición del objetivo, físico o no físico, podría ser perjudicial o no deseado. Ahora, la consideración de mecanismos distintos a los físicos dirige la atención a áreas que están más basadas en el conocimiento, el software, las políticas o la administración.

Ventajas
El análisis de barreras tiene la ventaja de ser conceptualmente simple, fácil de usar, requiere recursos mínimos y funciona bien con otros métodos de análisis de causa raíz. Los resultados del análisis se traducen fácilmente en acciones correctivas.

Limitaciones
Sin embargo, el análisis de barreras es de naturaleza subjetiva. No hay dos analistas iguales y no siempre llegarán a conclusiones iguales o similares. También es fácil confundir causas y contramedidas, por lo que no debe usarse como un método único para determinar las causas raíz.

Figura 6. Análisis de barrera del sistema de monitoreo de lubricación de turbina

Análisis de cambios / Kepner-Tregoe

El análisis de cambios compara una especificación de un solo problema o evento con una situación deseada, por lo que los cambios y / o diferencias se pueden encontrar al compararlos. La situación deseada puede ser una tarea u operación que se haya realizado correctamente antes, una tarea u operación similar, o un modelo detallado o simulación de la tarea u operación.

Se estudian las causas potenciales y se prueban aquellas que requieren la menor cantidad de suposiciones o condiciones adicionales para verificar cuáles son las verdaderas causas. El éxito depende de la precisión de la especificación de desviación y las pruebas de verificación.

Las ventajas del análisis de cambios son:

La capacidad de encontrar causas directas importantes que no están claras u ocultas.
Los resultados del análisis migran fácilmente a acciones correctivas.
Es complementario a otros métodos.
Funciona mejor para analizar fallas funcionales.

Limitaciones de los análisis de cambios son:

Debe haber una base para la comparación.
Funciona solo para una única desviación específica.
Solo identifica las causas directas de una desviación.
Es posible que los resultados no sean concluyentes y se requerirán pruebas.

Kepner-Tregoe es un análisis de cambio mejorado que utiliza cuatro categorías (quién, dónde, cuándo y extensión) y dos filtros (es y no es) para desarrollar una lista de características que describen la condición desviada. Cada característica desviada o combinación de ellas se convierte en una causa potencial de la condición desviada general. En el sistema Kepner-Tregoe, el análisis de cambios se denomina análisis de problemas. Esta es una de las tres herramientas que se utilizan para evaluar un problema.

El proceso de Kepner-Tregoe generalmente comienza con una evaluación de la situación para aclarar la situación del problema (lo que sucedió) y luego usa uno de los siguientes subconjuntos para completar el análisis . La relación de estos métodos se muestra en la Figura 7.

Análisis del problema:aquí se busca la causa real del problema y la relación entre causa y resultado (por qué sucedió).
Análisis de decisiones:con base en los criterios de toma de decisiones, se toman decisiones para llegar a posibles resoluciones de problemas (cómo debemos actuar).
Análisis de problemas potenciales:se anticipan posibles problemas futuros y se desarrollan acciones preventivas (cuál será el resultado).

Figura 7 . El modelo Kepner-Tregoe

Herramientas estadísticas

Hay decenas de métodos y herramientas estadísticos disponibles. Se utilizan comúnmente para describir variaciones de procesos y productos. La información estadística es útil para identificar tendencias de rendimiento del equipo, como el tiempo medio entre fallas (MTBF), el tiempo medio de reparación (MTTR), el cumplimiento del cronograma, la acumulación de órdenes de trabajo, la antigüedad de las órdenes de trabajo, etc. herramienta de análisis de fallas, pero su importancia en la identificación de tendencias y desviaciones de un resultado deseado son críticas para un esfuerzo de mantenimiento exitoso. Una herramienta estadística importante que se utiliza con frecuencia en el análisis de fallas de equipos es el diagrama de Pareto.

Análisis de Pareto

La teoría de Pareto fue desarrollada por el economista italiano Vilfredo Pareto en 1897 para explicar la distribución desigual de la riqueza. El Dr. J.M. Juran comenzó a aplicar este principio al análisis de defectos, separando los "pocos vitales" de los "muchos triviales" y lo llamó el "diagrama de Pareto". Esto a menudo se conoce como la regla 80-20, ya que el 20 por ciento de los problemas causa el 80 por ciento de los problemas, o un número relativamente pequeño de problemas representa una parte abrumadora de los problemas.

El diagrama de Pareto muestra la frecuencia relativa de los defectos en orden de clasificación, lo que permite organizar los esfuerzos de confiabilidad para "sacar el máximo provecho del dinero" o "recoger la fruta más fácil".

Puede generar un gráfico de Pareto utilizando prácticamente cualquier hoja de cálculo o software de gráficos. El gráfico de la Figura 8 muestra los resultados de un análisis de Pareto real. La reparación del primer elemento del cuadro redujo los gastos de mantenimiento en más de $ 1 millón por año y, lo que es más importante, permitió que los recursos de mantenimiento se utilizaran para otros trabajos de confiabilidad. The first five items in the chart resulted in $18 million in increased revenue per year.

The Pareto chart is a simple-to-use and powerful graphic to identify where most problems in a plant originated. It won’t help with catastrophic failures but is an extremely useful tool for finding the chronic problems that over time consume as much of reliability and maintenance resources as catastrophic failures.

Figure 8. Pareto chart

Data Analytics

In manufacturing and process industries, the Internet of Things (IoT) or data analytics is an application of statistical methods to process data. Data analytics in failure analysis is typically confirmation or disproving of an existing hypothesis or discovering new information in the data.

Data analytics is a process of inspecting, cleansing, transforming and modeling data with the goal of discovering useful information, suggesting conclusions and supporting decision-making (Figure 9).

Figure 9. Data science process flow chart from "Doing Data Science" by Cathy O'Neil and Rachel Schutt

When one hears about “big data,” Google, Facebook, Amazon, Apple and other consumer companies come to mind, as organizations that gather enormous amounts of data about us and through data science use it to predict how we will behave in the future. Targeted ads are just one example.

In manufacturing and process industries, the situation is different. The development of wireless sensors has enabled us to inexpensively collect vast amounts of data. We can quickly gather process data and use statistical methods to confirm or discover new relationships in our factories and plants. A decade ago, monitoring a process variable, such as temperature, required installation and wiring a temperature RTD with power and a connection back to a PLC or DCS so data could be captured. Now, it is possible to install a self-powered RTD and transmitter with a wireless data link to the IoT.

A variety of statistical tools can be applied to the data to confirm or refute hypothesis or discover new relationships between process variables. This ability adds a powerful tool to a root cause analysis, particularly of functional failures. Depending on the data quality in maintenance history, it is also possible to discover hidden relationships within the maintenance data using text analytics.

The number of people employed in industry is shrinking. Experience and knowledge is walking out the door in the form of retiring baby boomers. Data analytics shows promise to help close the gap between a shrinking knowledge base and the need for better root cause analysis. In the world of mechanical failure analysis, a gap between the need for spectral vibration data and data analytics still exists. Overall vibration levels can be processed, but data analytics software has considerable room for improvement in the treatment of spectral vibration data.

In the next decade, you can expect to see an accelerating shift toward smart instruments, the IoT and data analytics. For example, think how a control valve positioner can automatically calibrate and configure itself, do diagnostics to maintain loop performance levels, improve control accuracy to reduce process variability, and tell you about it.

Pitfalls in Root Cause Analysis

There is a strong temptation to place blind faith in particular root cause analysis models. After all, they have been proven to work, and why reinvent the wheel? Predefined structured processes can save valuable time. However, it is important to remember that the answers may lie outside a chosen process. Models can be useful because they help strip away unimportant data. If we use models without knowledge of their assumptions and limitations, we may miss important facts and misdirect our analysis.

Do not try to include too much in your analysis. The temptation is strong to add in every possible cause even when they are not necessary, sufficient or present to cause an effect. Remember, inclusivity does not guarantee you are effective or correct.

Verify all the evidence and hypothesis. It is very easy to take the wrong path if a hypothesis is wrong. Be aware that just because the boss has a hypothesis, it isn’t necessarily correct.

Deciding where to start and how you describe the failure has an enormous impact on the time effort and outcome of your investigation. Starting with a functional failure when there has been environmental impact, injury or substantial cost helps with the discovery of the human and organizational root causes that with few exceptions are present and play significant roles in the failure. When a failure does not result in environmental, injury or significant expense, beginning at the component level helps streamline the analysis and typically makes identification of the physical roots easier. As the analysis progresses, the degree of investigation into human and organizational causes can be balanced against the level of risk and cost acceptable to you and the organization.

Making It Happen

Ideally, it would be nice to have a full complement of root cause analysis tools in your plant. Choices must be made because one doesn’t have unlimited time and money. The choices become easier to make if one takes a moment to consider where the need is, how often a root cause analysis will be needed, and what resources are available. If the need is greatest for functional failures or product quality and efficiency problems, the tools used will be different than those used for component failures. If you are reading this article, it is reasonable to conclude your focus will be on component failures. Table 1 summarizes the time required.

Identifying and understanding the root causes of component failures is best when started on the shop or production floor. Technicians and front-line supervisors who can identify physical failure modes and use basic but powerful analysis tools are often the best means to prevent failures from happening in the future. Technicians and front-line supervisors would have the following skills:

Five whys – Learning five why analysis can be done in less than a day. The CMMS must be able to support what is learned from a Five Why analysis either with failure modes or a means to capture causes.
Ishikawa/fishbone diagram – This also can be taught in less than a day. It introduces people to a broader cause and effect analysis to identify effects that may have multiple causes.
Barrier analysis – An introduction to barrier analysis helps shift culture from simplistic solutions to the concept of risk and risk reduction.
Causal factor tree or fault tree analysis – Not everyone needs to be able to construct a tree, but they should be able to participate in the development of one when led by a facilitator. People closest to the point of action have information and insights that are frequently vital to identify root causes and more importantly make changes to prevent future failures. Training to introduce people to either causal factor or fault trees typically takes one day to complete.
Failure mode identification – This is frequently considered as a subset of the root cause analysis methods. Frequently, incorrectly identified failure modes lead analysis efforts astray. Technicians, front-line supervisors and reliability engineers must be able to correctly identify physical failure modes. This training takes four days to complete. It also helps a Pareto analysis because failure modes are correctly identified.

In every plant, there should be at least one person who has received facilitator training on causal factor or fault tree analysis and change analysis. This helps ensure consistency and reinforces the use of root cause analysis. Vendors of these methods frequently tout their system as superior to others. They all have certain strengths and weaknesses. Causal factor and fault tree analysis are very similar, so having both may lead to confusion. It is important that one is selected and used. Training for each of these methods usually takes four or five days to complete.

Reliability engineers should receive training on the following:

Five whys
Ishikawa/fishbone diagrams
Cause and effect/causal factor tree
Fault or logic tree
Pareto chart
Change analysis
Statistical methods - If they are involved in production issues, training on statistical methods including data analytics should be included.

Unless there is personal injury, an environmental accident or a large cost involved, don’t start every effort with an expensive analysis. You can often be more effective by using the five whys, Ishikawa/fishbone or a simple cause and effect analysis to solve many problems. A situation appraisal may help you select another method when it appears the problem can be solved with a simpler method. Causal factor trees, fault or logic trees can take a substantial amount of time to complete. This can range from a day to several weeks. Failure mode and effect analysis takes weeks or months to complete.

Additional Resource

A resource you may find useful for additional information on root cause analysis:

The Rootisseriet. This website has a wealth of articles on root cause analysis as well as links to additional resources.

Pasos sencillos para integrar el IIoT Por qué los cronómetros son una amenaza para el resurgimiento de las manufacturas

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas