Detección de grietas en edificaciones mediante la red YOLO v8

Basic Research

https://doi.org/10.21041/ra.v14i3.765

Detección de grietas en edificaciones mediante la red YOLO v8

Crack detection in buildings using the YOLO v8 network
Detecção de trincas em edificações utilizando a rede YOLO v8

W. S. Ribeiro¹ *, J. Zanetti¹ , L. B. Totola¹ , S. A. C. Junqueira¹ , P. H. P. Lauff¹

¹ Department of Engineering, Multivix Vila Velha College, Vila Velha, Brazil.

*Autor de contacto: weiglasribeiro@gmail.com

Recibido: 01/06/2024
Revisado: 02/08/2024
Aprobado: 23/08/2024
Publicado: 01/09/2024

Citar como: Ribeiro, W. S., Zanetti, J., Totola, L. B., C. Junqueira, S. A., Lauff, P. H. P. (2024), “Crack detection in buildings using the YOLO v8 network”, Revista ALCONPAT, 14 (3), pp. 288 - 298, DOI: https://doi.org/10.21041/ra.v14i3.765

RESUMEN
El objetivo de este estudio es desarrollar y aplicar redes neuronales profundas para automatizar la detección de grietas en edificios. La metodología consistió en entrenar la red YOLO v8 con imágenes recopiladas de Internet, con el objetivo de identificar y localizar grietas en tiempo real. El modelo logró una precisión de validación del 80 % con imágenes no utilizadas en el entrenamiento, a pesar de las limitaciones de rendimiento en Google Collab. Estas limitaciones incluían restricciones sobre el entorno de ejecución y que el modelo fuera específico para las grietas. La originalidad de la herramienta radica en su relevancia para la detección automatizada de fisuras, con potencial de extensión a otras manifestaciones patológicas. Se concluye que la aplicación de redes neuronales profundas ofrece una solución eficiente para la identificación de problemas en las edificaciones.

Palabras clave: manifestaciones patológicas; construcción de edificios; detección de grietas; análisis de imágenes; YOLO v8.

1. INTRODUCCIÓN

En ingeniería civil, la patología estructural se centra en comprender las causas y los mecanismos de degradación estructural que pueden ocurrir durante el diseño, la construcción y el uso de un edificio (Caporrino, 2018). Las manifestaciones patológicas señalan una falla en el rendimiento de una estructura, lo que puede comprometer su durabilidad, seguridad y funcionalidad. Por lo tanto, identificar y diagnosticar con precisión los orígenes y el desarrollo de estas anomalías es esencial para implementar medidas correctivas efectivas (Bolina et al., 2018).

Las grietas son una de las formas más comunes de manifestación patológica en los edificios y pueden indicar riesgos estructurales. Las causas de las grietas son diversas, incluyendo la naturaleza inherente del material, como el hormigón armado, que tiene baja resistencia a la tracción y es propenso a la contracción, así como deficiencias en las fases de diseño y construcción, asentamientos diferenciales, uso de materiales de baja calidad y procesos inherentes al envejecimiento de la propia estructura (De Souza y Ripper, 1998). Además, las grietas constituyen un aspecto visual que conduce a la desvalorización de la propiedad, crea inseguridad entre los usuarios y sirve como señal de alerta, actuando como facilitadores de los efectos de la meteorización en las estructuras.

Kung et al. (2018) y Yu (2022) informan que los enfoques convencionales para detectar manifestaciones patológicas se llevan a cabo mediante inspecciones manuales y registros fotográficos de edificios. Cuando el edificio consta de una estructura de varios pisos, o en casos de obras especiales como puentes y pasarelas, la recopilación de datos para las inspecciones se vuelve costosa y laboriosa, e incluso puede plantear riesgos de seguridad (Kung et al., 2021; Ribeiro et al., 2020). En este contexto, el uso de enfoques automatizados de inteligencia artificial asociados a vehículos aéreos no tripulados (UAV) para la recogida e interpretación de imágenes se está convirtiendo en una herramienta importante en la identificación de manifestaciones patológicas. Los vehículos aéreos no tripulados pueden capturar fotografías y servir como herramientas para acceder y operar otras tecnologías de investigación, como la termografía. Según Kneipp (2018), las ventajas de utilizar UAV para la inspección incluyen la optimización del tiempo, una mayor comodidad del operador, capacidad para investigar espacios confinados y capacidad para alcanzar grandes alturas sin la necesidad de que los trabajadores estén atados a cuerdas o dependan de andamios.

Cha et al. (2017) enfatizan que la detección de grietas a través de la inspección visual puede ser un procedimiento complejo, influenciado por la cantidad de grietas y dificultades de acceso, siendo afectado considerablemente por la subjetividad del observador. Ante estos desafíos, se han propuesto varios métodos para automatizar este proceso utilizando técnicas avanzadas de procesamiento de imágenes. Sin embargo, la aplicación efectiva de estas técnicas enfrenta obstáculos en condiciones adversas, como fluctuaciones en la iluminación y variaciones en las texturas de los materiales.

Algunas redes neuronales, como YOLO (You Only Look Once), se aplican en la clasificación de imágenes prediciendo objetos en una imagen y resaltándolos con cuadros delimitadores. Introducido por Redmon et al. (2015), YOLO es un sistema de reconocimiento de objetos en tiempo real conocido por su precisión y velocidad superiores en comparación con otros sistemas de reconocimiento. En este contexto, el presente estudio tiene como objetivo la detección automatizada de grietas en edificios mediante aprendizaje automático, mediante el desarrollo de redes neuronales artificiales utilizando el modelo YOLO. A través de la recopilación de imágenes y el entrenamiento de redes neuronales, este estudio pretende analizar el potencial y confirmar la viabilidad de esta herramienta para automatizar este proceso en la construcción civil.

2. REFERENCIAL TEÓRICO

2.1 YOLO-v8

Los sistemas de visión artificial han hecho una aparición significativa en el panorama contemporáneo, desempeñando un papel importante en la automatización de vehículos, la robotización industrial y los dispositivos hospitalarios. Una de sus aplicaciones notables es la capacidad de realizar diagnósticos a través de pruebas de imagen, lo que representa avances significativos en la automatización de máquinas y la resolución de diversos desafíos (Barelli, 2018).

Como destaca Mantripragada (2020), la tecnología de detección de objetos abarca dos tareas fundamentales: identificar la clase y determinar la ubicación de los objetos. Esta tecnología demuestra una amplia aplicabilidad y se puede utilizar tanto en imágenes fijas como en vídeos en tiempo real.

Redmon et al. (2016) destacan la aplicación del algoritmo YOLO, cuyo objetivo principal es la clasificación y detección de objetos. Este algoritmo permite obtener la posición y categoría asignada al objeto identificado en la imagen en la que se realizó la predicción. Utilizando una única red neuronal convolucional (CNN), YOLO anticipa simultáneamente múltiples cuadros delimitadores y las probabilidades de clasificación asociadas con esos cuadros.

Para entender cómo funciona el algoritmo YOLO, es esencial definir lo que se predice: la clase de un objeto y el cuadro delimitador que especifica su ubicación. Cada cuadro delimitador se caracteriza por cuatro elementos, como destaca Swiezewski (2020):

Centro del cuadro delimitador (bx, by);
Ancho (PB);
Altura (bh); y
El valor c corresponde a una clase de un objeto (por ejemplo: coche, semáforo, grietas, etc.).

Además de estos elementos, existe la necesidad de predecir el valor de pc (probabilidad de clase): una medida que estima la probabilidad de tener un objeto contenido en el cuadro delimitador. La Figura 01 ejemplifica la detección de objetos en el algoritmo Yolo.

Figura 1. Por ejemplo, la detección de objetos en el algoritmo YOLO. Fuente: Swiezewski (2020).

En el algoritmo YOLO, la imagen se divide en celdas (Figura 2), cada una responsable de predecir hasta 5 cuadros delimitadores para los objetos. Sin embargo, muchas de estas celdas y cajas no contienen ningún objeto. Para solucionar este problema, los valores pc, se utilizan para eliminar las cajas con una baja probabilidad de contener un objeto y las cajas con una gran superposición, a través de un proceso llamado supresión no máxima. Durante la detección, se pueden detectar varios cuadros delimitadores para cada clase. Para reducir el número de cajas detectadas y eliminar las superposiciones, se aplica el algoritmo de supresión no máxima (NMS), como se muestra en la Figura 1. El NMS compara las propiedades de cada caja, como la puntuación de confianza, y mantiene solo la más fiable (Redmon et al., 2016).

Figura 2. Algoritmo NMS en acción después de detectar varias cajas delimitadoras. Fonte: Bavaresco (2023).

El método YOLO, propuesto por Redmon et al. (2016), representa una reformulación significativa de la detección de objetos, transformándola en un problema de regresión. Este enfoque único parte exclusivamente de los píxeles de una imagen, lo que da como resultado predicciones que cubren las probabilidades por clase, las coordenadas y las dimensiones que delimitan los objetos en cuestión. La simplicidad de YOLO es notable, ya que adopta un enfoque de extremo a extremo a través de una sola CNN. Además de esta simplicidad, destaca por presentar un rendimiento competitivo en términos de eficiencia de tiempo.

Desde su creación por Redmon et al. (2016), hasta la última revisión en 2024, el algoritmo YOLO ha pasado por nueve iteraciones, siendo YOLO-v8 el utilizado en el presente estudio. A lo largo de este período, la arquitectura del modelo se ha mejorado continuamente para garantizar la eficiencia, un mejor rendimiento y la superioridad con respecto a las versiones anteriores (Hussain, 2023).

Lanzado por Ultralytics en enero de 2023, el YOLO-v8 destaca por ofrecer un rendimiento optimizado en términos de velocidad y precisión. Esta versión admite múltiples tareas de visión de inteligencia artificial (IA), incluido el seguimiento, la clasificación, la segmentación de poses, la detección y la segmentación. La notable flexibilidad de YOLO-v8 permite a sus usuarios disfrutar de sus características en diferentes plataformas de hardware (Batistoti, 2023). Dada la creciente necesidad de técnicas automatizadas efectivas para mapear las manifestaciones patológicas en el campo de la ingeniería civil, algunos estudios han empleado CNN. Ekanayake (2022) ha desarrollado un algoritmo YOLO basado en el aprendizaje profundo que proporciona una herramienta de monitoreo automatizado para garantizar la sostenibilidad de los edificios. Kung et al. (2021) y Woo et al. utilizaron vehículos aéreos no tripulados (UAV) para detectar defectos en edificios y desarrollaron CNN para la detección de grietas. A continuación, se presenta en detalle la metodología aplicada en el presente estudio, destacando la relevancia de YOLO-v8 en este contexto específico.

3. METODOLOGÍA

Para facilitar la comprensión de la metodología adoptada, en la Figura 3 se presenta un diagrama de flujo de las actividades realizadas. En el alcance de este estudio se seleccionaron imágenes de grietas geométricas en estructuras de hormigón armado, muros de mampostería, pisos y muros de hormigón, totalizando 303 muestras para conformar la base de datos. Las causas de las grietas no fueron objeto de estudio en este estudio. Utilizando el software Roboflow, cada grieta presente en las imágenes se delimitó manualmente, dando como resultado la constitución del conjunto de muestras. Cabe mencionar que, durante esta fase, se aplicó la función de aumento de imagen, que introduce variaciones aleatorias en las imágenes originales, generando nuevas instancias de entrenamiento con características diferentes a las originales. La implementación de Ultralytics y la descarga del proyecto YOLO v8 se llevaron a cabo en el entorno de Google Collab. Posteriormente, se inició la formación, que comprendió un ciclo de 400 épocas.

Figura 3. Flujograma de las etapas del proceso. Fuente Propia.

La base de datos disponible se dividió en dos conjuntos: un conjunto de entrenamiento para ajustar los parámetros del modelo (75% de la muestra total) y un conjunto de validación de imágenes (25% de la muestra total) para probar la robustez de los modelos propuestos. Después de la etapa de entrenamiento, se realizó una prueba para validar los resultados, utilizando imágenes no incluidas en la base de entrenamiento. Finalmente, se recopilaron e interpretaron los resultados obtenidos.

En el presente trabajo se analizaron los valores de la precisión media media (mAP), métrica utilizada en la detección de objetos que indica la evolución del entrenamiento. Después de varias iteraciones, la precisión se representa mediante un gráfico que busca acercarse al 100%. A medida que avanza la capacitación, el objetivo es reducir el tamaño de los cuadros delimitadores para lograr una mejor precisión promedio, aumentando así el valor de la precisión de la red, lo que refleja el mayor rendimiento de la red (Divvala, 2015).

4. RESULTADOS Y DISCUSIÓN

En este tema se presentan las estadísticas de entrenamiento, así como los resultados del procesamiento de algunas imágenes que no pertenecen al conjunto de datos de entrenamiento.

La Figura 4 muestra el resultado del procesamiento de una imagen de grieta por la red YOLO, entrenada con un 80% de precisión. Este valor indica que la red comete pocos errores de marcado falso y, al mismo tiempo, no deja de marcar los objetos necesarios (grietas). Esta imagen fue seleccionada estratégicamente, conteniendo solo una grieta en el área, para analizar el comportamiento de la manera más simple posible. La red presenta una delineación de grietas significativamente precisa. En particular, la red no detectó pequeñas imperfecciones similares al yeso similares a grietas, como se ve en la Figura 4, ya que no se consideran manifestaciones patológicas

Figura 4. Resultado del procesamiento de una imagen con una precisión del 80%. Fuente Propia.

La figura 5 muestra un caso más complejo, con más de un triplete. La red YOLO detectó dos grietas con precisiones superiores al 42% y al 79%, respectivamente. Se observa que, dada la distribución de grietas en la imagen proporcionada, el resultado de un 42% arrojó estadísticas por debajo de lo esperado, lo que indica la necesidad de mejoras en el entrenamiento. Sin embargo, incluso con una precisión relativamente baja, YOLO fue capaz de identificar correctamente las dos grietas en la imagen.

Figura 5. Resultado del procesamiento de una imagen con una precisión del 42% y del 79%. Fuente propia.

En la Figura 6, se aplicó la red YOLO a un muro de mampostería con variaciones en el tono de color. Los resultados muestran que la red detectó dos grietas con una precisión del 58%. Sin embargo, alrededor de la pared coloreada, no se identificaron grietas, lo que indica la influencia de la iluminación y las sombras en los resultados, como señalaron Cha y Choi (2017). Por lo tanto, se requiere una base de datos diversa y extensa para mejorar la capacitación en diversos escenarios. Finalmente, es interesante notar que la precisión fue la misma en las dos cajas identificadas, lo que sugiere un patrón de comportamiento consistente, ya que ambas se caracterizan en la misma dirección.

Figura 6. Resultado del procesamiento de una imagen con una precisión del 58%. Fuente propia.

Las puntuaciones de evaluación para YOLOv8 se presentan en la Figura 7, donde (a) a (e) se refieren a la fase de entrenamiento y (f) a (j) se refieren a la fase de validación. La pérdida observada en la Figura 7 (a) está relacionada con los cuadros delimitadores en relación con los objetos encontrados por el algoritmo, presentando una pérdida asociada con las coordenadas centrales del objeto y los bordes de los cuadros. La Figura 7 (b) muestra la pérdida asociada con la clasificación de las cajas en relación con los objetos encontrados, refiriéndose al IoU. Finalmente, la Figura 7 (c) muestra la pérdida asociada con Local Density-Free, cuya función es ajustar el modelo entrenado y regular la densidad de objetos en diferentes regiones de los cuadros delimitadores, especialmente cuando los objetos están cerca unos de otros.

Figura 7. Resultados de las métricas de precisión de recuperación, mAP 50% y rendimiento mAP 50-95% para el algoritmo YOLOv8. Fuente propia.

Así, las Figuras 7 (a), (b) y (c) muestran una relación inversamente proporcional entre el número de temporadas entrenadas y las pérdidas, lo que indica que el rendimiento del entrenamiento de la red mejora a lo largo de las 400 temporadas. Las figuras 7 (d) y (e) se refieren a las métricas de precisión y recuperación, respectivamente. Se observa que, con el aumento del número de temporadas, los valores de las métricas de rendimiento también aumentan, presentando una relación directamente proporcional.

Las figuras 7 (f) a (j) siguen el mismo razonamiento que en la fase de formación, pero en la fase de validación. También puede ver un buen rendimiento del clasificador en esta etapa, aunque las métricas mAP50 y mAP50-95 fluctúan a lo largo de los períodos.

Este estudio tuvo como objetivo demostrar la aplicación de la red neuronal YOLO v8 para la detección de grietas en edificios, revelando la efectividad y predictibilidad de esta tecnología para automatizar el proceso de inspección. Los resultados obtenidos indican que YOLO v8 es una herramienta prometedora para esta tarea, ya que ofrece una solución automatizada que puede aumentar la eficiencia y la precisión de las evaluaciones patológicas en los edificios.

La calidad de los resultados presentados está directamente relacionada con la calidad y cantidad de datos utilizados para entrenar la red. Las imágenes con grietas superpuestas, por ejemplo, dieron como resultado precisiones más bajas, lo que demuestra que la presencia de múltiples grietas superpuestas puede confundir al algoritmo y reducir su capacidad de detección. Para mitigar estas limitaciones, es esencial ampliar el conjunto de datos de imágenes para incluir una gama más amplia de casos con superposiciones y variaciones. Una base de datos más robusta y diversa permitirá a la red YOLO v8 aprender a distinguir entre diferentes tipos de manifestaciones patológicas, mejorando la precisión de la detección.

Además, el uso de una máquina dedicada para el entrenamiento, en lugar de un entorno libre como Google Colab, permitiría un procesamiento más eficiente con un mayor número de épocas. Este aumento en el número de épocas puede conducir a una mejora significativa en la precisión de los resultados, proporcionando un modelo más refinado y fiable.

Los resultados de este estudio indican que el algoritmo YOLO v8 es fiable en condiciones similares a las utilizadas en las pruebas. Sin embargo, para lograr una detección aún más precisa, se necesita un objetivo de investigación que busque valores de mAP (precisión media media) superiores al 90%. Los valores más altos de mAP proporcionan una mayor confiabilidad y robustez en las detecciones realizadas por la red, lo que permite una aplicación más efectiva en escenarios del mundo real.

La necesidad de identificar el envejecimiento prematuro de las manifestaciones patológicas pone de manifiesto la importancia de las herramientas de monitorización automatizadas y continuas. El uso de redes neuronales como YOLO v8 puede transformar el proceso de inspección, haciéndolo menos dependiente de las evaluaciones manuales, que a menudo son lentas y costosas. La automatización no solo reduce el coste y el tiempo necesarios para detectar grietas y otras patologías, sino que también aumenta la frecuencia y la precisión de las inspecciones, contribuyendo al mantenimiento y la seguridad de los edificios.

Por lo tanto, la aplicación de YOLO v8 en la industria de la patología de la construcción demuestra un avance significativo en la forma en que se realizan las inspecciones, destacando la conveniencia y utilidad de las herramientas automatizadas para el monitoreo continuo de la integridad estructural. El desarrollo y la mejora continua de los algoritmos de detección son esenciales para lograr un nivel de precisión que permita una evaluación completa y fiable de las condiciones de los edificios.

5. CONCLUSIONES

Las redes neuronales desempeñan un papel esencial en el reconocimiento de patrones y la localización de anomalías. Este estudio demostró que la red YOLO v8 es una herramienta muy eficaz para la detección automatizada de grietas en edificios. La precisión de los resultados está estrechamente ligada a la calidad y diversidad de los datos de entrenamiento. La superposición de imágenes de grietas puede comprometer la precisión, pero esta limitación se puede superar con un conjunto de datos más sólido y un entorno de entrenamiento mejorado. El algoritmo ha demostrado ser fiable en las condiciones probadas y tiene un gran potencial de adaptación para detectar otras patologías estructurales.

Para trabajos futuros, se recomienda aumentar el número de imágenes de entrenamiento para mejorar la precisión del modelo. Además, se propone investigar la aplicación de la red YOLO para la detección de grietas en tiempo real durante la adquisición de datos de campo.

6. AGRADECIMIENTOS

Agradecemos a la Fundación de Apoyo a la Investigación Espírito Santo (FAPES) por el apoyo financiero a través de becas de enseñanza e investigación para llevar a cabo este trabajo.

7. REFERENCIAS

Barelli, F. (2018), “Introduction to Computer Vision: A practical approach with Python and OpenCV”. Code House.

Batistóti, J.O. (2023), “Remote sensing in the identification and characterization of crops of zootechnical interest”. Thesis (PhD) - Faculty of Veterinary Medicine and Animal Science, Federal University of Mato Grosso do Sul, Campo Grande - MS.

Bavaresco, L. (2023), “Instance segmentation for estimating fish length using artificial intelligence techniques”. Course completion work (graduation) - Federal University of Santa Maria, Technological Center, Computer Engineering Course, RS.

Bolina, F. L., Tutikian, B. F., Helena, P. (2019). “Structural pathology”. Text Workshop.

Caporrino, C. F. (2018). “Pathology in Freemasonry”. 2nd edition. São Paulo: Oficina de Textos.

Cha, Y.-J., Choi, W., Büyüköztürk, O. (2017). “Deep learning-based crack damage detection using convolutional neural networks”. Computer Aided Civil and Infrastructure Engineering, 32(5), p. 361-378.

De Souza, V. C. M., Ripper, T. (1998). “Pathology, recovery and reinforcement of concrete structures”. Pini.

Divvala, S., Redmon, J., Girshick, R., Farhadi, A. (2015). “You only look once: unified real-time object detection”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

Ekanayake, B. (2022). “A deep learning-based construction defect detection tool for sustainability monitoring”. In: 10th World Construction Symposium.

Hussain, M. (2023). “YOLO-v1 to YOLO-v8, the rise of YOLO and its complementary nature towards digital manufacturing and industrial defect detection”. Machines, vol. 11, no. 7, 2023. https://doi.org/10.3390/machines11070677

Kneipp, R. B. (2018). “The state of the art in the use of Drones for Naval and Offshore Inspection”. 81f. Dissertation - Federal University of Rio de Janeiro, Rio de Janeiro.

Kung, R.-Y., Pan, N.-H., Wang, C. C. N., Lee, P.-C. (2021). “Application of Deep Learning and Unmanned Aerial Vehicles in Building Maintenance”. Advances in Civil Engineering, Volume 2021, Issue 1, 5598690. https://doi.org/10.1155/2021/5598690

Mantripragada, M. (2020). “Digging deeper into YOLO V3 - A practical guide Part 1”. Available at: https://towardsdatascience.com/digging-deep-into-yolo-v3-a-hands-on-guide-part-1-78681f2c7e29

Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016). “You Only Look Once: Unified Real-Time Object Detection”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), https://doi.org/10.1109/CVPR.2016.91

Ribeiro, D., Santos, R., Shibasaki, A., Montenegro, P., Carvalho, H., Calçada, R. (2020), Remote inspection of RC structures using unmanned aerial vehicles and heuristic image processing, Engineering Failure Analysis, Volume 117, 104813, ISSN 1350-6307, https://doi.org/10.1016/j.engfailanal.2020.104813

Swiezewski, J. (2020). “Yolo Algorithm and Yolo Object Detection: An Introduction”. Available at: <https://appsilon.com/object-detection-yolo-algorithm>.

Woo, H. J., Seo, D. M., Kim, M. S., Park, M. S., Hong, W. H., Baek, S. C. (2022). “Localization of cracks in concrete structures using an unmanned aerial vehicle”. Sensors, 22(17), 6711, https://doi.org/10.3390/s22176711

Yu, Z. (2022). “Deep learning approach based on YOLO V5s for crack detection in concrete”. In SHS Web of Conferences (Vol. 144, p. 03015). EDP Sciences.