Basic Research https://doi.org/10.21041/ra.v14i3.765

Detecção de trincas em edificações utilizando a rede YOLO v8

Crack detection in buildings using the YOLO v8 network
Detección de grietas en edificaciones mediante la red YOLO v8

W. S. Ribeiro1*, J. Zanetti1, L. B. Totola1, S. A. C. Junqueira1, P. H. P. Lauff1

1 Department of Engineering, Multivix Vila Velha College, Vila Velha, Brazil.

*Autor de contato: weiglasribeiro@gmail.com

Recebido: 01/06/2024
Revisado: 02/08/2024
Aceito: 23/08/2024
Publicado: 01/09/2024


Citar como: Ribeiro, W. S., Zanetti, J., Totola, L. B., C. Junqueira, S. A., Lauff, P. H. P. (2024), “Crack detection in buildings using the YOLO v8 network”, Revista ALCONPAT, 14 (3), pp. 288 - 298, DOI: https://doi.org/10.21041/ra.v14i3.765

RESUMO
O objetivo deste estudo é desenvolver e aplicar redes neurais profundas para a automação da detecção de trincas em edificações. A metodologia envolveu o treinamento da rede YOLO v8 com imagens coletadas da internet, visando identificar e localizar trincas em tempo real. O modelo obteve 80% de acurácia na validação com imagens não utilizadas no treinamento, apesar das limitações de desempenho no Google Collab. Essas limitações incluíram restrições no ambiente de execução, e o modelo é específico para trincas. A originalidade da ferramenta está na sua relevância para a detecção automatizada de trincas, com potencial de se estender a outras manifestações patológicas. Conclui-se que a aplicação de redes neurais profundas oferece uma solução eficiente para a identificação de problemas em edificações.

Palavras-chave: manifestações patológicas; construção civil; detecção de rachaduras; análise de imagem; YOLO v8.


1. INTRODUÇÃO

Na engenharia civil, a patologia estrutural se concentra na compreensão das causas e mecanismos de degradação estrutural que podem ocorrer durante o projeto, construção e uso de uma edificação (Caporrino, 2018). Manifestações patológicas sinalizam uma falha no desempenho de uma estrutura, potencialmente comprometendo sua durabilidade, segurança e funcionalidade. Portanto, identificar e diagnosticar com precisão as origens e o desenvolvimento dessas anomalias é essencial para implementar medidas corretivas eficazes (Bolina et al., 2018).

As fissuras são uma das formas mais comuns de manifestação patológica em edificações e podem indicar riscos estruturais. As causas das fissuras são diversas, incluindo a natureza inerente do material, como o concreto armado, que tem baixa resistência à tração e é propenso à retração, bem como deficiências nas fases de projeto e construção, recalques diferenciais, uso de materiais de baixa qualidade e processos inerentes ao envelhecimento da própria estrutura (De Souza e Ripper, 1998). Além disso, as rachaduras constituem um aspecto visual que leva à desvalorização da propriedade, cria insegurança entre os usuários e serve como um sinal de alerta, atuando como facilitadores para efeitos de intemperismo nas estruturas.

Kung et al. (2018) e Yu (2022) relatam que as abordagens convencionais para detecção de manifestações patológicas são realizadas por meio de inspeções manuais e registros fotográficos de edifícios. Quando o edifício consiste em uma estrutura de vários andares, ou em casos de obras especiais como pontes e passarelas, a coleta de dados para inspeções se torna custosa e trabalhosa, potencialmente representando até mesmo riscos à segurança (Kung et al., 2021; Ribeiro et al., 2020). Nesse contexto, o uso de abordagens automatizadas de inteligência artificial associadas a veículos aéreos não tripulados (VANTs) para coleta e interpretação de imagens está se tornando uma ferramenta importante na identificação de manifestações patológicas. Os VANTs podem capturar fotografias e servir como ferramentas para acessar e operar outras tecnologias investigativas, como a termografia. Segundo Kneipp (2018), as vantagens do uso de UAVs para inspeção incluem otimização de tempo, maior conforto do operador, capacidade de investigar espaços confinados e capacidade de atingir grandes alturas sem a necessidade de os trabalhadores ficarem amarrados a cordas ou dependerem de andaimes.

Cha et al. (2017) enfatizam que a detecção de trincas por meio de inspeção visual pode ser um procedimento complexo, influenciado pelo número de trincas e dificuldades de acesso, sendo consideravelmente afetado pela subjetividade do observador. Diante desses desafios, vários métodos foram propostos para automatizar esse processo usando técnicas avançadas de processamento de imagens. No entanto, a aplicação efetiva dessas técnicas enfrenta obstáculos em condições adversas, como flutuações na iluminação e variações nas texturas dos materiais.

Algumas redes neurais, como YOLO (You Only Look Once), são aplicadas na classificação de imagens, prevendo objetos em uma imagem e destacando-os com caixas delimitadoras. Introduzido por Redmon et al. (2015), YOLO é um sistema de reconhecimento de objetos em tempo real conhecido por sua precisão e velocidade superiores em comparação a outros sistemas de reconhecimento. Neste contexto, o presente estudo visa a detecção automatizada de fissuras em edificações utilizando aprendizado de máquina, por meio do desenvolvimento de redes neurais artificiais utilizando o modelo YOLO. Por meio da coleta de imagens e treinamento de redes neurais, este estudo visa analisar o potencial e confirmar a viabilidade desta ferramenta para automatização deste processo na construção civil.

2. REFERENCIAL TEÓRICO

2.1 YOLO-v8

Os sistemas de visão computacional têm feito uma aparição significativa no cenário contemporâneo, desempenhando um papel importante na automação de veículos, robotização industrial e dispositivos hospitalares. Uma de suas aplicações notáveis ​​é a capacidade de realizar diagnósticos por meio de testes de imagem, representando avanços significativos na automação de máquinas e na resolução de vários desafios (Barelli, 2018).

Conforme destacado por Mantripragada (2020), a tecnologia de detecção de objetos abrange duas tarefas fundamentais: identificar a classe e determinar a localização dos objetos. Essa tecnologia demonstra ampla aplicabilidade e pode ser usada tanto em imagens estáticas quanto em vídeos em tempo real.

Redmon et al. (2016) destacam a aplicação do algoritmo YOLO, cujo objetivo principal é a classificação e detecção de objetos. Esse algoritmo permite obter a posição e a categoria atribuídas ao objeto identificado na imagem em que a predição foi feita. Usando uma única rede neural convolucional (CNN), o YOLO antecipa simultaneamente múltiplas caixas delimitadoras e as probabilidades de classificação associadas a essas caixas.

Para entender como o algoritmo YOLO funciona, é essencial definir o que está sendo previsto: a classe de um objeto e a caixa delimitadora que especifica sua localização. Cada caixa delimitadora é caracterizada por quatro elementos, conforme destacado por Swiezewski (2020):

Além desses elementos, há a necessidade de prever o valor de pc (class likelihood): uma medida que estima a probabilidade de haver um objeto contido na caixa delimitadora. A Figura 01 exemplifica a detecção de objetos no algoritmo Yolo.

Figura 1. Exemplificando detecção de objetos no algoritmo YOLO. Fonte: Swiezewski (2020).

No algoritmo YOLO, a imagem é dividida em células (Figura 2), cada uma responsável por prever até 5 caixas delimitadoras para objetos. No entanto, muitas dessas células e caixas não contêm um objeto. Para lidar com isso, os valores de pc são usados ​​para remover caixas com baixa chance de conter um objeto e caixas com grande sobreposição, por meio de um processo chamado supressão não máxima. Durante a detecção, várias caixas delimitadoras podem ser detectadas para cada classe. Para reduzir o número de caixas detectadas e remover sobreposições, o algoritmo de supressão não máxima (NMS) é aplicado, conforme mostrado na Figura 1. O NMS compara as propriedades de cada caixa, como a pontuação de confiança, e mantém apenas a mais confiável (Redmon et al., 2016).

Figura 2. Algoritmo NMS em ação após detectar várias caixas delimitadoras. Fonte: Bavaresco (2023).

O método YOLO, proposto por Redmon et al. (2016), representa uma reformulação significativa da detecção de objetos, transformando-a em um problema de regressão. Essa abordagem única parte exclusivamente dos pixels de uma imagem, resultando em previsões que abrangem as probabilidades por classe, as coordenadas e as dimensões que delimitam os objetos em questão. A simplicidade do YOLO é notável, pois adota uma abordagem de ponta a ponta por meio de uma única CNN. Além dessa simplicidade, ele se destaca por apresentar desempenho competitivo em termos de eficiência de tempo.

Desde sua criação por Redmon et al. (2016), até a última revisão em 2024, o algoritmo YOLO passou por nove iterações, sendo o YOLO-v8 utilizado no presente estudo. Ao longo desse período, a arquitetura do modelo foi continuamente aprimorada para garantir eficiência, melhor desempenho e superioridade em relação às versões anteriores (Hussain, 2023).

Lançado pela Ultralytics em janeiro de 2023, o YOLO-v8 se destaca por oferecer desempenho otimizado em termos de velocidade e precisão. Esta versão suporta múltiplas tarefas de visão de inteligência artificial (IA), incluindo rastreamento, classificação, segmentação de pose, detecção e segmentação. A notável flexibilidade do YOLO-v8 permite que seus usuários aproveitem seus recursos em diferentes plataformas de hardware (Batistoti, 2023). Dada a crescente necessidade de técnicas automatizadas eficazes para mapear manifestações patológicas no campo da engenharia civil, alguns estudos empregaram CNNs. Ekanayake (2022) desenvolveu um algoritmo YOLO baseado em aprendizado profundo que fornece uma ferramenta de monitoramento automatizada para garantir a sustentabilidade de edifícios. Kung et al. (2021) e Woo et al. usaram veículos aéreos não tripulados (UAVs) para detectar defeitos em edifícios e desenvolveram CNNs para detecção de rachaduras. A seguir, a metodologia aplicada no presente estudo é apresentada em detalhes, destacando a relevância do YOLO-v8 neste contexto específico.

3. METODOLOGIA

Para facilitar a compreensão da metodologia adotada, apresenta-se na Figura 3 um fluxograma das atividades realizadas. No escopo deste estudo, foram selecionadas imagens de fissuras geométricas em estruturas de concreto armado, paredes de alvenaria, pisos e paredes de concreto, totalizando 303 amostras para compor o banco de dados. As causas das fissuras não foram objeto de estudo nesta pesquisa. Utilizando o software Roboflow, cada fissura presente nas imagens foi delimitada manualmente, resultando na constituição do conjunto de amostras. Vale ressaltar que, durante esta fase, foi aplicado o recurso Image augmentation, que introduz variações aleatórias nas imagens originais, gerando novas instâncias de treinamento com características diferentes das originais. A implementação do Ultralytics e o download do projeto YOLO v8 foram realizados no ambiente Google Collab. Posteriormente, iniciou-se o treinamento, compreendendo um ciclo de 400 épocas.

Figura 3. Fluxograma das etapas do processo. Fonte: Os autores.

O banco de dados disponível foi dividido em dois conjuntos: um conjunto de treinamento para ajuste dos parâmetros do modelo (75% da amostra total) e um conjunto de validação de imagens (25% da amostra total) para testar a robustez dos modelos propostos. Após a etapa de treinamento, foi realizado um teste para validar os resultados, utilizando imagens não incluídas na base de treinamento. Por fim, os resultados obtidos foram compilados e interpretados.

No presente trabalho, foram analisados ​​os valores de precisão média média (mAP), uma métrica utilizada na detecção de objetos que indica a evolução do treinamento. Após várias iterações, a precisão é representada por um gráfico que busca se aproximar de 100%. À medida que o treinamento avança, o objetivo é reduzir os tamanhos das caixas delimitadoras para obter melhor precisão média, aumentando assim o valor da precisão da rede, o que reflete o aumento do desempenho da rede (Divvala, 2015).

4. RESULTADOS E DISCUSSÃO

Este tópico apresenta estatísticas de treinamento, bem como os resultados do processamento de algumas imagens que não pertencem ao conjunto de dados de treinamento.

A Figura 4 mostra o resultado do processamento de uma imagem de rachadura pela rede YOLO, treinada com 80% de precisão. Este valor indica que a rede comete poucos erros de marcação falsa e, ao mesmo tempo, não deixa de marcar os objetos necessários (rachaduras). Esta imagem foi selecionada estrategicamente, contendo apenas uma rachadura na área, para analisar o comportamento da forma mais simples possível. A rede apresenta uma delimitação de rachadura significativamente precisa. Notavelmente, pequenas imperfeições de gesso semelhantes a rachaduras, como visto na Figura 4, não foram detectadas pela rede, pois não são consideradas manifestações patológicas.

Figura 4. Resultado do processamento de uma imagem com 80% de precisão. Fonte: Os autores.

A Figura 5 mostra um caso mais complexo, com mais de uma trinca. A rede YOLO detectou duas trincas com precisões maiores que 42% e 79%, respectivamente. Observa-se que, dada a distribuição de trincas na imagem fornecida, o resultado de 42% retornou estatísticas abaixo do esperado, indicando a necessidade de melhorias no treinamento. No entanto, mesmo com precisão relativamente baixa, o YOLO conseguiu identificar corretamente as duas trincas na imagem.

Figura 5. Resultado do processamento de uma imagem com 42% e 79% de precisão. Fonte: Os autores.

Na Figura 6, a rede YOLO foi aplicada a uma parede de alvenaria com variações no tom de cor. Os resultados mostram que a rede detectou duas rachaduras com uma precisão de 58%. No entanto, ao redor da parede colorida, nenhuma rachadura foi identificada, indicando a influência da iluminação e das sombras nos resultados, conforme observado por Cha e Choi (2017). Portanto, um banco de dados diversificado e extenso é necessário para melhorar o treinamento em vários cenários. Por fim, é interessante notar que a precisão foi a mesma nas duas caixas identificadas, sugerindo um padrão consistente de comportamento, pois ambas são caracterizadas na mesma direção.

Figura 6. Resultado do processamento de uma imagem com 58% de precisão. Fonte: Os autores.

As pontuações de avaliação para YOLOv8 são apresentadas na Figura 7, onde (a) a (e) referem-se à fase de treinamento e (f) a (j) referem-se à fase de validação. A perda observada na Figura 7(a) está relacionada às caixas delimitadoras em relação aos objetos encontrados pelo algoritmo, apresentando uma perda associada às coordenadas centrais do objeto e às bordas das caixas. A Figura 7(b) mostra a perda associada à classificação das caixas em relação aos objetos encontrados, referindo-se ao IoU. Por fim, a Figura 7(c) apresenta a perda associada ao Local Density-Free, cuja função é ajustar o modelo treinado e regular a densidade de objetos em diferentes regiões das caixas delimitadoras, principalmente quando os objetos estão próximos uns dos outros.

Figura 7. Resultados das métricas de precisão de recall, mAP 50% e desempenho de mAP 50-95% para o algoritmo YOLOv8. Fonte: Os autores.

Assim, as Figuras 7 (a), (b) e (c) mostram uma relação inversamente proporcional entre o número de épocas treinadas e perdas, indicando que o desempenho do treinamento da rede melhora ao longo das 400 épocas. As Figuras 7 (d) e (e) referem-se às métricas de precisão e recall, respectivamente. Nota-se que, com o aumento do número de épocas, os valores das métricas de desempenho também aumentam, apresentando uma relação diretamente proporcional.

As Figuras 7 (f) a (j) seguem o mesmo raciocínio da fase de treinamento, porém na fase de validação. Também é possível observar um bom desempenho do classificador nesta etapa, embora as métricas mAP50 e mAP50-95 apresentem flutuações ao longo dos períodos.

Este estudo teve como objetivo demonstrar a aplicação da rede neural YOLO v8 para detecção de trincas em edificações, revelando a eficácia e previsibilidade desta tecnologia para automatizar o processo de inspeção. Os resultados obtidos indicam que o YOLO v8 é uma ferramenta promissora para essa tarefa, oferecendo uma solução automatizada que pode aumentar a eficiência e a precisão das avaliações de patologia em edifícios.

A qualidade dos resultados apresentados está diretamente relacionada à qualidade e à quantidade de dados usados ​​para treinar a rede. Imagens com trincas sobrepostas, por exemplo, resultaram em precisões mais baixas, mostrando que a presença de múltiplas trincas sobrepostas pode confundir o algoritmo e reduzir sua capacidade de detecção. Para mitigar essas limitações, é essencial expandir o conjunto de dados de imagens, incluindo uma gama maior de casos com sobreposições e variações. Um banco de dados mais robusto e diversificado permitirá que a rede YOLO v8 aprenda a distinguir entre diferentes tipos de manifestações patológicas, melhorando a precisão da detecção.

Além disso, usar uma máquina dedicada para treinamento, em vez de um ambiente livre como o Google Colab, permitiria um processamento mais eficiente com um número maior de épocas. Esse aumento no número de épocas pode levar a uma melhoria significativa na precisão dos resultados, fornecendo um modelo mais refinado e confiável.

Os resultados deste estudo indicam que o algoritmo YOLO v8 é confiável em condições semelhantes às utilizadas nos testes. No entanto, para atingir uma detecção ainda mais precisa, é necessário um objetivo de pesquisa que busque valores de mAP (mean average accuracy) acima de 90%. Valores maiores de mAP fornecem maior confiabilidade e robustez nas detecções feitas pela rede, permitindo uma aplicação mais eficaz em cenários do mundo real.

A necessidade de identificar o envelhecimento precoce de manifestações patológicas destaca a importância de ferramentas de monitoramento automatizadas e contínuas. O uso de redes neurais como o YOLO v8 pode transformar o processo de inspeção, tornando-o menos dependente de avaliações manuais, que geralmente são lentas e custosas. A automação não apenas reduz o custo e o tempo necessários para detectar rachaduras e outras patologias, mas também aumenta a frequência e a precisão das inspeções, contribuindo para a manutenção e segurança das edificações.

Portanto, a aplicação do YOLO v8 na indústria de patologia de construções demonstra um avanço significativo na forma como as inspeções são realizadas, destacando a conveniência e a utilidade de ferramentas automatizadas para monitoramento contínuo da integridade estrutural. O desenvolvimento e a melhoria contínuos dos algoritmos de detecção são essenciais para atingir um nível de precisão que permita uma avaliação completa e confiável das condições da construção.

5. CONCLUSÕES

Redes neurais desempenham um papel essencial no reconhecimento de padrões e localização de anomalias. Este estudo demonstrou que a rede YOLO v8 é uma ferramenta altamente eficaz para detecção automatizada de rachaduras em edifícios. A precisão dos resultados está intimamente ligada à qualidade e diversidade dos dados de treinamento. Imagens sobrepostas de rachaduras podem comprometer a precisão, mas essa limitação pode ser superada com um conjunto de dados mais robusto e um ambiente de treinamento aprimorado. O algoritmo provou ser confiável nas condições testadas e tem grande potencial de adaptação para detectar outras patologias estruturais.

Para trabalhos futuros, é recomendado aumentar o número de imagens de treinamento para melhorar a precisão do modelo. Além disso, é proposto investigar a aplicação da rede YOLO para detecção de rachaduras em tempo real durante a aquisição de dados de campo.

6. AGRADECIMENTOS

Gostaríamos de agradecer à Fundação de Amparo à Pesquisa do Espírito Santo (FAPES) pelo auxílio financeiro por meio de bolsas de ensino e pesquisa para a realização deste trabalho.

7. REFERÊNCIAS

Barelli, F. (2018), “Introduction to Computer Vision: A practical approach with Python and OpenCV”. Code House.

Batistóti, J.O. (2023), “Remote sensing in the identification and characterization of crops of zootechnical interest”. Thesis (PhD) - Faculty of Veterinary Medicine and Animal Science, Federal University of Mato Grosso do Sul, Campo Grande - MS.

Bavaresco, L. (2023), “Instance segmentation for estimating fish length using artificial intelligence techniques”. Course completion work (graduation) - Federal University of Santa Maria, Technological Center, Computer Engineering Course, RS.

Bolina, F. L., Tutikian, B. F., Helena, P. (2019). “Structural pathology”. Text Workshop.

Caporrino, C. F. (2018). “Pathology in Freemasonry”. 2nd edition. São Paulo: Oficina de Textos.

Cha, Y.-J., Choi, W., Büyüköztürk, O. (2017). “Deep learning-based crack damage detection using convolutional neural networks”. Computer Aided Civil and Infrastructure Engineering, 32(5), p. 361-378.

De Souza, V. C. M., Ripper, T. (1998). “Pathology, recovery and reinforcement of concrete structures”. Pini.

Divvala, S., Redmon, J., Girshick, R., Farhadi, A. (2015). “You only look once: unified real-time object detection”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

Ekanayake, B. (2022). “A deep learning-based construction defect detection tool for sustainability monitoring”. In: 10th World Construction Symposium.

Hussain, M. (2023). “YOLO-v1 to YOLO-v8, the rise of YOLO and its complementary nature towards digital manufacturing and industrial defect detection”. Machines, vol. 11, no. 7, 2023. https://doi.org/10.3390/machines11070677

Kneipp, R. B. (2018). “The state of the art in the use of Drones for Naval and Offshore Inspection”. 81f. Dissertation - Federal University of Rio de Janeiro, Rio de Janeiro.

Kung, R.-Y., Pan, N.-H., Wang, C. C. N., Lee, P.-C. (2021). “Application of Deep Learning and Unmanned Aerial Vehicles in Building Maintenance”. Advances in Civil Engineering, Volume 2021, Issue 1, 5598690. https://doi.org/10.1155/2021/5598690

Mantripragada, M. (2020). “Digging deeper into YOLO V3 - A practical guide Part 1”. Available at: https://towardsdatascience.com/digging-deep-into-yolo-v3-a-hands-on-guide-part-1-78681f2c7e29

Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016). “You Only Look Once: Unified Real-Time Object Detection”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), https://doi.org/10.1109/CVPR.2016.91

Ribeiro, D., Santos, R., Shibasaki, A., Montenegro, P., Carvalho, H., Calçada, R. (2020), Remote inspection of RC structures using unmanned aerial vehicles and heuristic image processing, Engineering Failure Analysis, Volume 117, 104813, ISSN 1350-6307, https://doi.org/10.1016/j.engfailanal.2020.104813

Swiezewski, J. (2020). “Yolo Algorithm and Yolo Object Detection: An Introduction”. Available at: <https://appsilon.com/object-detection-yolo-algorithm>.

Woo, H. J., Seo, D. M., Kim, M. S., Park, M. S., Hong, W. H., Baek, S. C. (2022). “Localization of cracks in concrete structures using an unmanned aerial vehicle”. Sensors, 22(17), 6711, https://doi.org/10.3390/s22176711

Yu, Z. (2022). “Deep learning approach based on YOLO V5s for crack detection in concrete”. In SHS Web of Conferences (Vol. 144, p. 03015). EDP Sciences.