Modelo baseado em YOLOv8 para detecção automática de danos em telhados residenciais

Study Case

https://doi.org/10.21041/ra.v15i1.783

Modelo baseado em YOLOv8 para detecção automática de danos em telhados residenciais

YOLOv8-based model for automatic detection of residential roof damage
Modelo basado en YOLOv8 para la detección automática de daños en tejados residenciales

A. S. Silva¹ *, A. R. Azevedo² , F. H. A. M. Neto² , P. H. Ferreira²

¹ Departamento de Ingeniería Estructural y de la Construcción, Universidad Federal de Bahía, Salvador, Brasil.

² Departamento de Matemáticas y Estadística, Universidad Federal de Bahía, Salvador, Brasil.

*Autor de contato: so_alisson@hotmail.com

Recebido: 17/09/2024
Revisado: 19/11/2024
Aceito: 10/12/2024
Publicado: 01/01/2025

Citar como: Silva, A. S., Azevedo, A. R., Neto, F. H. A. M., Ferreira, P. H. (2025), “YOLOv8-based model for automatic detection of residential roof damage.”, Revista ALCONPAT, 15 (1), pp. 50 – 63, DOI: https://doi.org/10.21041/ra.v15i1.783

Resumo

Este estudo desenvolveu um modelo automatizado de reconhecimento de imagens para inspeção de telhados residenciais, utilizando a arquitetura YOLOv8, com o objetivo de identificar três tipos de danos. A metodologia contou com imagens de 167 edifícios, capturadas por drones e anotadas no CVAT, utilizadas para treinar e testar o modelo. A YOLOv8 foi aplicada na detecção e classificação de anomalias, alcançando 79% de precisão. As principais limitações foram o tamanho reduzido do conjunto de dados e a pouca variedade de ângulos de captura. A originalidade do trabalho está no uso inovador da YOLOv8 para a inspeção de telhados. Pesquisas futuras incluirão o desenvolvimento das arquiteturas YOLOv9 e YOLOv10, bem como a ampliação do conjunto de dados e das classes de problemas.

Keywords: gestão da manutenção; aprendizado de máquina; You Only Look Once (YOLO); inspeção de telhado; avaliação de telhado.

1. INTRODUÇÃO

A envoltória do edifício desempenha um papel crítico no desempenho geral de uma estrutura, atuando como uma camada protetora que resguarda o edifício da degradação ambiental externa (Silva et al., 2015). Telhados e coberturas protegem principalmente os edifícios, criando ambientes internos protegidos de agentes externos, como temperatura, umidade, chuva, vento e ruído (Garcez et al., 2012; Conceição et al., 2017). A manutenção desse sistema é um componente crucial nos programas de manutenção predial, pois o sistema de cobertura é a parte mais vulnerável dos edifícios devido à sua exposição direta ao meio ambiente (Rosenberger, 2012). Quando expostos a condições climáticas severas, esses sistemas geralmente sofrem deterioração acelerada, levando a um maior consumo de energia, comprometendo a integridade estrutural do telhado e de outros componentes do edifício e reduzindo a vida útil do edifício (Alashari et al., 2022). Portanto, vistorias regulares são essenciais, pois podem levar a reduções substanciais de custos (Liu et al., 2020; Alzarrad et al., 2022).

A inspeção manual é o principal método para avaliar periodicamente os requisitos estruturais e funcionais para garantir a conformidade com os padrões básicos de desempenho (Dang et al., 2021). Os métodos tradicionais de inspeção dependem do trabalho humano para identificar problemas e defeitos. No entanto, essas tarefas costumam ser tediosas e exaustivas, resultando em erros devido a fatores humanos como desatenção, ilusões de ótica, avaliações subjetivas e fadiga do inspetor (Radopoulou e Brilakis, 2017; Hoang et al., 2018). Além disso, os inspetores humanos exigem treinamento e experiência, o que consome tempo. A rotatividade de funcionários é outra desvantagem significativa do trabalho manual (Olimov et al., 2022). Além desses desafios, dois fatores adicionais complicam as avaliações periódicas: o risco de queda do telhado e os custos extras decorrentes da falta de precisão e erro humano (Brown et al., 2021).

Com base nessas descobertas, podemos classificar as limitações das inspeções de telhado em duas áreas principais: aquisição de dados e análise de dados. Para suprir a primeira limitação relacionada à aquisição de dados, destacam-se os drones, também conhecidos como Veículos Aéreos Não Tripulados (VANTs). Os drones são altamente flexíveis, com movimentos versáteis, permitindo a rápida exploração de ambientes construídos e exigindo custos mínimos de mão de obra, pois precisam apenas de trocas de bateria e rotas pré-planejadas que eliminam a necessidade de operações manuais durante o voo (Chu et al., 2024). Muitos estudos utilizaram essa tecnologia para inspeções de telhados (Gajjar & Burgett, 2020; Silveira et al., 2020; Staffa et al., 2023; Santos et al., 2023).

Em relação à análise de dados, algoritmos automatizados de Inteligência Artificial (IA) têm mostrado resultados promissores na superação das limitações das avaliações subjetivas por inspetores individuais (Alizadeh & Ma, 2021; Avola et al., 2022). Trabalhos relevantes nesta área incluem estudos de Alzarrad et al. (2022), Hou et al. (2023) e Wang et al. (2023). A combinação dessas duas estratégias pode melhorar significativamente os resultados da inspeção, permitindo inspeções regulares e suplantando as limitações mencionadas anteriormente, conforme evidenciado pelas pesquisas de Mostafa et al. (2023), Santos et al. (2023) e Staffa et al. (2023).

No entanto, apesar da relevância desses estudos, algumas limitações persistem. Mostafa et al. (2023) desenvolveram um modelo de Rede Neural Convolucional (CNN) de dois estágios para detecção e classificação de defeitos em telhados usando imagens 2D de mais de 5.500 imagens de 21 telhados. O modelo alcançou 95% de precisão na detecção e 97% na classificação. No entanto, a ausência de defeitos como rachaduras e bolhas nas imagens de treinamento limita sua eficácia, destacando a necessidade de mais pesquisas e melhorias.

No estudo de Santos et al. (2023), os autores otimizaram a manutenção de telhados planos usando 330 imagens capturadas por drones e testaram seis algoritmos de aprendizado profundo para detecção de objetos, incluindo Region-based CNN (Faster R-CNN), RetinaNet e Adaptive Training Sample Selection (ATSS). A R-CNN mais rápida alcançou os melhores resultados com 93% de recall e F1-score, enquanto a ATSS atingiu 95% de precisão. A análise de erros destacou a complexidade dos telhados planos, sugerindo a necessidade de melhorar os algoritmos para lidar com suas variações. Embora o estudo tenha detectado efetivamente unidades condensadoras, há necessidade de expandir o foco para outras questões, como telhas extras e oxidação em calhas, que também requerem inspeção.

Para lidar com essas lacunas de pesquisa, este trabalho propõe um modelo de reconhecimento de imagem para coberturas residenciais. Um conjunto de dados abrangente de imagens de 167 edifícios residenciais coletados por UAVs foi usado para detectar e classificar três tipos de danos no telhado: telhas extras no telhado, oxidação nas calhas e tampas de escotilha abertas. As anotações foram feitas usando CVAT, e o estudo empregou a oitava geração da arquitetura You Only Look Once (YOLO), YOLOv8.

2. APLICAÇÕES DO YOLO NA CONSTRUÇÃO

Na visão computacional, a desafiadora tarefa de detecção de objetos passou por uma evolução significativa, impulsionada pela introdução revolucionária da arquitetura YOLO em 2016 (Redmon et al., 2016). A abordagem inovadora do YOLO diferiu das arquiteturas tradicionais de detecção de objetos em dois estágios, propondo uma arquitetura unificada capaz de prever simultaneamente caixas delimitadoras e probabilidades de classe, atendendo às demandas de processamento em tempo real (Koubaa et al., 2021). O YOLOv8 é uma das versões mais recentes da série YOLO, utilizando uma arquitetura de rede que incorpora uma Rede de Pirâmide de Recursos (FPN) e conexões de camada para integrar informações de recursos em várias escalas de forma eficiente. Esta versão combina mecanismos de atenção e estratégias de otimização para aumentar a precisão e o desempenho na detecção de objetos. A estrutura central inclui uma rede backbone para extração de recursos de imagens, normalmente usando CNN profunda, como Darknet ou ResNet, e um cabeçalho de detecção composta por camadas convolucionais e totalmente conectadas responsáveis por prever a caixa delimitadora e a probabilidade de classe dos objetos (Cao et al., 2024).

Nesse contexto, estudos significativos em construção exploraram as capacidades avançadas do YOLOv8. Sohaib et al. (2024) desenvolveram um modelo para detectar e segmentar trincas no concreto, enquanto Han et al. (2024) automatizaram a detecção e classificação de pequenas ferramentas em canteiros de obras. Zhao et al. (2024) criaram um sistema para monitoramento automatizado de defeitos em concreto impresso em 3D. Jiang et al. (2024) propuseram um método para otimizar o tempo de vibração do concreto com robôs, usando o YOLOv8 para identificar as melhores posições de vibração e remover a interferência visual das barras de reforço. Ribeiro et al. (2024) propuseram um método baseado em YOLOv8 para detectar fissuras em edifícios. As imagens utilizadas para o treinamento foram coletadas da internet, e o modelo alcançou 80% de acurácia na validação com imagens não incluídas no treinamento. No entanto, o modelo se concentrou apenas em fissuras, limitando sua aplicabilidade a outros casos de uso.

Em um contexto mais específico, para avaliar telhados e coberturas de edifícios, Hou et al. (2023) desenvolveram um algoritmo de detecção aprimorado baseado em YOLOv3 para identificar elementos decorativos conhecidos como "bestas de cumeeira" em telhados de edifícios chineses antigos. Essa tecnologia é crucial para a reconstrução 3D de edifícios históricos, datação histórica e serviços culturais e turísticos. Eles melhoraram a rede YOLOv3 incorporando recursos locais e convoluções separáveis profundas para expandir o campo receptivo e capturar características mais diversas. Além disso, eles otimizaram a estrutura residual da rede de extração de recursos e redesenharam a carga de previsão do modelo, introduzindo módulos de extrusão e excitação e usando convoluções de vários tamanhos. Os experimentos mostraram que o algoritmo aprimorado alcançou uma precisão média média (mAP) de 86,48%, 3,05% maior que o YOLOv3 original, reduzindo os parâmetros do modelo em 70% e melhorando o desempenho da detecção. Embora esta pesquisa tenha se concentrado na detecção de elementos decorativos, o modelo também pode ser aplicado para identificar problemas comuns em edifícios antigos, como telhas quebradas ou ausentes, bem como musgo e oxidação em elementos de cobertura, que são essenciais para a manutenção adequada dessas estruturas históricas.

Além deste estudo, Alzarrad et al. (2022) desenvolveram um método utilizando deep learning para a avaliação automatizada de telhados residenciais, com foco na identificação de áreas danificadas, como telhas ausentes. Eles empregaram a metodologia de aprendizado de transferência usando o YOLOv5 para processar imagens e identificar esses danos. O estudo descobriu que, apesar dos dados limitados, o modelo alcançou aproximadamente 81% de precisão e 86% de acurácia. No entanto, embora o estudo tenha mostrado bons resultados na detecção de problemas com coberturas residenciais, ele se concentrou apenas em um tipo de problema. Na prática, muitos outros problemas com telhados residenciais precisam ser identificados durante as inspeções para uma resolução adequada, como oxidação em calhas e rufos. Negligenciar esses problemas pode levar à deterioração estrutural, aumentando significativamente os custos de reparo.

Qiu et al. (2024) propuseram um método de dois estágios baseado no YOLOv8. Na primeira etapa, o modelo YOLOv8 é utilizado para identificar edifícios historicamente significativos na área, alcançando uma taxa de mAP de 97,2%. O mesmo modelo é empregado na segunda etapa para segmentar as imagens selecionadas, detectando possíveis defeitos no telhado, como desabamentos, telhas ausentes, adições arquitetônicas inadequadas e invasão de vegetação. Embora esta pesquisa represente um avanço significativo e utilize uma das versões mais recentes do YOLO, ela ainda se concentra nos telhados de edifícios culturalmente históricos, como templos budistas, que geralmente possuem sistemas de cobertura específicos diferentes daqueles usados em edifícios residenciais modernos.

Diante disso, fica claro que a detecção e classificação imediata de defeitos e problemas em telhados de edifícios residenciais são cruciais. Embora os estudos mencionados tenham avançado significativamente a automação da detecção de certos problemas no telhado, ainda são necessárias mais pesquisas para resolver outros tipos de problemas. Considerando os avanços nas arquiteturas YOLO, há uma clara oportunidade de aplicar essas redes nesse contexto. Neste estudo, avaliamos o uso do YOLOv8 para detectar e classificar três problemas em telhados de edifícios residenciais. Como não encontramos estudos prévios na literatura abordando esse tema, destacamos a aplicação de uma das versões mais recentes do YOLO para automatizar o processo de inspeção. Além disso, fornecemos os códigos usados nesta pesquisa para permitir que outros pesquisadores aprimorem o modelo e adicionem mais classes de problemas, pois diferentes tipos de defeitos também precisam ser identificados e tratados com igual importância.

3. MÉTODO DE INVESTIGAÇÃO

Este estudo adotou uma estratégia de pesquisa de simulação experimental, desenvolvida em quatro etapas (Figura 1): (1) refinamento do banco de dados de imagens de telhados residenciais com danos superficiais; (2) criação do modelo automatizado de reconhecimento de danos usando a arquitetura YOLOv8; (3) treinamento do modelo usando 70% do banco de dados; e (4) testar e validar o modelo treinado com novas imagens (30%). Os indicadores de precisão, recall e mAP avaliaram o desempenho do modelo.

Figura 1. Projeto de pesquisa.

Neste trabalho, utilizamos o YOLOv8. De acordo com Lalinia e Sahafi (2024), uma das principais vantagens de incorporar o YOLOv8 em projetos de visão computacional é sua maior precisão em comparação com os modelos YOLO anteriores. O YOLOv8 oferece suporte a várias tarefas, como detecção de objetos, segmentação e classificação de imagens, aumentando sua versatilidade para várias aplicações. A arquitetura YOLOv8 é mostrada na Figura 2; mais detalhes sobre a arquitetura podem ser encontrados em Terven et al. (2023).

Figura 2. Arquitetura YOLOv8 usada.

A Figura 2 mostra que a arquitetura é organizada em três componentes principais: Backbone, Neck e Head, cada um desempenhando um papel específico no processamento de imagens e na geração de previsão.

A imagem de entrada é o ponto de partida do processo, onde a rede começa a extrair recursos relevantes para identificar possíveis defeitos. O Backbone extrai recursos básicos da imagem por meio de várias camadas convolucionais que detectam padrões iniciais, como bordas e texturas. À medida que a imagem avança por essas camadas, módulos mais complexos, conhecidos como Modules.C2f, refinam os recursos extraídos, permitindo uma análise de imagem mais detalhada. O Backbone também inclui o módulo Spatial Pyramid Pooling Fast (SPPF), agregando informações em diferentes escalas e aumentando a robustez da detecção.

O Neck é um intermediário entre o Backbone e a Cabeça, refinando e combinando as características extraídas por meio de Concatenação (Concat), Upsampling e camadas convolucionais adicionais. O objetivo do Neck é preparar essas características para uma detecção mais precisa em várias escalas, garantindo que detalhes finos e estruturas maiores na imagem sejam considerados na previsão final.

Finalmente, o Head é responsável por gerar as previsões finais. Os recursos refinados pelo Neck são usados para identificar e classificar objetos ou defeitos na imagem. O Head consiste em dois tipos principais: o Segment Head, que lida com tarefas de segmentação identificando áreas exatas onde os defeitos estão presentes, e o Detection Head, que se concentra na detecção e classificação de objetos gerando caixas delimitadoras e classes de objetos. Além disso, as perdas (Cis Loss e Bbox Loss) associadas a essas previsões são calculadas para otimizar o desempenho do modelo.

Essa arquitetura permite que o YOLOv8 processe imagens com eficiência, desde a extração inicial de features até a geração final de previsão, garantindo a detecção precisa de defeitos em telhados residenciais.

3.1 Base de dados

O GETEC-UFBA (Grupo de Pesquisa e Extensão em Gestão e Tecnologia das Construções da Escola Politécnica da Universidade Federal da Bahia) forneceu o conjunto de dados utilizado nesta pesquisa. Essas imagens foram coletadas de edifícios residenciais com idade entre um e cinco anos. Mais de 167 telhados residenciais foram inspecionados a partir de voos manuais de drones, com uma altitude aproximada de 5 metros acima do edifício que está sendo analisado. A aquisição de dados seguiu os protocolos de inspeção propostos por Silveira et al. (2021). Após a análise das imagens deste conjunto de dados, foram selecionadas 394 imagens, distribuídas entre 425 anotações para a classe "Presença de telha extra no sentido transversal da cobertura", 473 anotações para a classe "Integridade da calha (oxidação)", e 29 anotações para a classe "Alçapão aberto". O conjunto de dados foi dividido em aproximadamente 70% para treinamento, 20% para validação e 10% para teste. Após o aumento dos dados no conjunto de treinamento, 498 imagens foram obtidas do conjunto de treinamento, com exemplos dessas classes mostrados na Figura 3.

Figura 3. Exemplos de danos no telhado abordados nesta pesquisa: a) Presença de telha extra no sentido transversal do telhado; b) Integridade da calha (oxidação); c) Alçapão aberto.

3.2 Criando o modelo YOLOv8

Após a definição das anomalias, as imagens de treinamento foram rotuladas usando o Roboflow. Um exemplo dessa rotulagem é mostrado na Figura 4a, onde algumas telhas extras no telhado, oxidação e uma clarabóia aberta são rotuladas. A Figura 4b ilustra o fluxo de trabalho completo, desde a entrada de dados até o treinamento do modelo e o processo de inferência subsequente, onde as anotações são feitas; em seguida, pré-processamento, aumento de dados e, finalmente, os dados são exportados no formato YOLOv8 para análise no Google Colab.

Figura 4. a) Notas de avarias; b) Fluxo de trabalho.

3.3 Treinamento, teste e validação de modelos

Precisão, Recall e mAP são os métodos de avaliação usados para avaliar os modelos criados nas plataformas Custom Vision e Roboflow. A precisão representa o número de casos corretos de todos os casos disponíveis. Alta precisão indica que as anomalias estão sendo identificadas com precisão. Recall, consequentemente, é o número de casos corretos de todos os casos positivos. Um modelo com alto recall identifica efetivamente o maior número de anomalias corretas. Da mesma forma, mAP é a média da precisão média, que é a precisão obtida em vários níveis de recordação em todas as classes (anomalias). As fórmulas a seguir representam os KPIs (indicadores chave de desempenho):

P r e c i s i o n = \frac{T P}{T P + F P}

(1)

R e c a l l = \frac{T P}{T P + F N}

(2)

m A P = \frac{1}{n} \sum_{k = 1}^{n} A P k

(3)

Onde TP (Verdadeiros Positivos) são ocorrências em instâncias positivas, FN (Falsos Negativos) são erros em ocorrências positivas, TN (Verdadeiros Negativos) são ocorrências em ocorrências negativas e FP (Falsos Positivos) são erros em instâncias negativas e APk é a Precisão Média para cada classe k. Essas métricas fornecem insights sobre a classificação e a qualidade do modelo.

4. RESULTADOS E DISCUSSÃO

Durante o treinamento do modelo, a arquitetura YOLOv8 executa ativações de recursos em diferentes estágios da rede neural. Essas ativações demonstram como a rede processa informações visuais para detectar padrões e recursos importantes nas imagens de entrada (Figura 5). Essas visualizações ilustram como o YOLOv8 realiza a detecção de objetos, desde a extração de recursos básicos até a combinação de informações em diferentes escalas e resoluções, permitindo a identificação precisa de defeitos no telhado.

Figura 5. Estrutura das camadas YOLOv8 treinadas.

Os "Conv_features" são as saídas das camadas convolucionais, responsáveis por identificar padrões locais, como bordas e texturas. À medida que avançamos pelos diferentes estágios, de "stage0_Conv_features" a "stage20_Concat_features", as ativações refletem representações cada vez mais complexas e abstratas das características da imagem. Os "Upsample_features" estão relacionados ao processo de upsampling, onde a resolução espacial das ativações é aumentada, permitindo que a rede detecte objetos em diferentes escalas. Esse processo é crucial para detectar detalhes menores nos telhados.

Os "C2f_features" referem-se a combinações de convoluções seguidas por funções de ativação projetadas para capturar interações mais complexas entre recursos extraídos em camadas anteriores, aumentando a capacidade da rede de identificar padrões. Por fim, os "Concat_features" resultam de operações de concatenação, que combinam ativações de diferentes camadas ou estágios da rede. Essa técnica permite que a rede integre informações de outros níveis de abstração, mesclando recursos extraídos em vários estágios para produzir a previsão final.

O modelo YOLOv8 foi treinado usando o Google Colab. O treinamento do modelo e o código de desenvolvimento de aplicativos Streamlit estão disponíveis em: (OMITIDO PARA REVISÃO). O modelo treinado tem 168 camadas e aproximadamente 3 milhões de parâmetros. As imagens de entrada para o modelo tinham 640 × 640 pixels. As métricas de desempenho do YOLOv8 no conjunto de teste são apresentadas na Tabela 1, onde mAP50 representa o mAP calculado com um limite de Interseção sobre União (IoU) de 0,50.

Tabela 1. Métricas de avaliação do modelo YOLOv8 para o conjunto de teste.

Classe	Imagens	Precisão (%)	Recordação (%)	mAP50 (%)
All	73	0.79	0.59	0.66
dirtyGutter	73	0.69	0.44	0.51
extraTile	73	0.78	0.66	0.68
openTrapdoor	73	0.90	0.67	0.78

Para telhas extras no telhado, o modelo alcançou uma precisão de 78%, recall de 66% e mAP50 de 68%. O modelo identifica efetivamente ladrilhos extras, embora seja um pouco menos preciso do que detectar alçapões abertos. Por fim, para a integridade das calhas, o modelo teve o pior desempenho, com Precisão de 69%, Recall de 44% e mAP50 de 51%, indicando maior dificuldade em detectar e classificar com precisão esse problema. A Figura 6 mostra os gráficos de perda de treinamento e validação, juntamente com as métricas de Precisão e Recall; Isso indica que o modelo está aprendendo de forma robusta e constante (com perdas decrescentes e métricas crescentes).

Figura 6. Perdas de treinamento e validação, métricas de precisão e recall do YOLOv8.

As Figuras 7 e 8 exibem os resultados da classificação do conjunto de teste. A partir dessas imagens, fica claro que o modelo pode identificar ladrilhos extras dispostos em diferentes orientações (a Figura 7a mostra ladrilhos extras; A Figura 7b mostra um ladrilho extra e oxidação na calha) e clarabóias abertas em várias posições (as Figuras 8a e 8b mostram uma clarabóia aberta e alguns ladrilhos extras). Essas classificações são vitais para a manutenção preventiva, garantindo a integridade estrutural e a funcionalidade adequada dos telhados. Apesar dos sucessos do modelo, alguns elementos não foram identificados nas Figuras 7 e 8.

Figura 7. Classificação do conjunto de teste para ladrilhos extras e oxidação.

Figura 8. Classificação do conjunto de teste para alçapão aberto e ladrilho extra.

A revisão da literatura sobre a detecção e classificação de defeitos em telhados inclinados de edifícios residenciais destacou a necessidade de estudos com foco no uso de algoritmos YOLOv8, dados os resultados promissores de versões anteriores para fins semelhantes (Alzarrad et al., 2022; Hou et al., 2023; Wang et al., 2023; Fan, 2024). Este estudo abordou essa lacuna desenvolvendo um modelo de reconhecimento automatizado para três defeitos em telhados residenciais usando imagens coletadas por drones de 167 telhados. O modelo possibilitou a identificação de telhas extras, oxidação em calhas e alçapões abertos, que são cruciais para manter a integridade do telhado. Os resultados alcançaram 90% de precisão na detecção desses defeitos.

Os resultados deste estudo foram positivos em comparação com estudos semelhantes (Alzarrad et al., 2022; Hou et al., 2023; Qiu et al., 2024). Além disso, enquanto esta pesquisa se concentra em defeitos em telhados residenciais, estudos anteriores se concentraram na detecção de elementos decorativos em telhados de edifícios históricos. No entanto, todos os estudos ressaltam a importância da identificação precoce do problema e a necessidade de inspeções de rotina para garantir a integridade física das edificações. Além disso, outros estudos, como os de Santos et al. (2023), utilizam o YOLO para detecção de condensadores de ar condicionado, observando que esses elementos são mais distintos em telhados, tornando-os mais fáceis de visualizar do que detectar calhas oxidadas. Os resultados deste estudo mostraram que o modelo reconheceu esse dano com até 78% de precisão durante o teste.

Além disso, comparar este estudo com outras literaturas que não utilizaram arquiteturas YOLO revela alguns pontos em comum. Em primeiro lugar, os resultados deste estudo se alinham com os achados de Staffa et al. (2023) quanto à necessidade de inspeções em telhados residenciais, considerando a manutenibilidade dessas estruturas. Outro ponto importante é que, embora Staffa et al. (2023) tenham abordado um número maior de classes a serem detectadas em telhados, eles usaram algoritmos de uma Interface de Programação de Aplicativos (API) que não permitem ajustes de hiperparâmetros, complicando as melhorias do modelo.

5. CONCLUSÃO

Este estudo propôs um modelo de reconhecimento de imagem para telhados residenciais utilizando a oitava geração da arquitetura YOLO, YOLOv8. Um rico conjunto de dados composto por imagens de 167 edifícios coletados por Sistemas Aéreos Não Tripulados (UAS) foi usado para avaliar as condições reais dos telhados de edifícios residenciais de forma abrangente. Essas imagens foram anotadas no CVAT para detectar e classificar três tipos de danos no telhado: telhas extras na direção transversal, oxidação em calhas e claraboias abertas. O modelo foi construído usando 394 imagens, sendo 70% usadas para treinamento, 20% para validação e 10% para teste. Apesar do número limitado de imagens usadas para treinamento, os resultados foram promissores.

A arquitetura YOLOv8 demonstra vantagens significativas em relação às versões anteriores. O YOLOv8 permite detecção e classificação rápidas, oferecendo fácil implementação e eficiência na análise de imagens. Além disso, o YOLOv8 pode ser dimensionado para classificação em tempo real. Uma limitação neste estudo foi o pequeno conjunto de dados de apenas 167 edifícios, o que pode ter impactado o desempenho final do modelo. Além disso, a captura de imagens por meio de drones pode limitar a variedade de ângulos de captura. Trabalhos futuros podem considerar uma abordagem de coleta de dados mais diversificada.

Estudos futuros se concentrarão no desenvolvimento de arquiteturas YOLOv9 e YOLOv10 para inspeção de telhados. Além disso, modelos de reconhecimento de objetos específicos para telhados serão desenvolvidos para aprimorar o gerenciamento de manutenção. Esses modelos integrarão os dados gerados ao sistema de gerenciamento de manutenção e avaliarão possíveis melhorias. Também serão exploradas oportunidades para incorporar outras tecnologias ao processo, otimizar a automação e incluir uma variedade maior de tipos e materiais de telhado. Para fortalecer o modelo, os autores adicionarão mais imagens e ampliarão o conjunto de classes de problemas em coberturas residenciais, visando aumentar a robustez e precisão na análise.

6. ACKNOWLEDGMENTS

Os autores agradecem as agências de fomento CAPES e CNPq.

7. REFERÊNCIAS

Alashari, M., El-Rayes, K., Attalla, M., Al-Ghzawi, M. (2022). Multivariate time series and regression models for forecasting annual maintenance costs of EPDM roofing systems. Journal of Building Engineering, 54, 104618.

Alizadeh, M., Ma, J. (2021). A comparative study of series hybrid approaches to model and predict the vehicle operating states. Computers & Industrial Engineering, 162, 107770. https://doi.org/10.1016/j.cie.2021.107770

Alzarrad, A., Awolusi, I., Hatamleh, M. T., Terreno, S. (2022). Automatic assessment of roofs conditions using artificial intelligence (AI) and unmanned aerial vehicles (UAVs). Frontiers in Built Environment, 8, 1026225.

Avola, D., Cascio, M., Cinque, L., Fagioli, A., Foresti, G. L., Marini, M. R., Rossi, F. (2022). Real-time deep learning method for automated detection and localization of structural defects in manufactured products. Computers & Industrial Engineering, 172, 108512. https://doi.org/10.1016/j.cie.2022.108512

Brown, S., Harris, W., Brooks, R. D., Dong, X. S. (2021). Fatal injury trends in the construction industry.

Cao, Y., Pang, D., Zhao, Q., Yan, Y., Jiang, Y., Tian, C., Li, J. (2024). Improved yolov8-gd deep learning model for defect detection in electroluminescence images of solar photovoltaic modules. Engineering Applications of Artificial Intelligence, 131, 107866.

Chu, J. C., Shui, C. S., & Lin, K. H. (2024). Optimization of trucks and drones in tandem delivery network with drone trajectory planning. Computers & Industrial Engineering, 189, 110000. https://doi.org/10.1016/j.cie.2024.110000

Conceição, J., Poça, B., De Brito, J., Flores-Colen, I., Castelo, A. (2017). Inspection, diagnosis, and rehabilitation system for flat roofs. Journal of Performance of Constructed Facilities, 31(6), 04017100.

Dang, L. M., Kyeong, S., Li, Y., Wang, H., Nguyen, T. N., Moon, H. (2021). Deep learning-based sewer defect classification for highly imbalanced dataset. Computers & Industrial Engineering, 161, 107630. https://doi.org/10.1016/j.cie.2021.107630

Fan, C. L. (2024). Using convolutional neural networks to identify illegal roofs from unmanned aerial vehicle images. Architectural Engineering and Design Management, 20(2), 390-410.

Gajjar, D., Burgett, J. (2020). Evaluating the Use of Unmanned Aerial Systems (UAS) to Perform Low-Slope Roof Inspections. EPiC Series in Built Environment, 1, 214-222.

Garcez, N., Lopes, N., de Brito, J., Silvestre, J. (2012). System of inspection, diagnosis and repair of external claddings of pitched roofs. Construction and Building Materials, 35, 1034-1044.

Han, S., Park, W., Jeong, K., Hong, T., Koo, C. (2024). Utilizing synthetic images to enhance the automated recognition of small-sized construction tools. Automation in Construction, 163, 105415. https://doi.org/10.1016/j.autcon.2024.105415

Hou, M., Hao, W., Dong, Y., Ji, Y. (2023). A detection method for the ridge beast based on improved YOLOv3 algorithm. Heritage Science, 11(1), 167. https://doi.org/10.1186/s40494-023-00995-4

Jiang, D., Kong, L., Wang, H., Pan, D., Li, T., Tan, J. (2024). Precise control mode for concrete vibration time based on attention-enhanced machine vision. Automation in Construction, 158, 105232. https://doi.org/10.1016/j.autcon.2023.105232

Koubaa, A., Ammar, A., Kanhouch, A., AlHabashi, Y. (2021). Cloud versus edge deployment strategies of real-time face recognition inference. IEEE Transactions on Network Science and Engineering, 9(1), 143-160. https://doi.org/10.1109/TNSE.2021.3055835

Li, C., Li, L., Jiang, H., Weng, K., Geng, Y., Li, L., Wei, X. (2022). YOLOv6: A single-stage object detection framework for industrial applications. arXiv preprint arXiv:2209.02976. https://doi.org/10.48550/arXiv.2209.02976

Liu, Y. F., Nie, X., Fan, J. S., Liu, X. G. (2020). Image-based crack assessment of bridge piers using unmanned aerial vehicles and three-dimensional scene reconstruction. Computer-Aided Civil and Infrastructure Engineering, 35(5), 511-529.

Ma, X., Li, Y., Yang, Z., Li, S. (2024). Lightweight network for millimeter-level concrete crack detection with dense feature connection and dual attention. Journal of Building Engineering, 109821. https://doi.org/10.1016/j.jobe.2024.109821

Mostafa, K., Hegazy, T., Hunsperger, R. D., Elias, S. (2023). Using image analysis to quantify defects and prioritize repairs in built-up roofs. Facilities, 41(7/8), 498-509.

Ni, Y. H., Wang, H., Mao, J. X., Xi, Z., Chen, Z. Y. (2024). Quantitative detection of typical bridge surface damages based on global attention mechanism and YOLOv7 network. Structural Health Monitoring, 14759217241246953. https://doi.org/10.1177/14759217241246953

Olimov, B. A., Veluvolu, K. C., Paul, A., Kim, J. (2022). UzADL: Anomaly detection and localization using graph Laplacian matrix-based unsupervised learning method. Computers & Industrial Engineering, 171, 108313. https://doi.org/10.1016/j.cie.2022.108313

Qiu, H., Zhang, J., Zhuo, L., Xiao, Q., Chen, Z., Tian, H. (2024). Research on intelligent monitoring technology for roof damage of traditional Chinese residential buildings based on improved YOLOv8: taking ancient villages in southern Fujian as an example. Heritage Science, 12(1), 231.

Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).

Ribeiro, W. S., Zanetti, J., Totola, L. B., Junqueira, S. Â. C., Lauff, P. H. P. (2024). Crack detection in buildings using the YOLO v8 network. Revista ALCONPAT, 14(3), 288-298. https://doi.org/10.21041/ra.v14i3.76.

"newspaper">Rosenberger, T. (2012), Roofing Systems in Costa Rica Need Careful Consideration, The Costa Rica Star, https://news.co.cr/roofing-systems-in-costa-rica-need-careful-consideration/7258/. Acessado em outubro de 2023.

Santos, L. M. A., Zanoni, V. A. G., Bedin, E., Pistori, H. (2023). Deep learning applied to equipment detection on flat roofs in images captured by UAV. Case Studies in Construction Materials, 18, e01917.

Silva, C. M., Flores-Colen, I., Coelho, A. (2015). Green roofs in Mediterranean areas–Survey and maintenance planning. Building and Environment, 94, 131-143.

Silveira, B., Melo, R., Costa, D. B. (2020). Using UAS for roofs structure inspections at post-occupational residential buildings. International Conference on Computing in Civil and Building Engineering (pp. 1055-1068). Cham: Springer International Publishing.

Sohaib, M., Jamil, S., Kim, J. M. (2024). An ensemble approach for robust automated crack detection and segmentation in concrete structures. Sensors, 24(1), 257. https://doi.org/10.3390/s24010257

Solawetz, J. (2023). What is yolov8? the ultimate guide. Roboflow Blog, 25.

Staffa, L. B. J., Costa, D. B., Nogueira, J. L. T., and Silva, A. S. (2023). Web platform for building roof maintenance inspection using UAS and artificial intelligence. International Journal of Building Pathology and Adaptation. https://doi.org/10.1108/IJBPA-12-2022-0186.

Wang, C. Y., Bochkovskiy, A., Liao, H. Y. M. (2023). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 7464-7475).

Wang, W., Chen, J., Huang, Z., Yuan, H., Li, P., Jiang, X., Lin, Q. (2023). Improved YOLOv7-based algorithm for detecting foreign objects on the roof of a subway vehicle. Sensors, 23(23), 9440. https://doi.org/10.3390/s23239440

Zhao, H., Wang, X., Sun, J., Wang, Y., Chen, Z., Wang, J., Xu, X. (2024). Artificial intelligence powered real-time quality monitoring for additive manufacturing in construction. Construction and Building Materials, 429, 135894. https://doi.org/10.1016/j.conbuildmat.2024.135894