WiMi Hologram Cloud Inc. a annoncé une méthode de segmentation sémantique par fusion d'images et de nuages de points basée sur un réseau convolutionnel à graphe fusionné, visant à utiliser les différentes informations de l'image et du nuage de points pour améliorer la précision et l'efficacité de la segmentation sémantique. Les données des nuages de points sont très efficaces pour représenter la géométrie et la structure des objets, tandis que les données d'images contiennent de riches informations sur les couleurs et les textures. La fusion de ces deux types de données permet d'utiliser simultanément leurs avantages et de fournir des informations plus complètes pour la segmentation sémantique.

Le réseau convolutionnel à graphe fusionné (FGCN) est un modèle d'apprentissage profond efficace qui peut traiter simultanément les données d'images et de nuages de points et traiter efficacement les caractéristiques d'images de différentes résolutions et échelles pour une extraction de caractéristiques et une segmentation d'images efficaces. Le FGCN est capable d'utiliser plus efficacement les données multimodales en extrayant les informations sémantiques de chaque point impliqué dans les données bimodales de l'image et du nuage de points. Ce module permet au FGCN d'utiliser les informations spatiales des données d'image pour mieux comprendre les informations contextuelles de l'image en calculant les informations sémantiques des k voisins les plus proches autour de chaque point.

Cela permet au FGCN de mieux distinguer les caractéristiques les plus importantes et d'éliminer les bruits pertinents. En outre, le FGCN utilise un mécanisme d'attention spatiale pour mieux se concentrer sur les caractéristiques les plus importantes des données du nuage de points. Ce mécanisme permet au modèle d'attribuer des poids différents à chaque point en fonction de sa géométrie et de la relation entre les points voisins afin de mieux comprendre les informations sémantiques des données du nuage de points.

En fusionnant les caractéristiques multi-échelles, le FGCN améliore la capacité de généralisation du réseau et la précision de la segmentation sémantique. L'extraction de caractéristiques multi-échelles permet au modèle de prendre en compte des informations à différentes échelles spatiales, ce qui permet de mieux comprendre le contenu sémantique des images et des données de nuages de points. Cette segmentation sémantique de nuages de points fusionnés avec des images à l'aide d'un réseau convolutionnel à graphe de fusion est capable d'utiliser plus efficacement les informations des données multimodales telles que les images et les nuages de points pour améliorer la précision et l'efficacité de la segmentation sémantique, ce qui devrait faire progresser la vision artificielle, l'intelligence artificielle, la photogrammétrie, la télédétection et d'autres domaines, en fournissant une nouvelle méthode pour la recherche future sur la segmentation sémantique.

Cette segmentation sémantique de nuages de points fusionnés avec un réseau convolutionnel à graphe de fusion présente un large éventail de perspectives d'application et peut être utilisée dans de nombreux domaines tels que la conduite autonome, la robotique et l'analyse d'images médicales. Avec le développement rapide de la conduite autonome, de la robotique, de l'analyse d'images médicales et d'autres domaines, la demande de traitement et de segmentation sémantique des données d'images et de nuages de points augmente. Par exemple, dans le domaine de la conduite autonome, les voitures auto-conduites doivent percevoir et comprendre avec précision l'environnement qui les entoure, y compris la segmentation sémantique des objets tels que les routes, les véhicules et les piétons.

Cette segmentation sémantique de nuages de points fusionnés avec un réseau convolutif à graphe de fusion peut améliorer la perception et la compréhension de l'environnement et fournir des données plus précises pour la prise de décision et le contrôle des voitures autonomes. Dans le domaine de la robotique, les robots doivent percevoir et comprendre l'environnement externe afin d'accomplir diverses tâches. La segmentation sémantique des nuages de points par fusion d'images avec un réseau convolutionnel à graphe de fusion permet de fusionner les données d'images et de nuages de points acquises par les robots afin d'améliorer leur capacité à percevoir et à comprendre l'environnement externe, ce qui les aide à mieux accomplir leurs tâches.

Dans le domaine médical, l'analyse d'images médicales nécessite une segmentation et une reconnaissance précises des images médicales afin d'améliorer le diagnostic et le traitement médical. La segmentation sémantique de nuages de points fusionnés avec un réseau convolutionnel à graphe de fusion peut fusionner des images médicales et des données de nuages de points afin d'améliorer la précision de la segmentation et de la reconnaissance des images médicales, fournissant ainsi un support de données plus précis pour le diagnostic et le traitement médicaux. À l'avenir, la recherche sur le WiMi optimisera davantage la structure du modèle.

Dans le même temps, le modèle sera associé à la technologie d'apprentissage en profondeur afin de tirer parti de cette technologie pour améliorer les performances du modèle. Et développer davantage la technologie de fusion de données multimodales pour fusionner différents types de données (par exemple, image, nuage de points, texte, etc.) afin de fournir des informations plus complètes et plus riches et d'améliorer la précision de la segmentation sémantique. WiMi continuera à améliorer le traitement en temps réel de la segmentation sémantique par fusion d'images et de nuages de points avec la capacité du réseau convolutionnel du graphe de fusion pour répondre à la demande.