Neuralangelo NVIDIA – 3D-Rekonstruktion durch KI-Technologie

Autor: Dipl.-Ök. Ismail Özköseoğlu

Seit 2002 unterstütze ich Unternehmen mit individuellen Lösungen wie WordPress-Websites, WooCommerce-Onlineshops, SEO und Google Ads.

Durch den Einsatz künstlicher Intelligenz arbeite ich hocheffizient, datenbasiert und detailgenau, um Ihre Marketingziele zu erreichen.

In der sich stetig entwickelnden Welt der Technologie stellt NVIDIA Research mit seinem neuesten Modell Neuralangelo einen bemerkenswerten Durchbruch dar. Neuralangelo hat das Potenzial, die Art und Weise, wie wir 3D-Strukturen wahrnehmen und rekonstruieren, grundlegend zu verändern. Diese fortschrittliche KI-Technologie ermöglicht es, aus einfachen 2D-Videoclips detaillierte und lebensechte 3D-Repliken von Gebäuden, Skulpturen und anderen realen Objekten zu erzeugen.

Wie Michelangelo, der aus Marmorblöcken lebensechte Visionen schuf, generiert Neuralangelo 3D-Strukturen mit aufwendigen Details und Texturen. Kreative Fachleute können diese 3D-Objekte in Designanwendungen importieren und weiter bearbeiten, um sie in Kunst, Videospielentwicklung, Robotik und industriellen digitalen Zwillingen zu verwenden.

Die Fähigkeit von Neuralangelo, die Texturen komplexer Materialien – einschließlich Dachschindeln, Glasscheiben und glattem Marmor – von 2D-Videos in 3D-Assets zu übersetzen, übertrifft bei weitem die bisherigen Methoden. Die hohe Detailtreue macht es Entwicklern und Kreativprofis leichter, schnell nutzbare virtuelle Objekte für ihre Projekte zu erstellen, die mit Smartphones aufgenommen wurden.

Ming-Yu Liu, Senior Director of Research und Co-Autor der Studie, betont die Bedeutung von Neuralangelo für Kreative: „Die 3D-Rekonstruktionsfähigkeiten, die Neuralangelo bietet, werden für Kreative von großem Nutzen sein. Sie helfen dabei, die reale Welt in der digitalen Welt nachzubilden.“ Dadurch können Entwickler detaillierte Objekte – von kleinen Statuen bis hin zu massiven Gebäuden – in virtuelle Umgebungen für Videospiele oder industrielle digitale Zwillinge importieren.

In einer Demonstration zeigten NVIDIA-Forscher, wie das Modell Objekte wie Michelangelos David und einen flachen Lastwagen nachbilden kann. Neuralangelo kann auch Innen- und Außenbereiche von Gebäuden rekonstruieren, wie anhand eines detaillierten 3D-Modells des Parks am NVIDIA-Campus in der Bay Area demonstriert wurde.

Frühere KI-Modelle zur Rekonstruktion von 3D-Szenen hatten Schwierigkeiten, repetitive Texturmuster, homogene Farben und starke Farbvariationen genau zu erfassen. Neuralangelo verwendet Instant Neural Graphics Primitives, die Technologie hinter NVIDIA Instant NeRF, um diese feineren Details einzufangen.

Mit einem 2D-Video eines Objekts oder einer Szene, das aus verschiedenen Winkeln aufgenommen wurde, wählt das Modell mehrere Frames aus, die unterschiedliche Blickwinkel erfassen – ähnlich wie ein Künstler ein Motiv von mehreren Seiten betrachtet, um ein Gefühl für Tiefe, Größe und Form zu bekommen.

Sobald die Kameraposition jedes Frames festgelegt ist, erstellt die KI von Neuralangelo eine grobe 3D-Darstellung der Szene, ähnlich wie ein Bildhauer beginnt, die Form des Motivs herauszuarbeiten.

Das Modell optimiert dann das Rendering, um die Details zu schärfen, genau wie ein Bildhauer sorgfältig Stein bearbeitet, um die Textur von Stoff oder einer menschlichen Figur nachzuahmen.

Das Ergebnis ist ein 3D-Objekt oder eine großflächige Szene, die in Virtual-Reality-Anwendungen, digitalen Zwillingen oder in der Robotikentwicklung verwendet werden kann.

Neuralangelo ist eines von fast 30 Projekten von NVIDIA Research, die auf der Konferenz für Computer Vision und Mustererkennung (CVPR) vom 18. bis 22. Juni in Vancouver vorgestellt werden. Die Arbeiten umfassen Themen wie Pose-Estimation, 3D-Rekonstruktion und Videogenerierung.

Ein weiteres Projekt, DiffCollage, ist eine Diffusionsmethode, die großformatige Inhalte erstellt, darunter lange Landschaftsausrichtungen, 360-Grad-Panoramen und bewegte Bilder. Wenn ein Trainingsdatensatz mit Bildern in Standardgröße gefüttert wird, behandelt DiffCollage diese kleineren Bilder als Teile eines größeren Bildes – wie Teile eines Collage. Dadurch können Diffusionsmodelle zusammenhängende großformatige Inhalte erzeugen, ohne auf Bilder derselben Größenordnung trainiert zu werden. Die Technik kann auch Textaufforderungen in Videosequenzen umwandeln, wie anhand eines vortrainierten Diffusionsmodells demonstriert wurde, das menschliche Bewegungen erfasst.

Ich helfe Ihnen gerne KI-Tools in ihre Arbeitsprozesse in Ihrem Marketing zu integrieren. Über den folgenden Link gelangen Sie zu meinen Kontaktdaten.