EMO von Alibaba: Revolution bei sprechenden und singenden Videos
7 März 2024
Kürzlich haben Experten am Alibaba Institut für Intelligentes Computing ein neues System der künstlichen Intelligenz namens„EMO“ entwickelt. Dieses System ist in der Lage, ein einzelnes Porträtfoto zu animieren und Videos zu erzeugen, in denen die Person auf dem Foto auf erstaunlich realistische Weise spricht oder singt.
Wie EMO funktioniert
Das EMO-System verwendet ein Diffusionsmodell der künstlichen Intelligenz, das eine bemerkenswerte Fähigkeit zur Erzeugung realistischer synthetischer Bilder bewiesen hat. Die Experten von Alibaba haben das Modell anhand eines großen Datensatzes von über 250 Stunden Videos von sprechenden Personen aus Reden, Filmen, Fernsehsendungen und Gesangsauftritten trainiert.
Im Gegensatz zu herkömmlichen Methoden, die sich auf 3D-Gesichtsmodelle oder Mischformen stützen, um die Gesichtsbewegungen anzunähern, wandelt EMO die Audiowelle direkt in Videobilder um. Dadurch ist es möglich, subtile Bewegungen und identitätsspezifische Eigenheiten zu erfassen, die mit natürlicher Sprache verbunden sind.
Vorteile von EMO
EMO stellt einen wichtigen Schritt nach vorn bei der Erstellung von audio-gesteuerten Videos von sprechenden Personen dar. Den in ihrem Forschungspapier beschriebenen Experimenten zufolge übertrifft EMO die bestehenden Methoden in Bezug auf Videoqualität, Identitätserhalt und Ausdruckskraft deutlich.
Die Forscher von Alibaba führten auch eine Nutzerstudie durch, die zeigte, dass die von EMO erzeugten Videos natürlicher und emotionaler sind als die von anderen Systemen erzeugten.
Videos von singenden Menschen generieren
Neben Gesprächsvideos kann EMO auch Porträts von singenden Menschen animieren, indem es passende Mundbewegungen und stimmungsvolle Gesichtsausdrücke synchron mit dem Gesang erzeugt. Das System kann Videos von beliebiger Dauer generieren, abhängig von der Länge der Audioeingabe.
Experimentelle Ergebnisse zeigen, dass EMO in der Lage ist, nicht nur überzeugende Videos von sprechenden Personen, sondern auch von singenden Personen in verschiedenen Stilen zu produzieren und dabei bestehende Methoden in Bezug auf Ausdruckskraft und Realismus deutlich zu übertreffen.
Ethische Implikationen
Trotz des bemerkenswerten Fortschritts, den EMO und ähnliche Technologien erzielt haben, gibt es ethische Implikationen zu bedenken. Die Fähigkeit, aus einem einfachen Foto und einem Audioschnipsel personalisierte Videoinhalte zu synthetisieren, gibt Anlass zur Sorge, dass diese Technologie missbraucht werden könnte, um sich ohne deren Zustimmung als Personen auszugeben oder Fehlinformationen zu verbreiten.
Die Experten von Alibaba sagen, dass sie planen, Methoden zur Erkennung synthetischer Videos zu erforschen, um der potenziellen Verbreitung von gefälschten Inhalten entgegenzuwirken.