Robert Meisner ist Lead Product Owner bei der ERGO Technology & Services GmbH und zuständig für die AI Factory. Gleichzeitig ist er ein erklärter Liebhaber des guten Kinos. Vor diesem Hintergrund hat sich der Entwickler angeschaut, welche Auswirkungen die neuesten Errungenschaften im Bereich der Künstlichen Intelligenz auf die Zukunft der Filmindustrie haben werden.
Das Jahr 2022 scheint in vielerlei Hinsicht ein Wendepunkt für Computer Vision und NLP zu sein. Nicht umsonst ist ein großer Teil des diesjährigen Tech Trend Radars den Trends und Lösungen im Bereich Data & KI gewidmet. Laut Stanford's AI Global Index wurden 2021 die höchsten KI-Investitionen weltweit durch private Investitionen getätigt (insgesamt rund 93,5 Milliarden US-Dollar), gefolgt von Fusionen und Übernahmen (rund 72 Milliarden US-Dollar), öffentlichen Angeboten (rund 9,5 Milliarden US-Dollar) und Minderheitsbeteiligungen (rund 1,3 Milliarden US-Dollar). Die privaten Investitionen haben sich im Vergleich zu 2020 mehr als verdoppelt; dies war der deutlichste Anstieg im Vergleich zum Vorjahr seit 2014.
Diese Investitionsdynamik ermöglicht es Unternehmen und wissenschaftlichen Einrichtungen, riskantere und mutigere Forschungs- und Entwicklungsprojekte durchzuführen. Der Bereich, den ich genau beobachte, ist die Computer Vision und die Verarbeitung natürlicher Sprache (NLP). Dieser Bereich ist auch für ERGO von großem Interesse. Mit Hilfe der AI Factory-Plattform erstellen die Datenwissenschaftler von ERGO heute Modelle, die qualitativ besser sind als die auf dem Markt erhältlichen.
Wenn Sie mehr über die AI Factory und die KI-Anwendungsfälle von ERGO erfahren möchten, wählen Sie in der Anwendung Tech Trend Radar den Bereich „Data & AI“ und lesen Sie die folgenden Trends und Innovationen:
Lassen Sie mich die Ferienzeit nutzen, um ein Thema zu diskutieren, das nicht direkt mit unserer Arbeit zu tun hat 😀 Als Liebhaber des guten Kinos möchte ich die Auswirkungen der neuesten Errungenschaften im Bereich der KI auf die Zukunft der Filmindustrie vorstellen.
Das erste virale Projekt, das jeder kennen sollte, ist DALL-E 2. DALL-E 2 wurde von OpenAI entwickelt, um digitale Bilder aus Beschreibungen in natürlicher Sprache zu erzeugen. DALL-E 2 wurde an Hunderten von Millionen von Bildern mit Bildunterschriften aus dem Internet trainiert. Das Erstaunliche daran ist, dass es aus einer Textbeschreibung originale, realistische Bilder und Kunstwerke erzeugen kann. Mehr noch, es kann sogar Konzepte, Attribute und Stile kombinieren. Ich bin stolzer Besitzer eines Border-Collie-Mix-Hundes und einer russisch-blauen Katze, also beschloss ich, sie für „meine“ Kunstwerke zu verwenden. Während meine ersten Experimente mit einem kosmischen Nebelstil erfolglos waren, übertrafen die nächsten meine Erwartungen (trotz einiger Fehler).
Weitere Beispiele für Bilder, die von DALL-E 2 erzeugt wurden, können Sie hier sehen:
https://openai.com/dall-e-2/#demos
https://www.youtube.com/watch?v=cUOz4VWewVs
Bedeutet dies das Ende der Kunst, wie wir sie kennen? Sicherlich ist DALL-E 2 eine Technologie, die in der Kunstwelt als disruptiv angesehen werden kann. Eine weitere Innovation, die meiner Meinung nach noch mehr fotorealistische Ergebnisse liefert, ist Imagen von Google.
Interessanterweise ist der Zugang zu beiden Modellen ab Juli 2022 vor allem aufgrund ethischer und sicherheitstechnischer Bedenken auf ausgewählte Betanutzer beschränkt. Ich werde hier nicht auf die Probleme eingehen, da dieses Thema einen eigenen Beitrag verdient.
Bisher hat sich die Erzeugung von 3D-Szenen aufgrund der erforderlichen Rechenleistung als schwierig erwiesen. Aber auch hier gibt es Fortschritte, wenn nicht gar einen Durchbruch: Eric Ryan Chan und seine Kollegen haben in diesem Jahr an der Stanford University in Kalifornien das EG3D-Computermodell entwickelt. Es verwendet einen Algorithmus des maschinellen Lernens, ein so genanntes generatives adversariales Netzwerk (GAN), um Gesichter in hoher Auflösung zusammen mit einer zugrundeliegenden geometrischen Struktur zu erzeugen.
https://www.youtube.com/watch?v=m6-ECIDifa0
Tools wie dieses könnten CGI-Künstlern oder Softwareentwicklern, die an Spielinhalten arbeiten, helfen.
Was braucht man außer schönen Szenen noch, um einen denkwürdigen Film zu schaffen? Natürlich muss jeder Film ein Drehbuch und eine gute Handlung haben. Kann KI ein spannendes und glaubwürdiges Drehbuch schreiben? Ja, das kann sie. Und diese Aussage ist so 2019, weil damals GPT-3 (oder Generative Pre-trained Transformer) von OpenAI aus dem Silicon Valley entwickelt wurde. Seitdem haben Menschen mit GPT-3 viele Romane geschrieben, und einige sind sogar veröffentlicht worden.
Um nur einige zu nennen:
KI-generierte Geschichten können fesselnd und überraschend sein. Die erste Version von AI Dungeon (manchmal auch AI Dungeon Classic genannt) basiert auf dem GPT-Modell und wurde von Nick Walton vom Deep-Learning-Labor „Perception, Control and Cognition“ der Brigham Young University im März 2019 während eines Hackathons entwickelt und erstellt. Es ist ein Text-Adventure-Spiel, das KI nutzt, um als Reaktion auf die Entscheidungen und Handlungen des Spielers eine einzigartige Geschichte zu entwickeln.
Gibt es andere Modelle wie GPT-3? Ja: Gopher, Chinchilla, PaLM und seit kurzem BLOOM (wohl das Podium der großen Sprachmodelle), um nur einige zu nennen.
Mit Hilfe der KI können wir nun also ein Drehbuch vorbereiten und ein Storyboard erstellen. Es reicht jedoch nicht aus, ein Oscar-würdiges Konzept zu erstellen, denn wir brauchen Modelle, die ganze Szenen animieren und zu einer logischen Abfolge kombinieren können. Und selbst wenn wir diese Technologien in der Hand haben, werden wir uns mit einer Reihe neuer Probleme auseinandersetzen müssen, zum Bsipiel mit der Analyse, Entschärfung und dem Umgang mit schädlichen algorithmischen Verzerrungen.
Wie sieht also die Zukunft des Kinos für mich aus? Die Kosten für die Filmproduktion werden drastisch sinken. Die Filmindustrie wird für Filmemacher ohne riesige Budgets oder Filmstudios im Rücken zugänglich sein. Ich stelle mir einen Regisseur, Drehbuchautor, Kameramann und sogar einen Schauspieler (siehe DeepFake) in einer Person vor – und das könnten Sie sein.
Mit einer kurzen Beschreibung der Handlung können Sie mit Hilfe der KI ein hochwertiges Drehbuch erstellen. Darauf aufbauend generieren Sie dann einzelne Szenen. Auch hier können Sie jede Szene mit Hilfe der KI feinabstimmen und detaillieren. Es wird Wochen, nicht Monate oder Jahre dauern, bis ein professioneller Film produziert ist. Das Kino wird interaktiv werden und keine Geschichte, die auf der Leinwand erzählt wird, gleicht der anderen.
Auch wenn die oben genannten Technologien nicht ausreichen, um einen abendfüllenden Film zu produzieren, sind sie ein guter Anfang und eine fantastische Inspiration für Datenwissenschaftler, Dateningenieure, Ingenieure für maschinelles Lernen, KI-Forscher und Akademiker. Mit ihrer Hilfe werden wir in den kommenden Jahren wieder mit Innovationen überrascht werden, von denen wir heute noch nicht einmal geträumt haben.
Text: Robert Meisner, Lead Product Owner bei der ERGO Technology & Services GmbH
Am beliebtesten