Generative KI in der Erklärfilmproduktion – ein Zukunftsmodell?

6. September 2023 6 Minuten Lesezeit Erklärfilme

Jacques Alomo
Head of AI Innovation & Motion Design

Was Sie aus diesem Artikel mitnehmen:

Wie und ob KI die Produktion von Erklärfilmen effizienter macht
Wo es im Produktionsprozess läuft und wo es noch hakt
Welche Rolle der Mensch dabei spielt
Wie wir gemeinsam ein KI-Filmprojekt mit Ihnen realisieren

Seit mehr als 15 Jahren begeistern wir mit unseren Erklärfilmen Kunden aus allen Branchen. Als Premiumanbieter haben wir höchste Ansprüche an transparente Projektabwicklung und an die Qualität des finalen Filmes: sprachliche Eleganz, visuelle Ästhetik und didaktischer Anspruch stehen dabei im Fokus.

Mit unseren effizient gestalteten Prozessen können wir eine Vielzahl an Projekten in perfekter Qualität umsetzen. Doch angesichts der fortdauernden Begeisterung für generative KI haben wir uns gefragt: Kann KI uns noch effizienter machen? Schneller? Vielleicht sogar beides? Die Antwort auf diese Fragen präsentieren wir Ihnen in diesem Blogartikel.

Direkt zum – mit Hilfe von KI – produzierten Film

Der Erklärfilm „Phishing“ bringt nicht nur ein komplexes Thema in zweieinhalb Minuten auf den Punkt, sondern: bei Konzeption und Produktion des Filmes haben wir voll auf die neuen Möglichkeiten generativer KI gesetzt.

Gliedern wir erst mal den abstrakten Produktionsablauf in seine essenziellen Phasen:

Kreativer Textentwurf: Basierend auf den Kundenunterlagen oder des Briefings entwerfen wir den Sprechtext.
Visuelles Storyboard: Passend dazu, erstellen wir das Storyboard mit den passenden Bildern für jede Szene des Sprechtexts – wenn gewünscht sogar mit einem eigens für den Kunden entworfenen visuellen Stil.
Lebendige Animation: Schließlich hauchen wir den Bildern und ihren Elementen Leben ein, fügen Sound und Sprecherstimme hinzu – und fertig ist der Erklärfilm.

Um es vorwegzunehmen: für unseren mit Hilfe von KI erstellten Film haben wir länger gebraucht als bei herkömmlicher Produktion! Die meiste Zeit steckten wir dabei in den völlig neuen Illustrationsworkflow, die Gestaltung der Grafiken. Die anderen Arbeitsschritte konnten gleich schnell oder schneller abgeschlossen werden.

Schauen wir uns die Unterschiede im Ergebnis mal genauer an:

Standard-Filmproduktion

Eine klassische youknow Filmproduktion mit viel Liebe zum Detail.

Sprechtext von unserem erfahrenen Konzeptionsteam geschrieben
Zeichnungsplanung erzeugt durch geballte Motion Design Power
Händisch gestaltete reduzierte Grafiken sorgen für eleganten zurückhaltenden Look bei überschaubarem Aufwand
Echte Stimme ermöglicht mehr Stimmvariation
Manuelle Animation durch unsere Motion Design Experten

Filmproduktion mit KI-Unterstützung

Auch hier floss viel Liebe in die Produktion, flankiert von der Nutzung schlauer und schneller AI-Tools

Sprechtext durch GPT4
Zeichnungsplanung durch GPT4
Aufwendige KI-Grafiken erzeugen „Premiumlook“
Menschenähnliche, mit KI generierte Stimme
Manuelle Animation durch unsere Motion Design Experten

Unser Fazit

Was die zeitliche Umsetzung betrifft, lag die Gesamtdauer – trotz des erstmaligen Experiments – nur leicht über der einer normalen Filmproduktion. Die Qualität variierte stark in den verschiedenen Projektphasen und Gewerken.

Texterstellung

Hier erzielten wir in deutlich kürzerer Zeit ein für uns akzeptables Ergebnis. Die KI lieferte nicht nur Textfragmente, sondern gleich einen soliden Text als Ausgangsbasis. Der „menschliche Feinschliff“ beanspruchte nur einen Bruchteil der üblichen Zeit, der normalerweise für die Texterstellung benötigt wird. Dies gelingt jedoch nur, wenn das Briefing für das Sprachmodell umfangreich vorbereitet wird. 👍
ACHTUNG: Aktuell werden die Daten der gängigen generativen KI-Tools auf amerikanischen Servern verarbeitet. Laden Sie daher nie sensible oder vertrauliche Daten hoch. Bei lokal nutzbaren Modellen mangelt es aktuell noch an der Output-Qualität, wir gehen aber davon aus, dass hier zeitnah passende Anbieter am Markt Fuß fassen werden.

Bildgenerierung

Hier ging es im Prozess bildlich gesprochen immer einen Schritt voraus und zwei zurück. Die KI ist gut darin, Bildideen zu entwickeln und Alternativen in Stil, Szene und Anmutung anzubieten. Dadurch lassen sich szenische Tiefen für mehr Ausdruck in deutlich weniger Zeit generieren. Zudem bringt sie frischen Schwung rein und kann ein inspirierender Sparringspartner sein. 👍

Aber der Teufel steckt im Detail:

Feinheiten und kleinteilige Ausschnitte bereiteten der KI Schwierigkeiten. Es gilt: Je kleiner das Objekt im generierten Bild, desto niedriger die Qualität bzw. die Wahrscheinlichkeit, dass das Objekt richtig dargestellt wird.
Initialaufwand für die Erstellung eines Stilprompts kann viel Zeit in Anspruch nehmen.
Es bedarf vieler Iterationen, um eine konsistente Szenendarstellung zu erzielen.
Grafische oder abstrakte Darstellungen, wie Icons oder Interfaces, sind nur schwer bis gar nicht möglich, da die Modelle noch keine perfekten Linien ziehen können und Interfaces von der korrekten Abbildung vieler kleiner Elemente leben.
Die generierten Bilder müssen nachträglich bearbeitet werden, um die Elemente für die Animation vorzubereiten. Das ist deutlich aufwendiger, da man nicht mit Vektorgrafiken arbeitet, sondern mit gerasterten Grafiken.

Kleine Fehler in der Darstellung von Details wie Hände, Gesicht und auch Inkonsistenz im Licht und Schattenspiel.
Hinzu kommt, dass die KI in Bildern „denkt“ (obwohl sie natürlich nicht wirklich denkt), während erfahrene (Motion) Designer/-innen von Anfang an in filmischen Sequenzen denken. Wir sind sicher, dass man die KI auch dorthin bringen kann, das erfordert aber einen (noch) hohen Aufwand in das Training der KI. Der Gesamtaufwand summiert sich daher auf mindestens das Doppelte der ursprünglichen Zeit.
Durch neue Modelle und deren Kombination wird in Zukunft mehr Kontrolle möglich sein. Trotzdem braucht es erstmal eine neue Arbeitsweise. 👎

Fehler bei der Bildgenerierung

Eine eher ungesunde Körperhaltung 🙂

Zerstörte Hände/Finger und falsche Proportionen bei den Geräten

Inkonsistenzen beim Notebook Display und Tastatur

Falsche Blickrichtung der Figur

Wo steht die Frau?!

Geklonte Figur

Wo ist der andere Arm?

Animation

Die Figuren mussten mit dem sogenannten „Puppet Tool” animiert werden. Dabei wird das Bild der Figur mit Punkten versehen, die anschließend bewegt werden können, wodurch sich das Bild entsprechend verzerrt. Die Bewegungen sind dabei sehr limitiert und beschränken sich auf z. B. leichte Kopf- und Armbewegungen. Normalerweise werden Figuren in unseren Filmen schon bei der Illustration in einzelne Bestandteile aufgeteilt (z. B. Augen, Kopf, Arme, Beine etc.). Die KI-gestützte Bilderstellung macht eine solche Aufteilung noch etwas aufwendiger, da man hier nachträglich die Figuren aufteilen müsste. Das Puppet Tool ist somit zeitsparender und kann einfache Bewegungen gut darstellen.
Durch Effekt-Stockmaterial konnte den Bildern zusätzlich Leben eingehaucht werden. Dabei wurden Sonnenreflexionen, Staubpartikel und digitales Rauschen verwendet. Die Herausforderung hierbei war es, das Material an die KI generierten Bilder anzugleichen.

Ein Großteil der Szenen wurde mit Hilfe von sogenannten „2,5D Kamerafahrten” umgesetzt. Dabei werden die flachen 2D Elemente in einem dreidimensionalen Raum aufgefächert und mit einer künstlichen Kamera abgefilmt. Dies erzeugt ein räumliches Gefühl, mit dem wir trotz statischer Bildelemente Dynamik und Spannung erzeugen können. Diese Technik nutzen wir bereits hin und wieder in unseren aktuellen Filmen. Allerdings sind dort die einzelnen Elemente weniger statisch als in unserem KI-Film. Die Kamerafahrten sollen also letztendlich kaschieren, dass sich im Bild nicht allzu viel bewegt.
Die Bilder wurden in einer 4K Auflösung angelegt, um bei den oben beschriebenen „2,5D Kamerafahrten” eine stets hohe Bildschärfe zu gewährleisten. Durch die daraus resultierenden größeren Datenmengen wurde die Arbeit im Animationsprogramm etwas verlangsamt. Auch das finale Ausspielen des Filmes dauerte ca. 5-mal so lange als üblich. Unsere aktuellen Filme werden in Full HD angelegt, ebenso die dafür verwendeten Grafiken.

Der Gesamtaufwand in der Animation war in etwa gleich zu dem eines animade Erklärfilms. Das Stockmaterial und die vielen Kamerafahrten machen den Film überraschend lebendig und dynamisch. Die Animation hat sich eher auf das Aufwerten der KI-Bilder konzentriert, anstatt auf eine kleinteilige Animation der verschiedenen Bildelemente. Sofern die Figuren keine komplexen Bewegungen vollführen müssen und die Bilder stets szenisch gehalten werden, bietet diese Art der Produktion eine gute Alternative zu unserem bisherigen Workflow.

Gesamtergebnis

Es ist offensichtlich, dass unsere bewährten Abläufe nicht einfach durch KI ersetzt werden können, um effizienter und einfacher in der Produktion zu sein. Die Nutzung von KI kann viele Vorteile bieten, erfordert jedoch eine andere Herangehensweise und Anpassungen im Gesamtworkflow. Textbasierte Elemente lassen sich bereits jetzt effizienter gestalten, bei der Bildgenerierung und insbesondere bei der Animation gibt es aktuell jedoch noch keine guten Lösungen am Markt, die einen echten Skalenvorteil ermöglichen. Hier gilt es aufmerksam zu bleiben und neue Modelle und Technologien stets zu testen und in die Workflows zu integrieren. Wir davon aus, dass es nur wenige Monate dauern wird, bis die KI hier ebenfalls erstklassige Ergebnisse liefern kann.

Es gibt jedoch auch Grenzen für die Flexibilität der KI. Die gestalterische Freiheit und Kontrolle über Ergebnisse sind geringer als bei manueller „Kreation", dafür können die Resultate einzigartig sein!

Achtung: Für uns klar: Der Mensch wird weiterhin die zentrale Rolle spielen, wenn es darum geht, die Ergebnisse der KI zu bewerten, die besten Ergebnisse auszuwählen, sie miteinander zu verknüpfen und zu bearbeiten. Hier ist jemand gefragt, der über die notwendige Vision und Erfahrung verfügt, um die Resultate sorgfältig zu kuratieren.

AI vs. Standard – die Ergebnisse im Vergleich

Standard-Filmproduktion

Filmproduktion mit KI-Unterstützung

Gut zu wissen

Dieses Experiment wurde von einem professionellen Erklärfilm-Produktionsteam durchgeführt. Ich, Jacques Alomo, Head of AI Innovation bei youknow & Founder von creamlabs AI, bin selbst seit Langem in der Filmproduktion tätig und habe mich schon sehr früh mit generativer KI beschäftigt.

Diese Kombination ermöglichte es uns erst, im Experiment rasch Erkenntnisse zu sammeln und sinnvolle Verbesserungen in jeder Iteration vorzunehmen. Ob bei Text, Bildern oder Bewegtbildern: Der richtige Prompt ist letztendlich der Schlüssel zum Erfolg. Schnelle Anpassungen erfordern ein tiefes Verständnis der gängigen KI-Modelle, ihrer Funktionsweise und Handhabung.

Wir bleiben am Ball und setzen unsere Experimente fort. Möchten Sie mitmachen? Melden Sie sich gerne bei uns per E-Mail. Wir planen, mit drei Interessenten im Rahmen weiterer KI-gestützter Produktionen tiefer in diese Thematik einzutauchen und belohnen Sie mit einem großzügigen Rabatt!

Ein Schmankerl zum Schluss 🎧😂🙀: Für das Voice-Over haben wir auf ElevenLabs (text-to-speech-Software) zurückgegriffen. Dazu haben wir einen Satz aus dem Sprechtext von verschiedenen Stimmen „nachsprechen“ lassen – quasi ein digitales Casting – und uns dann für einen Sprechavatar entschieden. Nachdem wir den gesamten Text eingespeist hatten, entstand dieses skurrile Ergebnis:

Für die Produktion verwendete KI-Tools:

ChatGPT via www.creamai.de
Stable Diffusion XL via www.creamai.de
Bildupscaling via www.creamai.de mit Model „realesrgan-x4plus-anime“
ElevenLabs www.elevenlabs.io

Diese 3 Artikel werden Sie auch interessieren

17.04.245 Minuten Lesezeit

Knappes Budget, hohe Erwartungen (Teil 2): Wie sieht eine gute L&D-Strategie aus?

04.04.244 Minuten Lesezeit

Knappes Budget, hohe Erwartungen (Teil 1): Welche Rolle spielt L&D?

05.12.234 Minuten Lesezeit

User-generated Content: Herausforderungen meistern