Stefan Nickl
Alle Artikel
KI Workflow10 Min.

Konsistenz in KI-Filmen: So bleibt dein Charakter in jeder Szene gleich

Das größte Problem bei KI-generierten Videos? Der Charakter sieht in jeder Szene anders aus. Hier zeige ich dir den Workflow, mit dem Profis das lösen – von der Charaktererstellung über Posing Sheets bis zu konsistenten Multi-Shot-Szenen.

Konsistenz in KI-Filmen: So bleibt dein Charakter in jeder Szene gleich

Das Problem: Jede Szene ein neues Gesicht

Wer schon mal versucht hat, mit KI-Tools wie Midjourney, Flux oder Runway einen kurzen Film zu erstellen, kennt das Grundproblem: Du generierst einen tollen Charakter in Szene 1 – und in Szene 2 sieht die gleiche Person komplett anders aus. Andere Gesichtszüge, andere Proportionen, anderer Stil.

Für einzelne Social-Media-Bilder ist das kein Thema. Aber sobald du eine Geschichte erzählen willst – und genau das machen wir in der Videoproduktion – wird Konsistenz zum entscheidenden Faktor.

Die gute Nachricht: Es gibt mittlerweile einen bewährten Workflow, der das Problem löst. Die Grundregel: Trenne Identitätserstellung von Bewegung. Lass das Video-Modell niemals gleichzeitig einen Charakter erfinden UND animieren. Wie das in der Praxis aussieht, zeige ich dir an einem konkreten Beispiel.

Der 4-Phasen-Workflow

Der Industriestandard hat sich 2025/2026 auf einen klaren Workflow eingependelt:

  • Phase 1 – Character DNA: Schriftliche Definition deines Charakters (Character Bible)
  • Phase 2 – Character Pack: Visuelle Referenzen als Posing Sheet
  • Phase 3 – Shot Keyframes: Statische Bilder, die Komposition pro Szene festlegen
  • Phase 4 – Animation + Edit: Video-Generierung, Stitching, Color Grading

Für ein poliertes 30-Sekunden-Short brauchst du damit realistisch 60–90 Minuten. Kein Vergleich zu einer klassischen Animationsproduktion.

Phase 1: Die Character Bible

Bevor du überhaupt ein Bild generierst, schreibst du deinen Charakter auf. Klingt oldschool, macht aber den entscheidenden Unterschied. Für unser Beispiel haben wir definiert:

  • Silhouette: Schlanke Frau, Mitte 20
  • Gesichtsanker: Ovales Gesicht, hohe Wangenknochen
  • Haar: Kinnlanges Auburn/Kupfer, leicht gewellt
  • Signatur-Accessoire: Dunkle Lederjacke – immer
  • Style Lock: Cinematic Realism, 35mm Filmlook
  • DO-NOT-ALLOW: Haarfarbe ändern, Jacke weglassen, Gesichtsform verändern
Wichtig für die Prompt-Struktur: Charakter-Deskriptoren müssen immer VOR Szene und Stil stehen. Atmosphärische Begriffe am Anfang verwässern die Character-Tokens.

Phase 2: Das Posing Sheet erstellen

Jetzt wird’s visuell. Das Posing Sheet – auch Character Reference Sheet genannt – ist eine Zusammenstellung deines Charakters aus verschiedenen Blickwinkeln. Das Minimum:

  • Front (neutrale Pose)
  • 3/4-Ansicht
  • Seitenprofil
  • Rückansicht

Der Prompt dafür folgt einem bewährten Muster:

[Charakterbeschreibung], character turnaround sheet,

front view, side view, back view, three-quarter view,

white background, concept art, design reference sheet

Hier das Ergebnis für unseren Beispiel-Charakter:

Posing Sheet: Derselbe Charakter aus vier Blickwinkeln – Front, 3/4, Profil, Rücken
Posing Sheet: Derselbe Charakter aus vier Blickwinkeln – Front, 3/4, Profil, Rücken

Das 2x2 Grid ist dabei kein Zufall: Die vier Bilder werden gleichzeitig generiert – und bleiben dadurch automatisch in Beleuchtung, Proportionen und Stil konsistent.

Pro-Tipp: Das 2x2 Grid ist meistens besser als 3x3, weil die Auflösung pro Bild höher ist. Für Character Sheets reichen 4 Ansichten völlig aus.

Phase 3: Multi-Shot-Szenen generieren

Jetzt der eigentliche Trick: Du verwendest dein Posing Sheet als Referenz für alle weiteren Bildgenerierungen. Je nach Tool funktioniert das unterschiedlich:

  • Midjourney V7: Omni Reference (ehemals --cref) mit dem Posing Sheet als Referenzbild
  • Flux/ComfyUI: IP-Adapter + ControlNet + FaceDetailer für maximale Kontrolle
  • Kling AI 3.0: 1–4 Referenzbilder pro Szene als Multi-Element-Referenz
  • Google Veo 3.1: Character + Background Referenzen getrennt einstellbar

Mit unserem Posing Sheet als Referenz haben wir vier komplett unterschiedliche Szenen generiert – immer mit demselben Charakter:

Multi-Shot Grid: Derselbe Charakter in vier verschiedenen Szenen – Straße, Café, Rooftop, Close-up
Multi-Shot Grid: Derselbe Charakter in vier verschiedenen Szenen – Straße, Café, Rooftop, Close-up

Straßenszene bei Nacht, gemütliches Café, Rooftop mit Skyline, emotionaler Close-up – und der Charakter bleibt erkennbar derselbe. Das ist die Magie des Posing Sheets.

Frame Chaining – die Geheimwaffe

Für zusammenhängende Videosequenzen ist Frame Chaining die wichtigste Technik:

    • Generiere Clip 1 mit Referenzbild + Prompt
    • Exportiere den letzten/besten Frame aus Clip 1
    • Verwende diesen Frame als Referenz für Clip 2
    • Wiederhole für jeden weiteren Shot

Dein Motion-Prompt beschreibt dabei nur die Bewegung, nie die Identität. Die Identität lebt im Referenzbild.

Praxis-Tipps für maximale Konsistenz

Kürzere Clips generieren

3–5 Sekunden halten die Konsistenz deutlich besser als 15 Sekunden. Lieber mehr kurze Clips und clever schneiden.

Einfache Garderobe wählen

Komplexe Muster und reflektierende Texturen mutieren Frame für Frame. Unsere Lederjacke ist kein Zufall – solide Farben + ein markantes Accessoire ist die sicherste Wahl.

Face Weight anpassen

Bei Close-ups den Face Weight auf 0.8–0.9 setzen, bei Wide Shots auf 0.5–0.6. So vermeidest du, dass das Tool in Totalen versucht, Gesichtsdetails zu erzwingen.

Übergänge clever gestalten

Zwischen den generierten Clips helfen klassische Film-Tricks: Close-up auf ein Requisit, Silhouette läuft an der Kamera vorbei, Über-die-Schulter-Perspektive oder ein Establishing Shot. Das kaschiert Generierungs-Nähte perfekt – und genau hier zahlt sich Film-Erfahrung aus.

Negativ-Prompts nutzen

Ein guter Negativ-Prompt reduziert die Varianz um 30–40%: „different face, inconsistent features, changed eye color, altered hair length, morphed facial structure“

Die 80/20-Regel

Perfekte Konsistenz über hunderte Frames ist Stand 2026 noch nicht möglich. Aber: 80% Konsistenz reichen für professionelle Ergebnisse völlig aus – besonders mit cleverem Schnitt.

Für Fortgeschrittene: LoRA-Training

Wer regelmäßig mit dem gleichen Charakter arbeitet, kann ein eigenes LoRA (Low-Rank Adaptation) trainieren. Schon 10–20 Referenzbilder reichen, um ein Modell zu erstellen, das deinen Charakter zuverlässig reproduziert. Tools wie DreamBooth oder Scenario.com machen das auch für Nicht-Programmierer zugänglich.

Unser Ansatz: KI + Filmexpertise

Was diesen Workflow wirklich effektiv macht, ist die Kombination aus KI-Technologie und klassischem Film-Know-how. Wir wissen, welche Einstellungsgrößen funktionieren, wie Schnittrhythmus Inkonsistenzen kaschiert und welche Szenenfolgen die Story tragen.

Das Ergebnis: KI-generierte Filme, die nicht nach KI aussehen – sondern nach professioneller Videoproduktion.


Du willst Charakter-Konsistenz in deinem nächsten KI-Videoprojekt? Lass uns darüber sprechen – kostenloses Erstgespräch inklusive.

Häufige Fragen

FAQ: Konsistenz in KI-Filmen

Bereit für dein KI-Videoprojekt?

Lass uns darüber sprechen, wie KI-Technologie dein nächstes Videoprojekt besser und günstiger machen kann.

Kostenloses Erstgespräch