Stefan Nickl
Alle Artikel
KI Workflow10 Min.

Pilotvideo + KI = Totale Kontrolle: Der Video-to-Video Workflow für Filmemacher

Vergiss Text-to-Video. Der mächtigste KI-Workflow für Filmemacher: Drehe ein Rough-Video mit dem Smartphone, transformiere es mit KI in jeden erdenklichen Stil – und behalte dabei die volle Kontrolle über Performance, Timing und Kamerabewegung.

Pilotvideo + KI = Totale Kontrolle: Der Video-to-Video Workflow für Filmemacher

Warum Text-to-Video der falsche Ansatz ist

Die meisten Leute starten mit einem Text-Prompt: „Ein Mann geht durch einen futuristischen Korridor, cinematic lighting, 35mm film.“ Und dann hoffen sie auf ein gutes Ergebnis.

Das Problem: Du gibst die Kontrolle ab. Du bestimmst nicht das Timing. Du bestimmst nicht die Performance. Du bestimmst nicht die Kamerabewegung. Du beschreibst – und die KI interpretiert. Meistens anders, als du es dir vorgestellt hast.

Es gibt einen besseren Weg: Erst drehen, dann transformieren.

Die Idee: Das Pilotvideo

Stell dir vor, du filmst mit dem Smartphone eine schnelle Szene. Nichts Aufwendiges – du gehst durch einen Gang, du setzt dich an einen Tisch, du drehst dich zur Kamera. Rough, ungestylt, mit Deckenbeleuchtung.

Dann fütterst du dieses Video in ein KI-Tool. Und die KI übernimmt – aber nur den Stil. Deine Bewegung, dein Timing, deine Performance bleiben erhalten. Aus dem Smartphone-Clip wird ein cinematischer Sci-Fi-Korridor, ein Film-Noir-Büro oder eine Anime-Sequenz.

Das ist Video-to-Video. Und es verändert alles.

Der 3-Phasen-Workflow

Phase 1: Pilotvideo drehen

Das Pilotvideo ist deine Blaupause. Es definiert:

  • Timing – wie schnell bewegt sich alles
  • Performance – Gestik, Mimik, Körpersprache
  • Kamerabewegung – Pan, Dolly, Schwenk
  • Komposition – wo steht was im Bild

#### Tipps fürs Pilotvideo

  • Stabiles Bild: Stativ oder stabilisiertes Smartphone. Verwacklungen werden übernommen
  • Klarer Hintergrund: Je einfacher, desto besser transformiert die KI. Blanke Wand > unaufgeräumtes Büro
  • Gute Performance: Die KI ändert den Stil, nicht die Darstellung. Spiele die Szene so, wie sie im Endprodukt wirken soll
  • Gleichmäßiges Licht: Vermeiden starke Schatten und Kontraste – die bringt später die KI
  • Einfache Kleidung: Unifarbene, schlichte Garderobe transformiert sauberer als Muster

Phase 2: Video mit KI transformieren

Hier passiert die Magie. Du lädst dein Pilotvideo in ein Video-to-Video-Tool und beschreibst den gewünschten Stil:

Cinematic sci-fi corridor, cold blue lighting,

metallic walls, volumetric fog, film grain,

shot on Arri Alexa

Die KI behalt deine Bewegung und Komposition bei, ersetzt aber Umgebung, Beleuchtung, Texturen und Stil.

#### Die besten Tools für Video-to-Video (Stand 2026)

  • Runway Gen-4 (Modify) – Der Industriestandard. Bis zu 3 Referenz-Inputs, starke Stilkontrolle, Charakter-Konsistenz. Keyframe-basiert
  • Luma Ray3 Modify – Natives HDR (16-Bit EXR), natürliche Kameraträgheit, exzellente Lichtsimulation. Gut für subtile Änderungen
  • Kling 3.0 – Hervorragend bei Action-Sequenzen und schneller Bewegung. Motion Brush für selektive Bereiche
  • Hailuo 2.3 – Starke Gesichtskonsistenz, gut für Dialogszenen
  • Beeble AI – Spezialisiert auf VFX-Transformation: Relighting, Hintergrund-Austausch, Style Transfer in einem Tool

#### Wie viel Kontrolle hast du?

Das hängt vom Tool und der Intensität der Transformation ab:

  • Subtile Änderungen (Licht, Farbstimmung, Texturen): 90-95% Kontrolle über die originale Bewegung
  • Mittlere Transformation (anderer Ort, anderer Stil): 70-85% Kontrolle
  • Totale Transformation (komplett andere Welt): 50-70% Kontrolle, Grundbewegung bleibt aber erhalten

Phase 3: Audio transformieren

Der letzte Schritt wird oft vergessen: Audio-to-Audio.

Du nimmst im Pilotvideo auch den Roh-Dialog auf. Nicht perfekt, aber mit dem richtigen Timing und der richtigen Emotion. Dann transformierst du:

#### Voice-to-Voice mit ElevenLabs

    • Voice Clone erstellen – vom finalen Sprecher oder einem lizenzierten Voice
    • Roh-Audio hochladen – dein Pilotvideo-Audio
    • Speech-to-Speech – ElevenLabs überträgt Timing, Pausen und Betonung auf die neue Stimme
    • Ergebnis: Professionelles Voiceover mit dem exakten Timing deiner Performance

#### Lip Sync anpassen

Falls das transformierte Video Gesichter zeigt, muss der Lippensync stimmen:

  • HeyGen – 175+ Sprachen, Avatar IV mit Ganzkörper-Motion und Micro-Expressions
  • Sync Labs – API-basiert, hochpräzises Dubbing, ideal für Post-Production
  • Synthesia – 200+ Studio-Avatare mit natürlichem Lip Sync

Der Vorteil gegenüber Text-to-Video

Text-to-VideoPilotvideo + V2V
TimingZufälligDu bestimmst es
PerformanceKI interpretiertDeine Darstellung
KameraPromptbasiertDeine Bewegung
KonsistenzClip für ClipDurchgehend
IterationKomplett neuNur Stil anpassen
Kontrolle20-30%70-95%

Der entscheidende Unterschied: Bei Text-to-Video beschreibst du, was du willst. Bei Video-to-Video zeigst du es.

Praxis-Beispiel: Smartphone zu Sci-Fi

So sieht der Workflow in der Praxis aus:

    • Dreh: 10 Sekunden Gang-Szene mit iPhone, Stativ, Deckenbeleuchtung
    • Upload: In Runway Gen-4 Modify laden
    • Prompt: „Futuristic sci-fi corridor, cold blue volumetric lighting, metallic panels, cinematic 35mm film“
    • Referenz: Optional ein Stilbild als Visual Reference hochladen
    • Generierung: 2-3 Varianten generieren, beste auswählen
    • Audio: Schritte und Atmosphäre in ElevenLabs Sound Effects generieren
    • Final: In DaVinci Resolve zusammenfügen, Color Grading, Filmkorn

Gesamtdauer: ~30 Minuten. Ergebnis: Ein Clip, der nach einer Filmproduktion aussieht, die sonst 10.000€+ für Set-Bau kosten würde.

Fortgeschritten: Motion Capture aus dem Pilotvideo

Für noch mehr Kontrolle lässt sich aus dem Pilotvideo auch die Bewegung als Daten extrahieren:

  • Move AI Gen 2 – Markerless Motion Capture direkt aus Video. Exportiert als FBX, USD oder BVH
  • ControlNet Pose – Extrahiert Pose-Daten und nutzt sie als Kontrolle für die KI-Generierung
  • Depth Maps – Tiefenkarten aus dem Video extrahieren für räumliche Konsistenz

Damit kannst du die Bewegung deines Pilotvideos auf einen komplett anderen Charakter übertragen – als wäre es ein virtuelles Motion-Capture-Studio.

Wann Text-to-Video, wann Pilotvideo?

  • Text-to-Video: Für Establishing Shots, abstrakte Visualisierungen, Zwischenschnitte ohne Menschen
  • Pilotvideo + V2V: Immer wenn Performance, Timing oder präzise Kamerabewegung wichtig sind – also für fast alles, was eine Geschichte erzählt

Fazit: Die Kamera war immer das Werkzeug

Video-to-Video bringt etwas zurück, das Text-to-Video genommen hat: Die Kontrolle des Filmemachers.

Du drehst nicht mehr für die Kamera. Du drehst für die KI. Aber die Grundlagen bleiben: Performance, Timing, Komposition. Das Handwerk stirbt nicht – es bekommt ein neues Werkzeug.


Du willst den Video-to-Video Workflow für dein Projekt nutzen? Lass uns reden – wir drehen das Pilotvideo, die KI macht den Rest.

Häufige Fragen

FAQ: Pilotvideo + KI = Totale Kontrolle

Bereit für dein KI-Videoprojekt?

Lass uns darüber sprechen, wie KI-Technologie dein nächstes Videoprojekt besser und günstiger machen kann.

Kostenloses Erstgespräch