Automatische Untertitel mit KI

Erzeuge Untertitel automatisch aus Sprache mit KI (Whisper). Extrahiere SRT-Dateien oder brenne Untertitel direkt ins Video.

or press Ctrl+V to paste

Processed on our servers — requires a free account

Have feedback? Let us know

Anleitung Automatische Untertitel mit KI

  1. Lade ein Video mit Sprache oder Erzählung hoch
  2. Wähle den Ausgabemodus: SRT extrahieren oder Untertitel ins Video brennen
  3. Wähle die Sprache (oder nutze automatische Erkennung)
  4. Wähle das Whisper-Modell (Base für Geschwindigkeit, Large V3 für maximale Präzision)

Funktionen

  • KI-gestützte Spracherkennung mit OpenAI Whisper
  • SRT-Untertiteldateien extrahieren oder Untertitel ins Video brennen
  • 14 Sprachen mit automatischer Erkennung
  • Wähle aus 4 Whisper-Modellen — Base, Small, Large V3 Turbo oder Large V3
  • GPU-Server-Verarbeitung für schnelle und präzise Ergebnisse

Häufig gestellte Fragen

Warum nur serverseitig?
KI-Whisper-Spracherkennung benötigt große Modell-Dateien (140 MB bis 2,9 GB) und Rechenleistung, die im Browser-WebAssembly nicht verfügbar ist. Serverseitige Verarbeitung sichert schnelle, zuverlässige Ergebnisse.
Welche Sprachen werden unterstützt?
Automatische Untertitel unterstützen 14 Sprachen: Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Koreanisch, Chinesisch, Russisch, Arabisch und Hindi. Automatische Spracherkennung ist ebenfalls möglich.
Welches Whisper-Modell soll ich nutzen?
Base ist am schnellsten und funktioniert gut für klare Sprache. Small bietet bessere Genauigkeit. Large V3 Turbo ist die beste Balance aus Geschwindigkeit und Qualität. Large V3 liefert die höchste Genauigkeit, ist aber am langsamsten.
Kann ich die Untertitel nach Erzeugung bearbeiten?
Wenn du SRT-Ausgabe wählst, erhältst du eine bearbeitbare Textdatei, die du in jedem Texteditor ändern kannst, bevor du sie einbrennst. Du kannst auch unser Text-auf-Video-Tool für eigenen Text nutzen.
Wie genau ist die Spracherkennung?
Die Genauigkeit hängt vom Modell und der Audioqualität ab. Mit Large V3 liegt die Fehlerrate unter 5 % für klare Sprache in den Hauptsprachen. Hintergrundrauschen, starke Akzente oder gleichzeitiges Sprechen können die Genauigkeit senken.