Whisper-Large-V3-Turbo
Beschreibung
„Whisper-Large-V3-Turbo“ ist ein mehrsprachiges automatisches Spracherkennungsmodell (ASR – Automatic Speech Recognition) von OpenAI, optimiert für Geschwindigkeit und Effizienz. Es basiert auf der Architektur des bekannten „Whisper-Large-V3“-Modells, verwendet jedoch eine leichtere Decoder-Struktur für deutlich geringere Latenz bei nur minimalem Genauigkeitsverlust. Das Modell unterstützt über 99 Sprachen und ist ideal für die Transkription von Spracheingaben.
Die folgenden Einschränkungen gelten für dieses Modell bei unserer Plattform:
- Maximale Dateigröße: 25 MB pro Upload
- Keine explizite Kontextlängenbegrenzung – abhängig von Audiodauer und Dateigröße
- Es ist derzeit keine Übersetzung möglich (
to_language) - Unterstützte Ausgabeformate:
text,json- Andere Formate (
srt,vtt,verbose_json) werden aktuell nicht unterstützt
- Andere Formate (
Unterstützte Eingabeformate
mp3, ogg, wav, flac
Unterstützte Werte für Parameter language (ISO-639-1 Sprachcodes)
af, ar, az, be, bg, bs, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gl, he, hi, hr, hu, hy, id, is, it, ja, kk, kn, ko, lt, lv, mk, mi, mr, ms, ne, nl, no, pl, pt, ro, ru, sk, sl, sr, sv, sw, ta, th, tl, tr, uk, ur, vi, zh
Empfohlene Inferenzparameter
temperature=1.0top_p=1.0response_format="json"languagewielanguage="de"sollte immer explizit gesetzt werden, um die Genauigkeit zu maximieren. Wird kein Wert angegeben, wird standardmäßig Deutsch ("de") angenommen, kann aber für anderssprachige Eingaben dann schlechtere Ergebnisse liefern.
Beispielausgabe (response_format=json)
{
"text": "Das ist der transkribierte Text einer Spracheingabe.",
"usage": {
"type": "duration",
"seconds": 8
}
}
Best Practices
- Setze den Parameter
languageimmer explizit, z. B.language="de"für deutschsprachige Audiodateien. - Segmentiere lange Audiodateien in < 25 MB-Chunks.
- Für Echtzeit- oder near-real-time-Anwendungen
response_format="text"verwenden. - Bei mehrsprachigen Aufnahmen: einzelne Sprachen separat transkribieren für bessere Präzision.
Nutzungsbedingungen und Lizenzierung
Die allgemeinen Nutzungsbedingungen gelten. Das Modell wird von OpenAI unter der MIT-Lizenz bereitgestellt, und die Wiederverwendung des generierten Inhalts unterliegt keinen zusätzlichen Einschränkungen.