Whisper-Large-V3-Turbo

Beschreibung

„Whisper-Large-V3-Turbo“ ist ein mehrsprachiges automatisches Spracherkennungsmodell (ASR – Automatic Speech Recognition) von OpenAI, optimiert für Geschwindigkeit und Effizienz. Es basiert auf der Architektur des bekannten „Whisper-Large-V3“-Modells, verwendet jedoch eine leichtere Decoder-Struktur für deutlich geringere Latenz bei nur minimalem Genauigkeitsverlust. Das Modell unterstützt über 99 Sprachen und ist ideal für die Transkription von Spracheingaben.

Die folgenden Einschränkungen gelten für dieses Modell bei unserer Plattform:

Maximale Dateigröße: 25 MB pro Upload
Keine explizite Kontextlängenbegrenzung – abhängig von Audiodauer und Dateigröße
Es ist derzeit keine Übersetzung möglich (to_language)
Unterstützte Ausgabeformate: text, json
- Andere Formate (srt, vtt, verbose_json) werden aktuell nicht unterstützt

Unterstützte Eingabeformate

mp3, ogg, wav, flac

Unterstützte Werte für Parameter `language` (ISO-639-1 Sprachcodes)

af, ar, az, be, bg, bs, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gl, he, hi, hr, hu, hy, id, is, it, ja, kk, kn, ko, lt, lv, mk, mi, mr, ms, ne, nl, no, pl, pt, ro, ru, sk, sl, sr, sv, sw, ta, th, tl, tr, uk, ur, vi, zh

Empfohlene Inferenzparameter

temperature=1.0
top_p=1.0
response_format="json"
language wie language="de"sollte immer explizit gesetzt werden, um die Genauigkeit zu maximieren. Wird kein Wert angegeben, wird standardmäßig Deutsch ("de") angenommen, kann aber für anderssprachige Eingaben dann schlechtere Ergebnisse liefern.

Beispielausgabe (`response_format=json`)

{
  "text": "Das ist der transkribierte Text einer Spracheingabe.",
  "usage": {
    "type": "duration",
    "seconds": 8
  }
}

Best Practices

Setze den Parameter language immer explizit, z. B. language="de" für deutschsprachige Audiodateien.
Segmentiere lange Audiodateien in < 25 MB-Chunks.
Für Echtzeit- oder near-real-time-Anwendungen response_format="text" verwenden.
Bei mehrsprachigen Aufnahmen: einzelne Sprachen separat transkribieren für bessere Präzision.

Nutzungsbedingungen und Lizenzierung

Die allgemeinen Nutzungsbedingungen gelten. Das Modell wird von OpenAI unter der MIT-Lizenz bereitgestellt, und die Wiederverwendung des generierten Inhalts unterliegt keinen zusätzlichen Einschränkungen.

Beschreibung​

Unterstützte Eingabeformate​

Unterstützte Werte für Parameter language (ISO-639-1 Sprachcodes)​

Empfohlene Inferenzparameter​

Beispielausgabe (response_format=json)​

Best Practices​

Nutzungsbedingungen und Lizenzierung​