Zum Hauptinhalt springen

Whisper-Large-V3-Turbo

Der Spracherkennungs-Guide enthält lauffähige Beispiele für einfache Transkription, Mehrsprachigkeit, die Verarbeitung großer Dateien und eine Transkriptions- und Zusammenfassungs-Pipeline.

Beschreibung

„Whisper-Large-V3-Turbo” ist ein mehrsprachiges automatisches Spracherkennungsmodell (ASR – Automatic Speech Recognition) von OpenAI, optimiert für Geschwindigkeit und Effizienz. Es basiert auf der Architektur des bekannten „Whisper-Large-V3“-Modells, verwendet jedoch eine leichtere Decoder-Struktur für deutlich geringere Latenz bei nur minimalem Genauigkeitsverlust. Das Modell unterstützt über 99 Sprachen und ist ideal für die Transkription von Spracheingaben.

Die folgenden Einschränkungen gelten für dieses Modell bei unserer Plattform:

  • Maximale Dateigröße: 25 MB pro Upload
  • Keine explizite Kontextlängenbegrenzung – abhängig von Audiodauer und Dateigröße
  • Es ist derzeit keine Übersetzung möglich (to_language)
  • Unterstützte Ausgabeformate: json, verbose_json
    • response_format="text" wird akzeptiert, gibt aber immer einen JSON-Body zurück – stattdessen "json" verwenden
    • srt und vtt werden nicht unterstützt (HTTP 400)

Unterstützte Eingabeformate

mp3, ogg, wav, flac

Unterstützte Werte für Parameter language (ISO-639-1 Sprachcodes)

af, ar, az, be, bg, bs, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gl, he, hi, hr, hu, hy, id, is, it, ja, kk, kn, ko, lt, lv, mk, mi, mr, ms, ne, nl, no, pl, pt, ro, ru, sk, sl, sr, sv, sw, ta, th, tl, tr, uk, ur, vi, zh

Empfohlene Inferenzparameter

  • temperature=1.0
  • top_p=1.0
  • response_format="json"
  • language wie language="de"sollte immer explizit gesetzt werden, um die Genauigkeit zu maximieren. Wird kein Wert angegeben, wird standardmäßig Deutsch ("de") angenommen, kann aber für anderssprachige Eingaben dann schlechtere Ergebnisse liefern.

Beispielausgabe — response_format="json"

{
"text": "Das ist der transkribierte Text einer Spracheingabe.",
"usage": {
"type": "duration",
"seconds": 8
}
}

Beispielausgabe — response_format="verbose_json"

Gibt zusätzliche Metadaten zurück, darunter erkannte Sprache, Dauer und segmentgenaue Zeitstempel:

{
"text": "Das ist der transkribierte Text.",
"language": "de",
"duration": "8.0",
"words": null,
"segments": [
{
"id": 0,
"avg_logprob": -0.45,
"text": " Das ist der transkribierte Text.",
"start": 0.0,
"end": 2.4
}
]
}

Nutzungsbedingungen und Lizenzierung

Die allgemeinen Nutzungsbedingungen gelten. Das Modell wird von OpenAI unter der MIT-Lizenz bereitgestellt, und die Wiederverwendung des generierten Inhalts unterliegt keinen zusätzlichen Einschränkungen.