Verfügbare Modelle

Wir bieten aktuell die nachfolgenden Modelle an, die sich im Laufe der Zeit ändern oder erweitern können. Diese werden beschrieben und modellspezifische Parameter aufgeführt.

Modellname	Typ	Modalitäten	Context (Tokens)	Lizenz
gpt-oss-120b	Chat + Reasoning	Text, Tool-Calling	131.072	Apache 2.0
Ministral-3-14B-Instruct-2512	Chat + Vision	Text, Bild, Tool-Calling	262.144	Apache 2.0
Qwen3-Embedding-8B	Embedding	Text → Vektor	32.768	Apache 2.0
whisper-large-v3-turbo	Speech-to-Text	Audio → Text	n/a (Audio-basiert)	MIT
Qwen3.5-122B-A10B-FP8	Chat + Reasoning + Vision	Text, Bild, Tool-Calling	245.760	Apache 2.0
Qwen3.6-35B-A3B-FP8	Chat + Reasoning + Vision	Text, Bild, Tool-Calling	256.000	Apache 2.0
GLM-OCR	Dokument-OCR	PDF, DOCX, PPTX, XLSX, HTML, SVG, Bild → Text	131.072	MIT
Qwen3.5-0.8B	Chat + Reasoning	Text, Tool-Calling	262.144	Apache 2.0
Qwen3-VL-Reranker-2B	Reranking	Text, Bild → Score	32.768	Apache 2.0
Mistral-Medium-3.5-128B	Chat + Vision	Text, Bild, Tool-Calling	256.000	Apache 2.0

Modellauswahl

Beginne mit Ministral-3-14B-Instruct-2512 für breite, skalierbare, kostenbewusste Chat- und einfache multimodale Workflows (Text + Bild).
Verwende gpt-oss-120b für komplexe textbasierte Workloads und fortgeschrittene Automatisierungen, die eine hohe Präzision und umfangreiches Wissen erfordern.
Wähle Qwen3-Embedding-8B für alle Anwendungsfälle mit Suche, Empfehlung, Clustering oder Knowledge-Graph-Aufbau.
Setze whisper-large-v3-turbo für alle Transkriptions- oder Sprachbefehl-Anforderungen ein.
Verwende Qwen3.5-122B-A10B-FP8 für umfangreiche Reasoning- und Vision-Aufgaben, bei denen hohe Modellkapazität erforderlich ist.
Verwende Qwen3.6-35B-A3B-FP8 für Workloads, die lange Kontextfenster mit Reasoning- und Vision-Unterstützung bei niedrigeren Kosten erfordern.
Verwende GLM-OCR zum Extrahieren von Text aus PDF-, DOCX-, PPTX-, XLSX-, HTML- und Bilddokumenten – einschließlich gescannter Rechnungen, Verträge und Formulare.
Verwende Qwen3.5-0.8B für hochdurchsatz- und kostensensitive Aufgaben ohne Vision-Bedarf – einfache Frage-Antwort, Routing, Klassifizierung und Batch-Verarbeitung.
Verwende Qwen3-VL-Reranker-2B, um die RAG-Retrievalpräzision durch einen zweiten Reranking-Schritt nach der Vektorsuche zu verbessern.
Verwende Mistral-Medium-3.5-128B für komplexe Reasoning-, mehrsprachige oder Vision-Aufgaben, bei denen ein großes Frontier-Modell erforderlich ist.