Qwen3.6-35B-A3B-FP8
Beschreibung
„Qwen3.6-35B-A3B-FP8" ist ein Mixture-of-Experts-Sprachmodell (MoE) von Alibaba mit 35 Milliarden Gesamtparametern, von denen jeweils ca. 3 Milliarden pro Forward-Pass aktiv sind. Es ist für effiziente, qualitativ hochwertige Chat- und agentische Workflows mit Reasoning- und Vision-Fähigkeiten ausgelegt und eignet sich für die Analyse langer Dokumente und ausgedehnte Mehrturngespräche.
Geeignet für und unterstützt:
- Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
- Tool-Calling für agentische Workflows
- Bildverständnis (Vision)
- Thinking / Reasoning für schrittweises Problemlösen
- Verarbeitung langer Dokumente und erweiterter Kontexte
Folgende Limitierungen gelten:
- Maximale Context-Länge: 262.144 Token
- Der Thinking-Modus benötigt mindestens 128.000 Token verbleibenden Context, um korrekt zu funktionieren
- Bilder müssen als Base64-kodierte Data-URLs übermittelt werden (keine externen URLs)
Thinking-Modus ist standardmäßig aktiviert. Wie du ihn korrekt deaktivierst, zeigt der Abschnitt Thinking-Modus deaktivieren — der Parameter muss in chat_template_kwargs verschachtelt werden.
Thinking-Modus deaktivieren
- Python
- JavaScript
- PHP
from openai import OpenAI
client = OpenAI(
base_url="https://llm.aihosting.mittwald.de/v1",
api_key="sk-your-api-key-here",
)
response = client.chat.completions.create(
model="Qwen3.6-35B-A3B-FP8",
messages=[{"role": "user", "content": "Was ist 2 + 2?"}],
temperature=0.7,
top_p=0.8,
max_tokens=32768,
extra_body={
"chat_template_kwargs": {"enable_thinking": False},
# ^^^^^^^^^^^^^^^^^^^^^^^^
# Muss hier verschachtelt sein — enable_thinking auf Top-Level-Ebene
# wird von der API stillschweigend ignoriert.
},
)
print(response.choices[0].message.content)
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://llm.aihosting.mittwald.de/v1",
apiKey: "sk-your-api-key-here",
});
const response = await client.chat.completions.create({
model: "Qwen3.6-35B-A3B-FP8",
messages: [{ role: "user", content: "Was ist 2 + 2?" }],
temperature: 0.7,
top_p: 0.8,
max_tokens: 32768,
// @ts-ignore – vLLM-Erweiterung; muss hier verschachtelt sein, nicht enable_thinking auf Top-Level
chat_template_kwargs: { enable_thinking: false },
} as any);
console.log(response.choices[0].message.content);
<?php
// composer require openai-php/client guzzlehttp/guzzle
$client = OpenAI::factory()
->withBaseUri('https://llm.aihosting.mittwald.de/v1')
->withApiKey('sk-your-api-key-here')
->make();
$response = $client->chat()->create([
'model' => 'Qwen3.6-35B-A3B-FP8',
'messages' => [
['role' => 'user', 'content' => 'Was ist 2 + 2?'],
],
'temperature' => 0.7,
'top_p' => 0.8,
'max_tokens' => 32768,
'chat_template_kwargs' => ['enable_thinking' => false],
// Muss hier verschachtelt sein — 'enable_thinking' => false auf Top-Level-Ebene
// wird von der API stillschweigend ignoriert.
]);
echo $response->choices[0]->message->content;
Antwort auslesen
Wenn der Thinking-Modus aktiviert ist (Standard), liefert das Modell zwei separate Felder:
| Feld | Inhalt |
|---|---|
choices[0].message.reasoning_content | Interne Gedankenkette (kann sehr lang sein) |
choices[0].message.content | Endgültige Antwort |
Wenn content leer ist, hat das Modell seine Antwort in den Reasoning-Block geschrieben — deaktiviere den Thinking-Modus, damit content immer befüllt wird.
print(response.choices[0].message.reasoning_content) # interne Gedankenkette
print(response.choices[0].message.content) # endgültige Antwort
Empfohlene Inferenzparameter
Das Modell hat je nach Anwendungsfall unterschiedliche empfohlene Einstellungen. Greedy-Decoding (temperature 0) sollte vermieden werden – es kann zu Leistungseinbußen und endlosen Wiederholungen führen.
Thinking-Modus (Standard)
Allgemeine Aufgaben:
| Parameter | Wert |
|---|---|
temperature | 1.0 |
top_p | 0.95 |
top_k | 20 |
presence_penalty | 1.5 |
Präzise Coding-Aufgaben / Webentwicklung:
| Parameter | Wert |
|---|---|
temperature | 0.6 |
top_p | 0.95 |
top_k | 20 |
presence_penalty | 0.0 |
Non-Thinking-Modus (enable_thinking: false)
Allgemeine Aufgaben:
| Parameter | Wert |
|---|---|
temperature | 0.7 |
top_p | 0.8 |
top_k | 20 |
presence_penalty | 1.5 |
Reasoning / Mathematik / komplexe Problemlösung:
| Parameter | Wert |
|---|---|
temperature | 1.0 |
top_p | 1.0 |
top_k | 40 |
presence_penalty | 2.0 |
Ausgabelänge
Setze max_tokens entsprechend der Aufgabenkomplexität, um Kosten und Latenz zu steuern:
| Aufgabentyp | Empfohlenes max_tokens |
|---|---|
| Standardanfragen | 32.768 |
| Komplexe Aufgaben (Mathematik, Programmierwettbewerbe) | 81.920 |
Tipps für spezifische Aufgaben
Vision (Bild zu Text)
Für Vision-Aufgaben sollte der Thinking-Modus immer deaktiviert werden – er erhöht die Latenz, ohne das Bildverständnis zu verbessern:
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
Empfohlene Parameter für Vision:
| Parameter | Wert |
|---|---|
temperature | 0.7 |
top_p | 0.8 |
top_k | 20 |
max_tokens | 512–2048 je nach Aufgabe |
Für präzise Texterkennung (OCR) oder das Auslesen von Daten empfiehlt sich stattdessen temperature=0.1.
Bilder sollten vor der Base64-Kodierung auf maximal 1024 px an der längsten Seite skaliert werden – große Bilder erhöhen die Wartezeit bis zum ersten Token (TTFT) erheblich. Die erste Anfrage für ein neues Bild hat eine längere TTFT, während der Bild-Encoder aufwärmt; nachfolgende Anfragen mit demselben Bild profitieren vom Caching. Fertige Hilfsfunktionen sind in den Python-Beispielen und JavaScript-Beispielen verfügbar.
Mathematikaufgaben
Für beste Ergebnisse bei mathematischen Aufgaben füge folgende Anweisung an deinen Prompt an:
Please reason step by step, and put your final answer within \boxed{}.
Multiple-Choice-Fragen
Für konsistente, parsierbare Ausgaben bei Multiple-Choice-Aufgaben füge Folgendes an deinen Prompt an:
Please show your choice in the 'answer' field with only the choice letter, e.g., 'answer': 'C'.
Nutzungsbedingungen und Lizenzhinweise
Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz angeboten, eine Weiternutzung der generierten Inhalte unterliegt keiner zusätzlichen Restriktion.