Qwen3.5-0.8B
Beschreibung
„Qwen3.5-0.8B" ist ein kompaktes Sprachmodell von Alibaba mit 0,8 Milliarden Parametern. Trotz seiner geringen Größe unterstützt es ein Kontextfenster von 262.144 Token und bietet einen optionalen Thinking-/Reasoning-Modus – und ist damit das kosteneffizienteste Modell im mittwald AI-Hosting-Katalog.
Geeignet für und unterstützt:
- Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
- Tool-Calling für agentische Workflows
- Thinking / Reasoning für schrittweises Problemlösen (opt-in)
- Hochdurchsatz- und latenzempfindliche Pipelines
- Batch-Verarbeitung: Klassifizierung, Routing, Zusammenfassung, Extraktion
Folgende Einschränkungen gelten:
- Maximale Kontextlänge: 262.144 Token
- Keine Bild-/Vision-Unterstützung
- Antwortqualität und Reasoning-Tiefe sind geringer als bei größeren Modellen
- Thinking-Modus ist standardmäßig deaktiviert – opt-in pro Anfrage via
chat_template_kwargs
Thinking-Modus
Der Thinking-Modus ist bei diesem Modell standardmäßig deaktiviert – anders als bei Qwen3.5-122B-A10B-FP8. Aktiviere ihn gezielt für Aufgaben, die von Chain-of-Thought-Reasoning profitieren:
- Python
- JavaScript
from openai import OpenAI
client = OpenAI(
base_url="https://llm.aihosting.mittwald.de/v1",
api_key="sk-dein-api-key",
)
response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[{"role": "user", "content": "Löse: Wenn 3x + 7 = 22, was ist x?"}],
temperature=0.6,
top_k=20,
max_tokens=8192,
extra_body={
"chat_template_kwargs": {"enable_thinking": True},
},
)
print(response.choices[0].message.reasoning_content) # Chain-of-Thought
print(response.choices[0].message.content) # Endantwort
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://llm.aihosting.mittwald.de/v1",
apiKey: "sk-dein-api-key",
});
const response = await client.chat.completions.create({
model: "Qwen3.5-0.8B",
messages: [{ role: "user", content: "Löse: Wenn 3x + 7 = 22, was ist x?" }],
temperature: 0.6,
max_tokens: 8192,
// @ts-ignore – vLLM-Erweiterung
chat_template_kwargs: { enable_thinking: true },
} as any);
console.log(response.choices[0].message.content);
Bei aktiviertem Thinking gibt das Modell zwei Felder zurück:
| Feld | Inhalt |
|---|---|
choices[0].message.reasoning_content | Interner Chain-of-Thought |
choices[0].message.content | Endantwort |
Empfohlene Inferenzparameter
Standardmodus (Thinking aus)
Allgemeine Aufgaben:
| Parameter | Wert |
|---|---|
temperature | 1.0 |
top_p | 1.0 |
top_k | 20 |
presence_penalty | 2.0 |
Greedy Decoding (temperature: 0) vermeiden – führt zu Wiederholungen. presence_penalty über 1,5 kann bei mehrsprachigen Prompts gelegentlich Sprachmischungen auslösen.
Thinking-Modus (enable_thinking: true)
Allgemeine Aufgaben:
| Parameter | Wert |
|---|---|
temperature | 1.0 |
top_p | 0.95 |
top_k | 20 |
presence_penalty | 1.5 |
Coding und präzise Aufgaben:
| Parameter | Wert |
|---|---|
temperature | 0.6 |
top_p | 0.95 |
top_k | 20 |
presence_penalty | 0.0 |
Ausgabelänge
| Aufgabentyp | Empfohlene max_tokens |
|---|---|
| Standardanfragen | 32.768 |
| Komplexe Probleme (Mathe, Schritt-für-Schritt) | 81.920 |
Tipps für spezifische Aufgaben
Tool-Calling
Das Modell unterstützt Funktionsaufrufe im Qwen3-XML-Format. Tools werden über den standardmäßigen OpenAI-tools-Parameter übergeben:
response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[{"role": "user", "content": "Wie ist das Wetter in Berlin?"}],
tools=[{
"type": "function",
"function": {
"name": "get_weather",
"description": "Aktuelles Wetter für eine Stadt abrufen",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"],
},
},
}],
tool_choice="auto",
temperature=0.2,
)
Niedrige Temperatur (0,1–0,3) für Tool-Calls verwenden, um Halluzinationen zu reduzieren.
Routing und Klassifizierung
Die geringe Größe macht dieses Modell ideal als First-Pass-Klassifizierer, der entscheidet, welches größere Modell eine Anfrage bearbeitet:
response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[
{
"role": "system",
"content": (
"Klassifiziere die folgende Benutzernachricht in genau eine Kategorie: "
"SIMPLE_QA, CODE, MATH, IMAGE_TASK. Antworte nur mit dem Kategorienamen."
),
},
{"role": "user", "content": user_message},
],
temperature=0.1,
max_tokens=10,
)
category = response.choices[0].message.content.strip()
Nutzungsbedingungen und Lizenzhinweise
Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz bereitgestellt. Die Weiternutzung der generierten Inhalte unterliegt keinen zusätzlichen Einschränkungen.