Qwen3.5-0.8B

Beschreibung

„Qwen3.5-0.8B" ist ein kompaktes Sprachmodell von Alibaba mit 0,8 Milliarden Parametern. Trotz seiner geringen Größe unterstützt es ein Kontextfenster von 262.144 Token und bietet einen optionalen Thinking-/Reasoning-Modus – und ist damit das kosteneffizienteste Modell im mittwald AI-Hosting-Katalog.

Geeignet für und unterstützt:

Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
Tool-Calling für agentische Workflows
Thinking / Reasoning für schrittweises Problemlösen (opt-in)
Hochdurchsatz- und latenzempfindliche Pipelines
Batch-Verarbeitung: Klassifizierung, Routing, Zusammenfassung, Extraktion

Folgende Einschränkungen gelten:

Maximale Kontextlänge: 262.144 Token
Keine Bild-/Vision-Unterstützung
Antwortqualität und Reasoning-Tiefe sind geringer als bei größeren Modellen
Thinking-Modus ist standardmäßig deaktiviert – opt-in pro Anfrage via chat_template_kwargs

Thinking-Modus

Der Thinking-Modus ist bei diesem Modell standardmäßig deaktiviert – anders als bei Qwen3.5-122B-A10B-FP8. Aktiviere ihn gezielt für Aufgaben, die von Chain-of-Thought-Reasoning profitieren:

Nutzt du dieses Modell aus n8n heraus? Der eingebaute OpenAI Chat Model-Node kann chat_template_kwargs nicht setzen — siehe Reasoning-Modelle und Thinking-Modus für einen Workaround per Community-Node.

Python
JavaScript

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.aihosting.mittwald.de/v1",
    api_key="sk-dein-api-key",
)

response = client.chat.completions.create(
    model="Qwen3.5-0.8B",
    messages=[{"role": "user", "content": "Löse: Wenn 3x + 7 = 22, was ist x?"}],
    temperature=0.6,
    top_k=20,
    max_tokens=8192,
    extra_body={
        "chat_template_kwargs": {"enable_thinking": True},
    },
)

print(response.choices[0].message.reasoning_content)  # Chain-of-Thought
print(response.choices[0].message.content)             # Endantwort

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://llm.aihosting.mittwald.de/v1",
  apiKey: "sk-dein-api-key",
});

const response = await client.chat.completions.create({
  model: "Qwen3.5-0.8B",
  messages: [{ role: "user", content: "Löse: Wenn 3x + 7 = 22, was ist x?" }],
  temperature: 0.6,
  max_tokens: 8192,
  // @ts-ignore – vLLM-Erweiterung
  chat_template_kwargs: { enable_thinking: true },
} as any);

console.log(response.choices[0].message.content);

Bei aktiviertem Thinking gibt das Modell zwei Felder zurück:

Feld	Inhalt
`choices[0].message.reasoning_content`	Interner Chain-of-Thought
`choices[0].message.content`	Endantwort

Empfohlene Inferenzparameter

Standardmodus (Thinking aus)

Allgemeine Aufgaben:

Parameter	Wert
`temperature`	1.0
`top_p`	1.0
`top_k`	20
`presence_penalty`	2.0

Greedy Decoding (temperature: 0) vermeiden – führt zu Wiederholungen. presence_penalty über 1,5 kann bei mehrsprachigen Prompts gelegentlich Sprachmischungen auslösen.

Thinking-Modus (`enable_thinking: true`)

Allgemeine Aufgaben:

Parameter	Wert
`temperature`	1.0
`top_p`	0.95
`top_k`	20
`presence_penalty`	1.5

Coding und präzise Aufgaben:

Parameter	Wert
`temperature`	0.6
`top_p`	0.95
`top_k`	20
`presence_penalty`	0.0

Ausgabelänge

Aufgabentyp	Empfohlene `max_tokens`
Standardanfragen	32.768
Komplexe Probleme (Mathe, Schritt-für-Schritt)	81.920

Tipps für spezifische Aufgaben

Tool-Calling

Das Modell unterstützt Funktionsaufrufe im Qwen3-XML-Format. Tools werden über den standardmäßigen OpenAI-tools-Parameter übergeben:

response = client.chat.completions.create(
    model="Qwen3.5-0.8B",
    messages=[{"role": "user", "content": "Wie ist das Wetter in Berlin?"}],
    tools=[{
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Aktuelles Wetter für eine Stadt abrufen",
            "parameters": {
                "type": "object",
                "properties": {"city": {"type": "string"}},
                "required": ["city"],
            },
        },
    }],
    tool_choice="auto",
    temperature=0.2,
)

Niedrige Temperatur (0,1–0,3) für Tool-Calls verwenden, um Halluzinationen zu reduzieren.

Routing und Klassifizierung

Die geringe Größe macht dieses Modell ideal als First-Pass-Klassifizierer, der entscheidet, welches größere Modell eine Anfrage bearbeitet:

response = client.chat.completions.create(
    model="Qwen3.5-0.8B",
    messages=[
        {
            "role": "system",
            "content": (
                "Klassifiziere die folgende Benutzernachricht in genau eine Kategorie: "
                "SIMPLE_QA, CODE, MATH, IMAGE_TASK. Antworte nur mit dem Kategorienamen."
            ),
        },
        {"role": "user", "content": user_message},
    ],
    temperature=0.1,
    max_tokens=10,
)
category = response.choices[0].message.content.strip()

Nutzungsbedingungen und Lizenzhinweise

Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz bereitgestellt. Die Weiternutzung der generierten Inhalte unterliegt keinen zusätzlichen Einschränkungen.

Beschreibung​

Thinking-Modus​

Empfohlene Inferenzparameter​

Standardmodus (Thinking aus)​

Thinking-Modus (enable_thinking: true)​

Ausgabelänge​

Tipps für spezifische Aufgaben​

Tool-Calling​

Routing und Klassifizierung​

Nutzungsbedingungen und Lizenzhinweise​