Zum Hauptinhalt springen

Qwen3.5-0.8B

Beschreibung

„Qwen3.5-0.8B" ist ein kompaktes Sprachmodell von Alibaba mit 0,8 Milliarden Parametern. Trotz seiner geringen Größe unterstützt es ein Kontextfenster von 262.144 Token und bietet einen optionalen Thinking-/Reasoning-Modus – und ist damit das kosteneffizienteste Modell im mittwald AI-Hosting-Katalog.

Geeignet für und unterstützt:

  • Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
  • Tool-Calling für agentische Workflows
  • Thinking / Reasoning für schrittweises Problemlösen (opt-in)
  • Hochdurchsatz- und latenzempfindliche Pipelines
  • Batch-Verarbeitung: Klassifizierung, Routing, Zusammenfassung, Extraktion

Folgende Einschränkungen gelten:

  • Maximale Kontextlänge: 262.144 Token
  • Keine Bild-/Vision-Unterstützung
  • Antwortqualität und Reasoning-Tiefe sind geringer als bei größeren Modellen
  • Thinking-Modus ist standardmäßig deaktiviert – opt-in pro Anfrage via chat_template_kwargs

Thinking-Modus

Der Thinking-Modus ist bei diesem Modell standardmäßig deaktiviert – anders als bei Qwen3.5-122B-A10B-FP8. Aktiviere ihn gezielt für Aufgaben, die von Chain-of-Thought-Reasoning profitieren:

from openai import OpenAI

client = OpenAI(
base_url="https://llm.aihosting.mittwald.de/v1",
api_key="sk-dein-api-key",
)

response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[{"role": "user", "content": "Löse: Wenn 3x + 7 = 22, was ist x?"}],
temperature=0.6,
top_k=20,
max_tokens=8192,
extra_body={
"chat_template_kwargs": {"enable_thinking": True},
},
)

print(response.choices[0].message.reasoning_content) # Chain-of-Thought
print(response.choices[0].message.content) # Endantwort

Bei aktiviertem Thinking gibt das Modell zwei Felder zurück:

FeldInhalt
choices[0].message.reasoning_contentInterner Chain-of-Thought
choices[0].message.contentEndantwort

Empfohlene Inferenzparameter

Standardmodus (Thinking aus)

Allgemeine Aufgaben:

ParameterWert
temperature1.0
top_p1.0
top_k20
presence_penalty2.0

Greedy Decoding (temperature: 0) vermeiden – führt zu Wiederholungen. presence_penalty über 1,5 kann bei mehrsprachigen Prompts gelegentlich Sprachmischungen auslösen.

Thinking-Modus (enable_thinking: true)

Allgemeine Aufgaben:

ParameterWert
temperature1.0
top_p0.95
top_k20
presence_penalty1.5

Coding und präzise Aufgaben:

ParameterWert
temperature0.6
top_p0.95
top_k20
presence_penalty0.0

Ausgabelänge

AufgabentypEmpfohlene max_tokens
Standardanfragen32.768
Komplexe Probleme (Mathe, Schritt-für-Schritt)81.920

Tipps für spezifische Aufgaben

Tool-Calling

Das Modell unterstützt Funktionsaufrufe im Qwen3-XML-Format. Tools werden über den standardmäßigen OpenAI-tools-Parameter übergeben:

response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[{"role": "user", "content": "Wie ist das Wetter in Berlin?"}],
tools=[{
"type": "function",
"function": {
"name": "get_weather",
"description": "Aktuelles Wetter für eine Stadt abrufen",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"],
},
},
}],
tool_choice="auto",
temperature=0.2,
)

Niedrige Temperatur (0,1–0,3) für Tool-Calls verwenden, um Halluzinationen zu reduzieren.

Routing und Klassifizierung

Die geringe Größe macht dieses Modell ideal als First-Pass-Klassifizierer, der entscheidet, welches größere Modell eine Anfrage bearbeitet:

response = client.chat.completions.create(
model="Qwen3.5-0.8B",
messages=[
{
"role": "system",
"content": (
"Klassifiziere die folgende Benutzernachricht in genau eine Kategorie: "
"SIMPLE_QA, CODE, MATH, IMAGE_TASK. Antworte nur mit dem Kategorienamen."
),
},
{"role": "user", "content": user_message},
],
temperature=0.1,
max_tokens=10,
)
category = response.choices[0].message.content.strip()

Nutzungsbedingungen und Lizenzhinweise

Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz bereitgestellt. Die Weiternutzung der generierten Inhalte unterliegt keinen zusätzlichen Einschränkungen.