Zum Hauptinhalt springen

Qwen3.6-35B-A3B-FP8

Beschreibung

„Qwen3.6-35B-A3B-FP8" ist ein Mixture-of-Experts-Sprachmodell (MoE) von Alibaba mit 35 Milliarden Gesamtparametern, von denen jeweils ca. 3 Milliarden pro Forward-Pass aktiv sind. Es ist für effiziente, qualitativ hochwertige Chat- und agentische Workflows mit Reasoning- und Vision-Fähigkeiten ausgelegt und eignet sich für die Analyse langer Dokumente und ausgedehnte Mehrturngespräche.

Geeignet für und unterstützt:

  • Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
  • Tool-Calling für agentische Workflows
  • Bildverständnis (Vision)
  • Thinking / Reasoning für schrittweises Problemlösen
  • Verarbeitung langer Dokumente und erweiterter Kontexte

Folgende Limitierungen gelten:

  • Maximale Context-Länge: 262.144 Token
  • Der Thinking-Modus benötigt mindestens 128.000 Token verbleibenden Context, um korrekt zu funktionieren
  • Bilder müssen als Base64-kodierte Data-URLs übermittelt werden (keine externen URLs)

Thinking-Modus ist standardmäßig aktiviert. Wie du ihn korrekt deaktivierst, zeigt der Abschnitt Thinking-Modus deaktivieren — der Parameter muss in chat_template_kwargs verschachtelt werden.

Thinking-Modus deaktivieren

from openai import OpenAI

client = OpenAI(
base_url="https://llm.aihosting.mittwald.de/v1",
api_key="sk-your-api-key-here",
)

response = client.chat.completions.create(
model="Qwen3.6-35B-A3B-FP8",
messages=[{"role": "user", "content": "Was ist 2 + 2?"}],
temperature=0.7,
top_p=0.8,
max_tokens=32768,
extra_body={
"chat_template_kwargs": {"enable_thinking": False},
# ^^^^^^^^^^^^^^^^^^^^^^^^
# Muss hier verschachtelt sein — enable_thinking auf Top-Level-Ebene
# wird von der API stillschweigend ignoriert.
},
)

print(response.choices[0].message.content)

Antwort auslesen

Wenn der Thinking-Modus aktiviert ist (Standard), liefert das Modell zwei separate Felder:

FeldInhalt
choices[0].message.reasoning_contentInterne Gedankenkette (kann sehr lang sein)
choices[0].message.contentEndgültige Antwort

Wenn content leer ist, hat das Modell seine Antwort in den Reasoning-Block geschrieben — deaktiviere den Thinking-Modus, damit content immer befüllt wird.

print(response.choices[0].message.reasoning_content) # interne Gedankenkette
print(response.choices[0].message.content) # endgültige Antwort

Empfohlene Inferenzparameter

Das Modell hat je nach Anwendungsfall unterschiedliche empfohlene Einstellungen. Greedy-Decoding (temperature 0) sollte vermieden werden – es kann zu Leistungseinbußen und endlosen Wiederholungen führen.

Thinking-Modus (Standard)

Allgemeine Aufgaben:

ParameterWert
temperature1.0
top_p0.95
top_k20
presence_penalty1.5

Präzise Coding-Aufgaben / Webentwicklung:

ParameterWert
temperature0.6
top_p0.95
top_k20
presence_penalty0.0

Non-Thinking-Modus (enable_thinking: false)

Allgemeine Aufgaben:

ParameterWert
temperature0.7
top_p0.8
top_k20
presence_penalty1.5

Reasoning / Mathematik / komplexe Problemlösung:

ParameterWert
temperature1.0
top_p1.0
top_k40
presence_penalty2.0

Ausgabelänge

Setze max_tokens entsprechend der Aufgabenkomplexität, um Kosten und Latenz zu steuern:

AufgabentypEmpfohlenes max_tokens
Standardanfragen32.768
Komplexe Aufgaben (Mathematik, Programmierwettbewerbe)81.920

Tipps für spezifische Aufgaben

Vision (Bild zu Text)

Für Vision-Aufgaben sollte der Thinking-Modus immer deaktiviert werden – er erhöht die Latenz, ohne das Bildverständnis zu verbessern:

extra_body={"chat_template_kwargs": {"enable_thinking": False}}

Empfohlene Parameter für Vision:

ParameterWert
temperature0.7
top_p0.8
top_k20
max_tokens512–2048 je nach Aufgabe

Für präzise Texterkennung (OCR) oder das Auslesen von Daten empfiehlt sich stattdessen temperature=0.1.

Bilder sollten vor der Base64-Kodierung auf maximal 1024 px an der längsten Seite skaliert werden – große Bilder erhöhen die Wartezeit bis zum ersten Token (TTFT) erheblich. Die erste Anfrage für ein neues Bild hat eine längere TTFT, während der Bild-Encoder aufwärmt; nachfolgende Anfragen mit demselben Bild profitieren vom Caching. Fertige Hilfsfunktionen sind in den Python-Beispielen und JavaScript-Beispielen verfügbar.

Mathematikaufgaben

Für beste Ergebnisse bei mathematischen Aufgaben füge folgende Anweisung an deinen Prompt an:

Please reason step by step, and put your final answer within \boxed{}.

Multiple-Choice-Fragen

Für konsistente, parsierbare Ausgaben bei Multiple-Choice-Aufgaben füge Folgendes an deinen Prompt an:

Please show your choice in the 'answer' field with only the choice letter, e.g., 'answer': 'C'.

Nutzungsbedingungen und Lizenzhinweise

Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz angeboten, eine Weiternutzung der generierten Inhalte unterliegt keiner zusätzlichen Restriktion.