Qwen3.5-122B-A10B-FP8

Beschreibung

„Qwen3.5-122B-A10B-FP8" ist ein Mixture-of-Experts-Sprachmodell (MoE) von Alibaba mit 122 Milliarden Gesamtparametern, von denen jeweils ca. 10 Milliarden pro Forward-Pass aktiv sind. Es ist für qualitativ hochwertige Chat-, agentische und Reasoning-Workflows ausgelegt und bleibt dank der MoE-Architektur rechnerisch effizient.

Geeignet für und unterstützt:

Textgenerierung innerhalb einer Chat-Completion (Text zu Text)
Tool-Calling für agentische Workflows
Bildverständnis (Vision)
Thinking / Reasoning für schrittweises Problemlösen

Folgende Limitierungen gelten:

Maximale Context-Länge: 245.760 Token
Der Thinking-Modus benötigt mindestens 128.000 Token verbleibenden Context, um korrekt zu funktionieren
Bilder müssen als Base64-kodierte Data-URLs übermittelt werden (keine externen URLs)

Thinking-Modus ist standardmäßig aktiviert. Wie du ihn korrekt deaktivierst, zeigt der Abschnitt Thinking-Modus deaktivieren — der Parameter muss in chat_template_kwargs verschachtelt werden.

Nutzt du dieses Modell aus n8n heraus? Der eingebaute OpenAI Chat Model-Node kann chat_template_kwargs nicht setzen — siehe Reasoning-Modelle und Thinking-Modus für einen Workaround per Community-Node.

Thinking-Modus deaktivieren

Python
JavaScript
PHP

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.aihosting.mittwald.de/v1",
    api_key="sk-your-api-key-here",
)

response = client.chat.completions.create(
    model="Qwen3.5-122B-A10B-FP8",
    messages=[{"role": "user", "content": "Was ist 2 + 2?"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False},
        #                        ^^^^^^^^^^^^^^^^^^^^^^^^
        # Muss hier verschachtelt sein — enable_thinking auf Top-Level-Ebene
        # wird von der API stillschweigend ignoriert.
    },
)

print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://llm.aihosting.mittwald.de/v1",
  apiKey: "sk-your-api-key-here",
});

const response = await client.chat.completions.create({
  model: "Qwen3.5-122B-A10B-FP8",
  messages: [{ role: "user", content: "Was ist 2 + 2?" }],
  temperature: 0.7,
  top_p: 0.8,
  max_tokens: 32768,
  // @ts-ignore – vLLM-Erweiterung; muss hier verschachtelt sein, nicht enable_thinking auf Top-Level
  chat_template_kwargs: { enable_thinking: false },
} as any);

console.log(response.choices[0].message.content);

<?php
// composer require openai-php/client guzzlehttp/guzzle

$client = OpenAI::factory()
    ->withBaseUri('https://llm.aihosting.mittwald.de/v1')
    ->withApiKey('sk-your-api-key-here')
    ->make();

$response = $client->chat()->create([
    'model' => 'Qwen3.5-122B-A10B-FP8',
    'messages' => [
        ['role' => 'user', 'content' => 'Was ist 2 + 2?'],
    ],
    'temperature' => 0.7,
    'top_p' => 0.8,
    'max_tokens' => 32768,
    'chat_template_kwargs' => ['enable_thinking' => false],
    // Muss hier verschachtelt sein — 'enable_thinking' => false auf Top-Level-Ebene
    // wird von der API stillschweigend ignoriert.
]);

echo $response->choices[0]->message->content;

Antwort auslesen

Wenn der Thinking-Modus aktiviert ist (Standard), liefert das Modell zwei separate Felder:

Feld	Inhalt
`choices[0].message.reasoning_content`	Interne Gedankenkette (kann sehr lang sein)
`choices[0].message.content`	Endgültige Antwort

Wenn content leer ist, hat das Modell seine Antwort in den Reasoning-Block geschrieben — deaktiviere den Thinking-Modus, damit content immer befüllt wird.

print(response.choices[0].message.reasoning_content)  # interne Gedankenkette
print(response.choices[0].message.content)             # endgültige Antwort

Empfohlene Inferenzparameter

Das Modell hat je nach Anwendungsfall unterschiedliche empfohlene Einstellungen. Greedy-Decoding (temperature 0) sollte vermieden werden – es kann zu Leistungseinbußen und endlosen Wiederholungen führen.

Thinking-Modus (Standard)

Allgemeine Aufgaben:

Parameter	Wert
`temperature`	1.0
`top_p`	0.95
`top_k`	20
`presence_penalty`	1.5

Präzise Coding-Aufgaben / Webentwicklung:

Parameter	Wert
`temperature`	0.6
`top_p`	0.95
`top_k`	20

Für präzise Coding-Aufgaben empfiehlt Qwen presence_penalty=0.0. Falls dabei leere content-Antworten bzw. Reasoning-only-Loops auftreten, kann presence_penalty=1.0 als stabilerer Betriebswert getestet werden; Werte bis 2.0 sind laut Qwen je nach Framework zulässig, können aber ebenso zu Fehlern führen.

Non-Thinking-Modus (`enable_thinking: false`)

Allgemeine Aufgaben:

Parameter	Wert
`temperature`	0.7
`top_p`	0.8
`top_k`	20
`presence_penalty`	1.5

Reasoning / Mathematik / komplexe Problemlösung:

Parameter	Wert
`temperature`	1.0
`top_p`	1.0
`top_k`	40
`presence_penalty`	2.0

Ausgabelänge

Setze max_tokens entsprechend der Aufgabenkomplexität, um Kosten und Latenz zu steuern:

Aufgabentyp	Empfohlenes `max_tokens`
Standardanfragen	32.768
Komplexe Aufgaben (Mathematik, Programmierwettbewerbe)	81.920

Tipps für spezifische Aufgaben

Vision (Bild zu Text)

Für Vision-Aufgaben sollte der Thinking-Modus immer deaktiviert werden – er erhöht die Latenz, ohne das Bildverständnis zu verbessern:

extra_body={"chat_template_kwargs": {"enable_thinking": False}}

Empfohlene Parameter für Vision:

Parameter	Wert
`temperature`	0.7
`top_p`	0.8
`top_k`	20
`max_tokens`	512–2048 je nach Aufgabe

Für präzise Texterkennung (OCR) oder das Auslesen von Daten empfiehlt sich stattdessen temperature=0.1.

Bilder sollten vor der Base64-Kodierung auf maximal 1024 px an der längsten Seite skaliert werden – große Bilder erhöhen die Wartezeit bis zum ersten Token (TTFT) erheblich. Fertige Hilfsfunktionen sind in den Python-Beispielen und JavaScript-Beispielen verfügbar.

Mathematikaufgaben

Für beste Ergebnisse bei mathematischen Aufgaben füge folgende Anweisung an deinen Prompt an:

Please reason step by step, and put your final answer within \boxed{}.

Multiple-Choice-Fragen

Für konsistente, parsierbare Ausgaben bei Multiple-Choice-Aufgaben füge Folgendes an deinen Prompt an:

Please show your choice in the 'answer' field with only the choice letter, e.g., 'answer': 'C'.

Nutzungsbedingungen und Lizenzhinweise

Es gelten die allgemeinen Nutzungsbedingungen. Das Modell wird von Alibaba unter der Apache 2.0-Lizenz angeboten, eine Weiternutzung der generierten Inhalte unterliegt keiner zusätzlichen Restriktion.

Beschreibung​

Thinking-Modus deaktivieren​

Antwort auslesen​

Empfohlene Inferenzparameter​

Thinking-Modus (Standard)​

Non-Thinking-Modus (enable_thinking: false)​

Ausgabelänge​

Tipps für spezifische Aufgaben​

Vision (Bild zu Text)​

Mathematikaufgaben​

Multiple-Choice-Fragen​

Nutzungsbedingungen und Lizenzhinweise​