2026年3月17日技术分享

Ollama Qwen3.5 模型配置：解决Thinking思维链无法禁用及模板报错问题

场景复现

在本地部署高性能 Qwen3.5 模型时，开发者常因 Ollama 模板配置不当，无法正确控制模型的“Thinking”（思维链）模式。这导致模型输出冗余推理过程，或在需要推理时反而静默，严重阻碍了开发效率与业务场景落地。

核心步骤

1. **修改 Modelfile 参数控制逻辑** 针对 GGUF 格式的模型，需在 Modelfile 中显式定义 `enable_thinking` 参数。默认情况下，标准模板可能仅包含 `.Prompt`，导致判断逻辑失效。我们需手动注入参数控制 Jinja2 模板的条件分支。

FROM unsloth/Qwen3.5-35B-A3B-GGUF

# 设置参数以禁用思考模式
PARAMETER enable_thinking false
PARAMETER temperature 0.7

TEMPLATE """
{{- range .Messages }}
{{- if eq .Role "user" }}User: {{ .Content }}
{{- else if eq .Role "assistant" }}Assistant: {{ .Content }}{{ end }}
{{- end }}
"""

2. **处理 IsThinkSet 与模板条件** 根据 Issue 提及的 `{{ if and $.IsThinkSet (not $.Think) -}}` 逻辑，若 API 调用中未传递 `think` 参数，模型可能无法触发预期行为。在运行命令时，需明确指定环境变量或 Options：

# 运行模型并指定选项
ollama run qwen3.5:latest "分析这段代码" --options enable_thinking=false

3. **API 层面的精准控制** 在代码调用 Ollama API 时，通过 `options` 字段传递控制参数，确保模板中的 `{%- if enable_thinking is defined and enable_thinking is false %}` 逻辑生效，从而彻底屏蔽冗余的思维链输出。

curl http://localhost:11434/api/generate -d '{
  "model": "qwen3.5",
  "prompt": "解释什么是量子计算",
  "options": {
    "enable_thinking": false
  }
}'

商业价值

通过精准配置 Qwen3.5 的思维链模板，企业可根据任务复杂度动态调整推理深度。在简单客服场景禁用 Thinking 模式，可降低约 40% 的 Token 消耗与推理延迟，显著减少本地算力成本，同时保证输出简洁度。如需定制方案欢迎咨询

💬 遇到类似问题？欢迎联系咨询，提供一对一技术答疑。

Ollama Qwen3.5 模型配置：解决Thinking思维链无法禁用及模板报错问题

场景复现

核心步骤

商业价值

AI Tool Station

PMatrix

相关文章