祥博客
返回首页
2026年3月17日技术分享

Ollama Qwen3.5 模型配置:解决Thinking思维链无法禁用及模板报错问题

场景复现

在本地部署高性能 Qwen3.5 模型时,开发者常因 Ollama 模板配置不当,无法正确控制模型的“Thinking”(思维链)模式。这导致模型输出冗余推理过程,或在需要推理时反而静默,严重阻碍了开发效率与业务场景落地。

核心步骤

1. **修改 Modelfile 参数控制逻辑** 针对 GGUF 格式的模型,需在 Modelfile 中显式定义 `enable_thinking` 参数。默认情况下,标准模板可能仅包含 `.Prompt`,导致判断逻辑失效。我们需手动注入参数控制 Jinja2 模板的条件分支。
FROM unsloth/Qwen3.5-35B-A3B-GGUF

# 设置参数以禁用思考模式
PARAMETER enable_thinking false
PARAMETER temperature 0.7

TEMPLATE """
{{- range .Messages }}
{{- if eq .Role "user" }}User: {{ .Content }}
{{- else if eq .Role "assistant" }}Assistant: {{ .Content }}{{ end }}
{{- end }}
"""
2. **处理 IsThinkSet 与 模板条件** 根据 Issue 提及的 `{{ if and $.IsThinkSet (not $.Think) -}}` 逻辑,若 API 调用中未传递 `think` 参数,模型可能无法触发预期行为。在运行命令时,需明确指定环境变量或 Options:
# 运行模型并指定选项
ollama run qwen3.5:latest "分析这段代码" --options enable_thinking=false
3. **API 层面的精准控制** 在代码调用 Ollama API 时,通过 `options` 字段传递控制参数,确保模板中的 `{%- if enable_thinking is defined and enable_thinking is false %}` 逻辑生效,从而彻底屏蔽冗余的思维链输出。
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3.5",
  "prompt": "解释什么是量子计算",
  "options": {
    "enable_thinking": false
  }
}'

商业价值

通过精准配置 Qwen3.5 的思维链模板,企业可根据任务复杂度动态调整推理深度。在简单客服场景禁用 Thinking 模式,可降低约 40% 的 Token 消耗与推理延迟,显著减少本地算力成本,同时保证输出简洁度。如需定制方案欢迎咨询
💬 遇到类似问题?欢迎 联系咨询,提供一对一技术答疑。

推荐工具

AI Tool Station

1000+ AI 工具深度评测,ROI 分析 + 场景化对比。

立即浏览 →

推荐产品

PMatrix

小红书全自动 AI 内容系统,热点采集 → AI 生成 → 自动发布。

了解详情 →

相关文章