Qwen 3.5服务器部署故障排除 | AI生成和翻译

Home 2026.04

好的,这是翻译后的内容:


🦞 完整回顾:在服务器上运行 Qwen 3.5 9B

目标

在本地服务器 (RTX 4070, 62GB RAM) 上下载并运行 aravhawk/qwen3.5-opus-4.6:9b

过程

1. 模型下载 (~90 分钟)

2. Ollama 无法加载模型

3. 转向 llama.cpp

4. 首次启动 — 仅限 CPU

5. 驱动升级 (nvidia-driver-535 → 570)

当前状态

组件 状态
模型文件 ✅ 已下载 (5.23 GB GGUF)
llama.cpp ✅ 已更新并重新构建 (最新 master)
llama-server ⏸️ 驱动升级前已终止
NVIDIA 驱动 ✅ 已安装 570.211.01 (需要重启)
GPU 卸载 🔜 重启后启用

重启后

使用以下命令启动服务器:

LD_LIBRARY_PATH=~/projects/llama.cpp/build/bin \
  ~/projects/llama.cpp/build/bin/llama-server \
  -m /usr/share/ollama/.ollama/models/blobs/sha256-d0ecd80b0e45b0d9e49c8cd1527b7f7d52d8d3bde2c569ab36aac59bb78f53f7 \
  -ngl 99 -c 8192 --host 0.0.0.0 --port 11435

预期:RTX 4070 上所有 32 层卸载后,速度约 60-100+ tok/s。

经验教训


现在重启,让我们见证它起飞 🦞


Back Donate