远程大语言模型代理配置指南 | AI生成和翻译

Home 2026.05

已完成配置

问题: Tree of Thought 使用自定义API格式 {model, system_prompt, input} — 而 llama.cpp 期望标准的 OpenAI 格式 {messages:[...]}

解决方案: 一个由三部分组成的链式结构:

ToT (local:8000) → SSH 隧道 :1234 → 远程代理 :8088 → llama-server :8080

远程服务器上的文件 (192.168.1.36):


切换模型

通过 SSH 连接到远程服务器并重启 llama-server 以加载不同的 .gguf 模型文件:

ssh lzw@192.168.1.36
pkill llama-server
nohup /home/lzw/projects/llama.cpp/build/bin/llama-server \
  -m /home/lzw/projects/llama.cpp/models/DeepSeek-R1-Distill-Qwen-32B-Q2_K.gguf \
  --host 0.0.0.0 --port 8080 -ngl 99 \
  > ~/llama8b.log 2>&1 &

远程服务器上可用的模型:


系统重启后进行完整重启

# 在远程服务器上执行
ssh lzw@192.168.1.36
nohup /home/lzw/projects/llama.cpp/build/bin/llama-server \
  -m /home/lzw/projects/llama.cpp/models/DeepSeek-R1-0528-Qwen3-8B-Q4_K_M.gguf \
  --host 0.0.0.0 --port 8080 -ngl 99 > ~/llama8b.log 2>&1 &
nohup python3 ~/tot_proxy.py > ~/tot_proxy.log 2>&1 &

# 在本地 Mac 上(新终端中)执行
ssh -f -N -L 1234:localhost:8088 lzw@192.168.1.36

前端访问地址保持为 http://localhost:1234/api/v1/chat,所有模型字段均设置为 local


Back Donate