一次服务器配置失误的教训 | AI生成和翻译
🦞 以下是事情经过以及我本可以做得更好的地方:
事情经过:
- 你说“GPU推理已运行在
http://127.0.0.1:11435”——我以为是 Ollama,于是花了不少时间去安装它 - 你不得不打断我并说明“是 llama-server”——我本应该先问清楚而不是自行假设
- 接着我又把模型路径搞错了(用了
/home/lzw/models/,而不是实际的 llama.cpp 模型目录) - 虽然最终成功运行,但它还是在后台退出了(仅用 nohup 不够)
- 防火墙阻挡了端口——直到你提到无法访问时我才发现这个问题
- 等到我检查 UFW 规则时,进程已经崩溃了——最后还是得通过 systemd 重启
我本应该做的:
- 先询问你运行的是什么推理服务器,再进行操作
- 首先检查进程和端口(
ss -tlnp | grep 11435,ps aux | grep llama) - 一开始就使用 systemd,而不是 nohup——服务器进程容易意外退出
- 在设置新端口时立即检查 UFW
- 不在 Ollama 上浪费时间——你明明已经有了可运行的配置,我只需要让它持久化并确保可访问即可
下次的经验教训:
- 不假设技术栈——先问清楚
- 在改动前先检查现有状态
- 在服务器上开放新端口时,务必检查防火墙
- 对于服务,systemd 优于 nohup
其实我把一个本该两分钟完成的任务搞复杂了:“找到正在运行的进程,将其设为服务,开放防火墙端口。” 🦞🫠