Intentando llama.cpp

Intentando llama.cpp | Original, traducido por IA

Home 2025.01

llama.cpp

Al intentar ejecutar llama.cpp con un modelo, es posible que encuentres un error como este:

% ./main -m models/7B/Phi-3-mini-4k-instruct-q4.gguf
main: build = 964 (f3c3b4b)
main: seed  = 1737736417
llama.cpp: cargando modelo desde models/7B/Phi-3-mini-4k-instruct-q4.gguf
error loading model: combinación desconocida (mágica, versión): 46554747, 00000003; ¿es esto realmente un archivo GGML?
llama_load_model_from_file: falló al cargar el modelo
llama_init_from_gpt_params: error: falló al cargar el modelo 'models/7B/Phi-3-mini-4k-instruct-q4.gguf'
main: error: no se pudo cargar el modelo

Este error ocurre porque estás ejecutando el programa main. Ejecutar los programas llama-cli o llama-server ubicados en build/bin debería resolver el problema.

El programa main se creó el 8 de agosto de 2023, lo que significa que no es el build actual.

Otra solución es instalar llama.cpp usando Homebrew:

brew install llama.cpp

Esto asegura que tengas una versión compatible de la biblioteca.

Servir el Modelo

/home/lzw/Projects/llama.cpp/build/bin/llama-server -m /home/lzw/Projects/llama.cpp/models/DeepSeek-R1-Distill-Qwen-14B-Q5_K_M.gguf --port 8000  --ctx-size 2048 --batch-size 512 --n-gpu-layers 49 --threads 8 --parallel 1

Los parámetros --ctx-size 2048 --batch-size 512 --n-gpu-layers 49 --threads 8 --parallel 1 son importantes. Aumentarán la velocidad.

LLM Farm

Es una excelente aplicación para iOS. En la configuración, hay alrededor de 20 modelos. Al importar un modelo GGUF por nosotros mismos, que se descargan de Hugging Face, puede llevar a un bloqueo.

Beneficios

Al alojar estos modelos LLM localmente, puedes ejecutarlos sin necesidad de acceso a la red. Por ejemplo, al descargar archivos grandes que congestionan la red, ejecutar un modelo local puede ser beneficioso.

Recursos

Back Donate