Descrição
GPUs NVIDIA podem acelerar inferência LLM local pela build CUDA do llama.cpp.
Este pacote é útil para usuários com hardware NVIDIA compatível que querem execução de modelos mais rápida. Ele fornece ferramentas de inferência otimizadas; não inclui arquivos de modelo.
Inferência CUDA pode usar muita memória de GPU e falhar com drivers incompatíveis. Confira o suporte do hardware antes de instalar.