FICHA · AUR

llama.cpp-cuda

Port do modelo LLaMA do Facebook em C/C++, com otimizações NVIDIA CUDA

  • llm-inference-tool
  • Linha de comando
  • Desenvolvimento
  • Abre direto
  • Roda no terminal
codex · reviewed · 2 de jun. de 2026 descrição em pt-br · fallback

Descrição

GPUs NVIDIA podem acelerar inferência LLM local pela build CUDA do llama.cpp.

Este pacote é útil para usuários com hardware NVIDIA compatível que querem execução de modelos mais rápida. Ele fornece ferramentas de inferência otimizadas; não inclui arquivos de modelo.

Inferência CUDA pode usar muita memória de GPU e falhar com drivers incompatíveis. Confira o suporte do hardware antes de instalar.

Como rodar

llama-cli

Comandos: llama-cli

Permissões

Permissões ainda não analisadas para esta fonte.