FICHA · AUR

llama.cpp-cuda

Port do modelo LLaMA do Facebook em C/C++, com otimizações NVIDIA CUDA

llm-inference-tool
Linha de comando
Desenvolvimento
Abre direto
Roda no terminal

codex · reviewed · 2 de jun. de 2026 descrição em pt-br · fallback

Descrição

GPUs NVIDIA podem acelerar inferência LLM local pela build CUDA do llama.cpp.

Este pacote é útil para usuários com hardware NVIDIA compatível que querem execução de modelos mais rápida. Ele fornece ferramentas de inferência otimizadas; não inclui arquivos de modelo.

Inferência CUDA pode usar muita memória de GPU e falhar com drivers incompatíveis. Confira o suporte do hardware antes de instalar.

Como rodar

llama-cli

Comandos: llama-cli

Permissões

Permissões ainda não analisadas para esta fonte.