FICHA · AUR

llama.cpp-cuda-git

Port do modelo LLaMA do Facebook em C/C++, com otimizações NVIDIA CUDA

  • llm-inference-tool
  • Linha de comando
  • Desenvolvimento
  • Abre direto
  • Roda no terminal
codex · reviewed · 2 de jun. de 2026 descrição em pt-br · fallback

Descrição

Código atual de aceleração CUDA fica disponível para inferência LLM local em GPUs NVIDIA.

Este pacote Git é útil para testadores ou desenvolvedores que precisam das mudanças CUDA mais recentes do llama.cpp antes de um release estável. Ele é uma build de inferência otimizada para GPU, não um pacote de modelos.

Builds de GPU em desenvolvimento podem ser instáveis ou sensíveis a drivers. Teste primeiro com cargas não críticas.

Como rodar

llama-cli

Comandos: llama-cli

Permissões

Permissões ainda não analisadas para esta fonte.