Descrição
Código atual de aceleração CUDA fica disponível para inferência LLM local em GPUs NVIDIA.
Este pacote Git é útil para testadores ou desenvolvedores que precisam das mudanças CUDA mais recentes do llama.cpp antes de um release estável. Ele é uma build de inferência otimizada para GPU, não um pacote de modelos.
Builds de GPU em desenvolvimento podem ser instáveis ou sensíveis a drivers. Teste primeiro com cargas não críticas.