Descrição
Modelos de linguagem locais podem rodar com aceleração NVIDIA CUDA 12. Isso ajuda usuários a usar GPUs compatíveis para inferência de IA mais rápida e experimentação com modelos.
É uma variante binária do Ollama para sistemas CUDA 12. Verifique compatibilidade de driver, memória da GPU, licenças dos modelos e privacidade dos prompts antes de usar APIs locais ou expostas na rede.