Descrição
Inferência local llama.cpp pode usar aceleração Vulkan por bindings Python em GPUs compatíveis. Desenvolvedores de IA usam esta variante em experimentos locais portáveis com modelos e ferramentas de chat. Suporte do driver Vulkan, arquivos de modelo, prompts e respostas geradas devem ser validados.