Descrição
Inferência LLM local pode rodar em uma máquina sem depender de um serviço de chat hospedado.
Este pacote é útil para desenvolvedores e usuários avançados que querem ferramentas llama.cpp para executar modelos de linguagem compatíveis. Ele fornece software de inferência; arquivos de modelo precisam ser obtidos separadamente.
IA local ainda processa prompts sensíveis e pode usar muita CPU, memória, disco ou GPU. Revise fontes dos modelos e não exponha servidores sem intenção.