Descrição
Modelos de linguagem locais podem ser servidos por um processo de servidor com aceleração por GPU ou NPU. É útil para desenvolvedores que querem inferência local de IA exposta a ferramentas ou aplicativos na mesma máquina ou rede confiável.
Servidores LLM podem processar prompts privados e expor uma API. Restrinja interfaces de escuta, revise origem dos modelos e evite enviar dados sensíveis a clientes não confiáveis.