Guarda ChuvaDigital
Voltar pro blog
Como funciona a IA9 min de leituraTime de Produto Ana

Como modelos de linguagem (LLMs) funcionam: guia em português para donos de PME

Um LLM (Large Language Model) e um software que prediz a proxima palavra mais provavel dado um texto de entrada. GPT-4, Claude e Gemini sao exemplos. Entender como funciona ajuda voce a configurar melhor seu assistente virtual e evitar erros comuns como respostas inventadas (alucinacao) e cortes inesperados (limite de contexto).

Codigo de IA em tela de monitor
Foto: ThisIsEngineering / Pexels

Se voce ja viu um assistente de IA responder uma pergunta complexa em segundos, deve ter ficado curioso: como ele entende o que voce diz? A resposta envolve menos magia e mais matematica. Vamos descomplicar.

~1,7 tri

parametros do GPT-4 (estimativa publicada por pesquisadores).

Fonte: SemiAnalysis · GPT-4 architecture

128k

tokens de contexto suportado pelo GPT-4 Turbo — cerca de 300 paginas de texto.

Fonte: OpenAI · Model documentation

92%

das empresas top-1000 da Fortune usam IA generativa em algum processo.

Fonte: Deloitte · State of GenAI 2024

O que e um LLM em uma frase

Um Large Language Model (LLM) e um software estatistico treinado em bilhoes de textos da internet, livros e codigos, com um objetivo simples: dado um texto, predizer qual palavra vem a seguir. Quando voce manda uma pergunta, o modelo gera a resposta uma palavra (na verdade, um token) por vez, sempre escolhendo a mais provavel dado o contexto.

LLMs nao "sabem" coisas — eles preveem texto plausivel. Quando o que e plausivel coincide com o que e verdade, a resposta e util. Quando nao coincide, chamamos de alucinacao.

Stephen Wolfram — What Is ChatGPT Doing... and Why Does It Work? (2023)

Tokens: a unidade que importa

O modelo nao processa palavras — processa tokens. Um token e mais ou menos 4 caracteres em portugues. "WhatsApp" sao 2 tokens, "R$ 49,90" sao 5 tokens. Voce paga por token (entrada + saida) e tem limite de tokens por requisicao — por isso prompts gigantes saem caros e cortam respostas pela metade.

ModeloContexto (tokens)Custo input / 1M tokensCusto output / 1M tokens
GPT-4 Turbo128.000US$ 10US$ 30
GPT-4o128.000US$ 2,50US$ 10
Claude 3.5 Sonnet200.000US$ 3US$ 15
Gemini 1.5 Pro1.000.000US$ 1,25US$ 5

Por que o modelo "alucina"

Alucinacao e quando o modelo gera resposta confiante mas errada — inventa fontes, datas ou regras que nao existem. Acontece porque o LLM prediz texto plausivel, nao verifica verdade. Em atendimento, isso seria um desastre: a IA poderia oferecer um servico que voce nao tem, ou um preco errado.

A solucao em uso comercial chama RAG (Retrieval-Augmented Generation): antes de responder, o sistema busca informacao real no seu banco de dados (servicos, precos, FAQ) e passa pro modelo como contexto obrigatorio. A IA so pode usar o que voce cadastrou. Isso reduz alucinacao a quase zero em casos bem implementados.

A Ana usa RAG: cada resposta consulta sua base de conhecimento antes de gerar texto. Se a info nao estiver cadastrada, a IA transfere pra humano em vez de inventar.

Temperatura, top-p e outros knobs

Sao parametros que controlam quao criativa a resposta vai ser. Temperatura 0 = sempre a resposta mais provavel (determinista, util pra atendimento estruturado). Temperatura 1+ = mais variacao, util pra brainstorm. Em atendimento ao cliente, recomenda-se temperatura entre 0,2 e 0,4 — natural mas previsivel.

Por que entender isso muda como voce configura a IA

  • Voce vai cadastrar base de conhecimento mais detalhada (entende que e o ancora da resposta).
  • Vai dividir prompt longo em pedacos (entende que tem limite de token).
  • Vai revisar log de respostas focando em sinais de alucinacao (numeros estranhos, citacoes inventadas).
  • Vai escolher modelo certo pra cada caso: barato pra FAQ, melhor pra negociacao.
  • Vai medir custo por conversa com base em tokens (nao em mensagens).

Perguntas frequentes

Nao automaticamente. Modelos comerciais (OpenAI, Anthropic) tem politica de nao treinar com dados de API a menos que voce opte por isso. Plataformas serias garantem isso por contrato. Confirme antes de assinar.

Leia também