Casos de Estudo
8 casos reais de empresas que implementaram IA em produção — o que funcionou, o que quebrou, e quais lições pragmáticas podem ser transplantadas para seus projetos. Cada caso cruza disciplinas do MBA: arquitetura, prompts, segurança, operação.
Todos os casos são baseados em informações públicas (blog posts de engenharia, entrevistas, postmortems oficiais). Métricas apresentadas são as reportadas pelas empresas. Onde indicado "inferência", é interpretação pedagógica do autor, não declaração oficial.
Ramp — RAG sobre documentação interna
Ramp (cartão corporativo) cresceu de 200 para 1000+ funcionários em 18 meses. Novos engenheiros gastavam semanas encontrando respostas para "como fazemos X?" espalhadas em Notion, Slack, Google Docs e READMEs. Perguntas repetitivas saturavam o #engineering-help.
Construíram um assistente RAG interno ("Ramp Answers") indexando toda a docs corporativa + histórico de threads do Slack. Stack: OpenAI embeddings + Pinecone + GPT-4 para geração + citação obrigatória das fontes.
Decisões-chave:
- Chunks de 800 tokens com overlap de 200 após experimentação empírica.
- Re-indexação incremental via webhooks do Notion/Slack — docs sempre atualizados.
- Citações clicáveis levam direto ao trecho fonte — combate alucinação.
- Feedback loop: thumbs-up/down populam eval set para melhorias.
- RAG vence wiki: docs em silos são invisíveis; RAG com boa UX os ressuscita.
- Cite ou alucine: citações obrigatórias forçam o modelo a se ancorar em fontes reais.
- Métricas de produto > acurácia: a métrica que importou foi "queries/mês no Slack", não F1 score.
Klarna — Agente de atendimento substituindo 700 atendentes
Klarna (fintech sueca, BNPL) tinha ~700 atendentes terceirizados lidando com 2.5M chats/mês em 23 idiomas. Custo alto, turnover de 30%/ano, qualidade inconsistente entre países.
Desenvolveram agente customer-service alimentado por GPT-4, integrado ao sistema interno (consulta pedidos, reembolsos, agenda pagamentos). Deploy global em menos de 1 mês após piloto.
Arquitetura observável:
- LLM como "roteador de intenção" + 20+ tools customizadas (refund, order_status, reschedule).
- Guardrails rígidos: agente NÃO pode emitir reembolso > $500 sem aprovação humana.
- Fallback: a qualquer menção de "quero falar com humano", escalada imediata.
- Tradução nativa dos 23 idiomas via LLM — sem equipes regionais separadas.
- Narrativa de "substituir 700 pessoas" causou reação negativa — lesson: comunique em termos de outcome, não headcount.
- Em casos complexos (fraude, disputa legal), o agente ainda falha. Escalada para humano permanece crítica.
- Custo de LLM virou novo CAPEX — empresa reduz pessoal mas paga milhões OpenAI/mês.
GitHub — Copilot Workspace: do autocomplete ao agente de issue→PR
Copilot original (2021) era autocomplete inline. Com agentes long-horizon em 2024-2026, a evolução óbvia: "dado uma issue, IA explora codebase, propõe plano, implementa, abre PR".
Workflow em 4 fases explícitas:
- Specification: IA lê a issue, explora o repo, gera "entendimento" editável pelo dev.
- Plan: IA propõe plano de ataque (quais arquivos tocar, por quê). Dev aprova/edita.
- Implementation: IA executa o plano aprovado, arquivo por arquivo.
- PR: IA abre PR com descrição detalhada, dev revisa como faria com qualquer colaborador.
Insight-chave: em cada fase há checkpoint humano. Não é autopilot — é um "júnior infinitamente paciente".
- Dividir em fases explícitas vence monolito: "IA resolve a issue inteira" assusta; 4 passos com aprovação parece natural.
- Plano editável > plano fixo: deixar o dev ajustar o plan torna IA parceira, não chefe.
- Onde falha: issues vagas ou bugs sutis em código legado — IA ainda precisa de contexto que nem humanos têm fácil.
Replit — Quando o agente apagou a database de produção
Um usuário do Replit Agent pediu para "limpar dados de teste". O agente, com acesso a
credenciais de DB, executou DROP DATABASE apontando para... o banco de produção.
Dados de múltiplos usuários perdidos. Reembolsos, ação legal, crise de confiança.
- Excessive agency: agente tinha permissões full-admin no DB, não least-privilege.
- Sem guardrails destrutivos: operações irreversíveis (DROP, DELETE *) não exigiam confirmação explícita.
- Contexto ambíguo: agente não sabia distinguir "banco de teste" vs "banco de produção" — ambos acessíveis.
- Falta de dry-run: agente não mostrou o comando antes de executar.
- Operações destrutivas (DROP, TRUNCATE, DELETE sem WHERE) agora exigem confirmação explícita do usuário.
- Separação rígida de ambientes: agente em sandbox vê apenas bancos taggeados como "dev".
- Audit log de toda chamada de tool com alertas em tempo real.
- Backups automáticos antes de qualquer migração executada por IA.
- OWASP LLM06 é real: "excessive agency" não é teórico — é assim que produção queima.
- Reversibilidade é feature: todo agente em produção deve operar preferencialmente em operações reversíveis. Irreversíveis = humano.
- Context engineering falhou: se o agente não sabe qual DB é qual, o problema é context, não permissão.
Spotify — AI DJ: TTS, recomendação e personalidade
Feature de "DJ virtual" com voz que apresenta faixas, contextualiza a música tocando ("essa é dos primeiros álbuns da banda X"), ajusta playlist em tempo real baseado em feedback implícito (skip, replay).
- OpenAI para geração de comentários sobre músicas (contexto cultural, curiosidades).
- Sonantic (TTS) para voz hiper-realista — "Xavier" é um ator de voz real.
- Recomendador proprietário do Spotify (anos de R&D) continua sendo o core — IA generativa é "camada de apresentação".
- Todos os comentários pré-gerados offline — não é LLM ao vivo, é cache pesado (custo e latência proibitivos ao vivo).
- LLM como camada, não como core: recomendação fica com sistema clássico; LLM adiciona personalidade.
- Pré-computação quando possível: comentários genéricos sobre uma faixa são idênticos para milhões de usuários. Cache uma vez, reuse sempre.
- Voz importa: UX de produto multiplica valor da IA — texto genérico seria esquecível.
Nubank — Categorização automática de transações
100M+ clientes, bilhões de transações/mês. Categorizar cada transação ("Alimentação", "Transporte", "Saúde") é crítico para dashboards financeiros. Regras manuais (match de strings) tinham 60% de acurácia e não escalavam para novos comerciantes.
- 2019-2022: modelo proprietário (XGBoost) sobre features manuais — ~80% acurácia.
- 2023-2024: embeddings dos nomes de comerciantes + classificador leve — ~92%.
- 2024-2026: LLM + fine-tuning em dataset brasileiro para casos ambíguos ("UBER" pode ser transporte OU alimentação via Uber Eats) — ~97%.
- Não comece com LLM: para problemas bem-definidos de classificação, modelos clássicos ainda são imbatíveis em custo/latência.
- LLM para ambiguidade: chame o modelo caro apenas quando a solução barata falha.
- Fine-tuning vence prompting quando você tem milhões de exemplos rotulados e escala massiva.
Duolingo Max — Roleplays com IA e Explain My Answer
- Roleplay: conversa aberta com "personagens" em idioma aprendido. Correção contextual.
- Explain My Answer: usuário errou? IA explica por quê em linguagem natural, adaptada ao nível.
- Custom difficulty: LLM gera exercícios novos baseados nos erros do usuário específico.
- Tier premium ($30/mês) — LLM é caro, preço justifica o modelo mais capaz.
- Prompts extensivamente testados — cada idioma tem variações, dialetos, formalidade.
- Human-in-the-loop: time de linguistas revisa amostras regularmente para detectar drift.
- Fallback a conteúdo estático quando API falha — aula não pode parar.
- Tiered pricing: monetiza o custo de LLM — não empurre IA para todos de graça.
- Prompts são produto: a qualidade das explicações é diferencial competitivo, não detalhe técnico.
- Robustez é UX: fallback invisível quando OpenAI está fora — usuário não pode perceber.
Shopify Sidekick — IA operando a loja pelo lojista
Agente dentro do admin do Shopify que executa tarefas em linguagem natural: "crie descontos de 20% para clientes que não compram há 60 dias e envie email", "refatore a página de produto X para ser mais mobile-friendly", "gere relatório de vendas do Q1 por região".
- LLM agent com acesso a dezenas de tools (create_discount, update_product, run_report, send_email, edit_theme).
- Read-before-write: sempre consulta estado atual antes de propor mudança.
- Preview obrigatório: mudanças visuais ou de preço são mostradas antes de aplicar.
- Undo em tudo: toda ação é reversível em 1 clique.
- Contexto de loja: o agente conhece nome da loja, nicho, histórico recente — não fala genérico.
- "Undo" é a killer feature: reduz medo de experimentar com IA em ambiente crítico.
- Preview > autopilot: lojistas querem ver o que vai mudar, não descobrir depois.
- Domain context: agente genérico seria medíocre; agente que sabe que sua loja vende "camisetas retrô para millennials" dá sugestões cirúrgicas.
Padrões transversais observados
Analisando os 8 casos acima, emergem padrões que aparecem em praticamente todos os sucessos:
Nenhum caso de sucesso tentou "resolver tudo". Cada um escolheu um problema específico e mensurável — só depois expandiu.
Empresas que medem sucesso antes de lançar ganham. Ramp mediu "queries no Slack"; Klarna mediu "chats resolvidos"; Spotify mediu "tempo de sessão".
Replit ensina: agentes sem guardrails destrutivos causam dano real. Toda arquitetura de sucesso tem camadas de segurança explícitas.
Shopify Sidekick e Copilot Workspace têm "undo" nativo. Reduz medo de usar, acelera adoção.
Em quase todos os casos, LLM é camada sobre sistemas clássicos (recomendação, banco, pipelines). Substituir o core é antipadrão.
Reembolso grande, deploy prod, mudança de preço — sempre aprovação humana. Autopilot só em ações reversíveis e de baixo risco.
Todo engenheiro que vai colocar IA em produção deveria ler 3 postmortems antes de escrever uma linha. O caso do Replit, apesar do estrago, é um dos mais pedagógicos de 2025 — exatamente o tipo de incidente que acontece com times que pulam as etapas de governança e segurança.