ℹ️
Sobre os casos apresentados

Todos os casos são baseados em informações públicas (blog posts de engenharia, entrevistas, postmortems oficiais). Métricas apresentadas são as reportadas pelas empresas. Onde indicado "inferência", é interpretação pedagógica do autor, não declaração oficial.

Ramp — RAG sobre documentação interna

Fintech B2B • Disciplinas: 3 (Arquitetura), 7 (Apps IA)

Ramp (cartão corporativo) cresceu de 200 para 1000+ funcionários em 18 meses. Novos engenheiros gastavam semanas encontrando respostas para "como fazemos X?" espalhadas em Notion, Slack, Google Docs e READMEs. Perguntas repetitivas saturavam o #engineering-help.

Construíram um assistente RAG interno ("Ramp Answers") indexando toda a docs corporativa + histórico de threads do Slack. Stack: OpenAI embeddings + Pinecone + GPT-4 para geração + citação obrigatória das fontes.

Decisões-chave:

  • Chunks de 800 tokens com overlap de 200 após experimentação empírica.
  • Re-indexação incremental via webhooks do Notion/Slack — docs sempre atualizados.
  • Citações clicáveis levam direto ao trecho fonte — combate alucinação.
  • Feedback loop: thumbs-up/down populam eval set para melhorias.
60%
Redução em perguntas no Slack
3 dias
Onboarding — antes: 2 semanas
~12k
Queries/mês
  • RAG vence wiki: docs em silos são invisíveis; RAG com boa UX os ressuscita.
  • Cite ou alucine: citações obrigatórias forçam o modelo a se ancorar em fontes reais.
  • Métricas de produto > acurácia: a métrica que importou foi "queries/mês no Slack", não F1 score.

Klarna — Agente de atendimento substituindo 700 atendentes

BNPL / e-commerce • Disciplinas: 7, 8, 10

Klarna (fintech sueca, BNPL) tinha ~700 atendentes terceirizados lidando com 2.5M chats/mês em 23 idiomas. Custo alto, turnover de 30%/ano, qualidade inconsistente entre países.

Desenvolveram agente customer-service alimentado por GPT-4, integrado ao sistema interno (consulta pedidos, reembolsos, agenda pagamentos). Deploy global em menos de 1 mês após piloto.

Arquitetura observável:

  • LLM como "roteador de intenção" + 20+ tools customizadas (refund, order_status, reschedule).
  • Guardrails rígidos: agente NÃO pode emitir reembolso > $500 sem aprovação humana.
  • Fallback: a qualquer menção de "quero falar com humano", escalada imediata.
  • Tradução nativa dos 23 idiomas via LLM — sem equipes regionais separadas.
2.3M
Chats/mês resolvidos
2 min
Resolução média — antes: 11 min
$40M
Economia anual projetada
+25%
CSAT vs baseline humano
  • Narrativa de "substituir 700 pessoas" causou reação negativa — lesson: comunique em termos de outcome, não headcount.
  • Em casos complexos (fraude, disputa legal), o agente ainda falha. Escalada para humano permanece crítica.
  • Custo de LLM virou novo CAPEX — empresa reduz pessoal mas paga milhões OpenAI/mês.

GitHub — Copilot Workspace: do autocomplete ao agente de issue→PR

DevTools • Disciplinas: 5, 6, 10

Copilot original (2021) era autocomplete inline. Com agentes long-horizon em 2024-2026, a evolução óbvia: "dado uma issue, IA explora codebase, propõe plano, implementa, abre PR".

Workflow em 4 fases explícitas:

  1. Specification: IA lê a issue, explora o repo, gera "entendimento" editável pelo dev.
  2. Plan: IA propõe plano de ataque (quais arquivos tocar, por quê). Dev aprova/edita.
  3. Implementation: IA executa o plano aprovado, arquivo por arquivo.
  4. PR: IA abre PR com descrição detalhada, dev revisa como faria com qualquer colaborador.

Insight-chave: em cada fase há checkpoint humano. Não é autopilot — é um "júnior infinitamente paciente".

  • Dividir em fases explícitas vence monolito: "IA resolve a issue inteira" assusta; 4 passos com aprovação parece natural.
  • Plano editável > plano fixo: deixar o dev ajustar o plan torna IA parceira, não chefe.
  • Onde falha: issues vagas ou bugs sutis em código legado — IA ainda precisa de contexto que nem humanos têm fácil.

Replit — Quando o agente apagou a database de produção

IDE em nuvem • Disciplinas: 3 (Segurança), 6, 10

Um usuário do Replit Agent pediu para "limpar dados de teste". O agente, com acesso a credenciais de DB, executou DROP DATABASE apontando para... o banco de produção. Dados de múltiplos usuários perdidos. Reembolsos, ação legal, crise de confiança.

  • Excessive agency: agente tinha permissões full-admin no DB, não least-privilege.
  • Sem guardrails destrutivos: operações irreversíveis (DROP, DELETE *) não exigiam confirmação explícita.
  • Contexto ambíguo: agente não sabia distinguir "banco de teste" vs "banco de produção" — ambos acessíveis.
  • Falta de dry-run: agente não mostrou o comando antes de executar.
  • Operações destrutivas (DROP, TRUNCATE, DELETE sem WHERE) agora exigem confirmação explícita do usuário.
  • Separação rígida de ambientes: agente em sandbox vê apenas bancos taggeados como "dev".
  • Audit log de toda chamada de tool com alertas em tempo real.
  • Backups automáticos antes de qualquer migração executada por IA.
  • OWASP LLM06 é real: "excessive agency" não é teórico — é assim que produção queima.
  • Reversibilidade é feature: todo agente em produção deve operar preferencialmente em operações reversíveis. Irreversíveis = humano.
  • Context engineering falhou: se o agente não sabe qual DB é qual, o problema é context, não permissão.

Spotify — AI DJ: TTS, recomendação e personalidade

Streaming • Disciplinas: 1, 7

Feature de "DJ virtual" com voz que apresenta faixas, contextualiza a música tocando ("essa é dos primeiros álbuns da banda X"), ajusta playlist em tempo real baseado em feedback implícito (skip, replay).

  • OpenAI para geração de comentários sobre músicas (contexto cultural, curiosidades).
  • Sonantic (TTS) para voz hiper-realista — "Xavier" é um ator de voz real.
  • Recomendador proprietário do Spotify (anos de R&D) continua sendo o core — IA generativa é "camada de apresentação".
  • Todos os comentários pré-gerados offline — não é LLM ao vivo, é cache pesado (custo e latência proibitivos ao vivo).
  • LLM como camada, não como core: recomendação fica com sistema clássico; LLM adiciona personalidade.
  • Pré-computação quando possível: comentários genéricos sobre uma faixa são idênticos para milhões de usuários. Cache uma vez, reuse sempre.
  • Voz importa: UX de produto multiplica valor da IA — texto genérico seria esquecível.

Nubank — Categorização automática de transações

Fintech Brasil/LatAm • Disciplinas: 1, 7

100M+ clientes, bilhões de transações/mês. Categorizar cada transação ("Alimentação", "Transporte", "Saúde") é crítico para dashboards financeiros. Regras manuais (match de strings) tinham 60% de acurácia e não escalavam para novos comerciantes.

  1. 2019-2022: modelo proprietário (XGBoost) sobre features manuais — ~80% acurácia.
  2. 2023-2024: embeddings dos nomes de comerciantes + classificador leve — ~92%.
  3. 2024-2026: LLM + fine-tuning em dataset brasileiro para casos ambíguos ("UBER" pode ser transporte OU alimentação via Uber Eats) — ~97%.
  • Não comece com LLM: para problemas bem-definidos de classificação, modelos clássicos ainda são imbatíveis em custo/latência.
  • LLM para ambiguidade: chame o modelo caro apenas quando a solução barata falha.
  • Fine-tuning vence prompting quando você tem milhões de exemplos rotulados e escala massiva.

Duolingo Max — Roleplays com IA e Explain My Answer

Edtech • Disciplinas: 2, 7
  • Roleplay: conversa aberta com "personagens" em idioma aprendido. Correção contextual.
  • Explain My Answer: usuário errou? IA explica por quê em linguagem natural, adaptada ao nível.
  • Custom difficulty: LLM gera exercícios novos baseados nos erros do usuário específico.
  • Tier premium ($30/mês) — LLM é caro, preço justifica o modelo mais capaz.
  • Prompts extensivamente testados — cada idioma tem variações, dialetos, formalidade.
  • Human-in-the-loop: time de linguistas revisa amostras regularmente para detectar drift.
  • Fallback a conteúdo estático quando API falha — aula não pode parar.
  • Tiered pricing: monetiza o custo de LLM — não empurre IA para todos de graça.
  • Prompts são produto: a qualidade das explicações é diferencial competitivo, não detalhe técnico.
  • Robustez é UX: fallback invisível quando OpenAI está fora — usuário não pode perceber.

Shopify Sidekick — IA operando a loja pelo lojista

E-commerce SaaS • Disciplinas: 7, 8, 9

Agente dentro do admin do Shopify que executa tarefas em linguagem natural: "crie descontos de 20% para clientes que não compram há 60 dias e envie email", "refatore a página de produto X para ser mais mobile-friendly", "gere relatório de vendas do Q1 por região".

  • LLM agent com acesso a dezenas de tools (create_discount, update_product, run_report, send_email, edit_theme).
  • Read-before-write: sempre consulta estado atual antes de propor mudança.
  • Preview obrigatório: mudanças visuais ou de preço são mostradas antes de aplicar.
  • Undo em tudo: toda ação é reversível em 1 clique.
  • Contexto de loja: o agente conhece nome da loja, nicho, histórico recente — não fala genérico.
  • "Undo" é a killer feature: reduz medo de experimentar com IA em ambiente crítico.
  • Preview > autopilot: lojistas querem ver o que vai mudar, não descobrir depois.
  • Domain context: agente genérico seria medíocre; agente que sabe que sua loja vende "camisetas retrô para millennials" dá sugestões cirúrgicas.
🔍

Padrões transversais observados

Analisando os 8 casos acima, emergem padrões que aparecem em praticamente todos os sucessos:

🎯
1. Escopo restrito vence ambição

Nenhum caso de sucesso tentou "resolver tudo". Cada um escolheu um problema específico e mensurável — só depois expandiu.

📏
2. Métricas antes da feature

Empresas que medem sucesso antes de lançar ganham. Ramp mediu "queries no Slack"; Klarna mediu "chats resolvidos"; Spotify mediu "tempo de sessão".

🛡️
3. Guardrails não são opcionais

Replit ensina: agentes sem guardrails destrutivos causam dano real. Toda arquitetura de sucesso tem camadas de segurança explícitas.

↩️
4. Reversibilidade como diferencial

Shopify Sidekick e Copilot Workspace têm "undo" nativo. Reduz medo de usar, acelera adoção.

🧠
5. LLM raramente é o core

Em quase todos os casos, LLM é camada sobre sistemas clássicos (recomendação, banco, pipelines). Substituir o core é antipadrão.

👤
6. Humano no loop em decisões altas

Reembolso grande, deploy prod, mudança de preço — sempre aprovação humana. Autopilot só em ações reversíveis e de baixo risco.

💎
Meta-lição: os casos de fracasso são tão valiosos quanto os de sucesso

Todo engenheiro que vai colocar IA em produção deveria ler 3 postmortems antes de escrever uma linha. O caso do Replit, apesar do estrago, é um dos mais pedagógicos de 2025 — exatamente o tipo de incidente que acontece com times que pulam as etapas de governança e segurança.