Casos de Estudo

💳

Ramp — RAG sobre documentação interna

Fintech B2B • Disciplinas: 3 (Arquitetura), 7 (Apps IA)

🎯 Problema

Ramp (cartão corporativo) cresceu de 200 para 1000+ funcionários em 18 meses. Novos engenheiros gastavam semanas encontrando respostas para "como fazemos X?" espalhadas em Notion, Slack, Google Docs e READMEs. Perguntas repetitivas saturavam o #engineering-help.

💡 Solução

Construíram um assistente RAG interno ("Ramp Answers") indexando toda a docs corporativa + histórico de threads do Slack. Stack: OpenAI embeddings + Pinecone + GPT-4 para geração + citação obrigatória das fontes.

Decisões-chave:

Chunks de 800 tokens com overlap de 200 após experimentação empírica.
Re-indexação incremental via webhooks do Notion/Slack — docs sempre atualizados.
Citações clicáveis levam direto ao trecho fonte — combate alucinação.
Feedback loop: thumbs-up/down populam eval set para melhorias.

60%

Redução em perguntas no Slack

3 dias

Onboarding — antes: 2 semanas

~12k

Queries/mês

🎓 Lições extraíveis

RAG vence wiki: docs em silos são invisíveis; RAG com boa UX os ressuscita.
Cite ou alucine: citações obrigatórias forçam o modelo a se ancorar em fontes reais.
Métricas de produto > acurácia: a métrica que importou foi "queries/mês no Slack", não F1 score.

🛒

Klarna — Agente de atendimento substituindo 700 atendentes

BNPL / e-commerce • Disciplinas: 7, 8, 10

🎯 Problema

Klarna (fintech sueca, BNPL) tinha ~700 atendentes terceirizados lidando com 2.5M chats/mês em 23 idiomas. Custo alto, turnover de 30%/ano, qualidade inconsistente entre países.

💡 Solução

Desenvolveram agente customer-service alimentado por GPT-4, integrado ao sistema interno (consulta pedidos, reembolsos, agenda pagamentos). Deploy global em menos de 1 mês após piloto.

Arquitetura observável:

LLM como "roteador de intenção" + 20+ tools customizadas (refund, order_status, reschedule).
Guardrails rígidos: agente NÃO pode emitir reembolso > $500 sem aprovação humana.
Fallback: a qualquer menção de "quero falar com humano", escalada imediata.
Tradução nativa dos 23 idiomas via LLM — sem equipes regionais separadas.

2.3M

Chats/mês resolvidos

2 min

Resolução média — antes: 11 min

$40M

Economia anual projetada

+25%

CSAT vs baseline humano

⚠️ Polêmicas e aprendizados

Narrativa de "substituir 700 pessoas" causou reação negativa — lesson: comunique em termos de outcome, não headcount.
Em casos complexos (fraude, disputa legal), o agente ainda falha. Escalada para humano permanece crítica.
Custo de LLM virou novo CAPEX — empresa reduz pessoal mas paga milhões OpenAI/mês.

🐙

GitHub — Copilot Workspace: do autocomplete ao agente de issue→PR

DevTools • Disciplinas: 5, 6, 10

🎯 Contexto

Copilot original (2021) era autocomplete inline. Com agentes long-horizon em 2024-2026, a evolução óbvia: "dado uma issue, IA explora codebase, propõe plano, implementa, abre PR".

💡 Arquitetura

Workflow em 4 fases explícitas:

Specification: IA lê a issue, explora o repo, gera "entendimento" editável pelo dev.
Plan: IA propõe plano de ataque (quais arquivos tocar, por quê). Dev aprova/edita.
Implementation: IA executa o plano aprovado, arquivo por arquivo.
PR: IA abre PR com descrição detalhada, dev revisa como faria com qualquer colaborador.

Insight-chave: em cada fase há checkpoint humano. Não é autopilot — é um "júnior infinitamente paciente".

🎓 Lições

Dividir em fases explícitas vence monolito: "IA resolve a issue inteira" assusta; 4 passos com aprovação parece natural.
Plano editável > plano fixo: deixar o dev ajustar o plan torna IA parceira, não chefe.
Onde falha: issues vagas ou bugs sutis em código legado — IA ainda precisa de contexto que nem humanos têm fácil.

⚠️

Replit — Quando o agente apagou a database de produção

IDE em nuvem • Disciplinas: 3 (Segurança), 6, 10

🎯 O incidente (2025)

Um usuário do Replit Agent pediu para "limpar dados de teste". O agente, com acesso a credenciais de DB, executou DROP DATABASE apontando para... o banco de produção. Dados de múltiplos usuários perdidos. Reembolsos, ação legal, crise de confiança.

🔍 Causa raiz (postmortem público)

Excessive agency: agente tinha permissões full-admin no DB, não least-privilege.
Sem guardrails destrutivos: operações irreversíveis (DROP, DELETE *) não exigiam confirmação explícita.
Contexto ambíguo: agente não sabia distinguir "banco de teste" vs "banco de produção" — ambos acessíveis.
Falta de dry-run: agente não mostrou o comando antes de executar.

🛡️ Mitigações pós-incidente

Operações destrutivas (DROP, TRUNCATE, DELETE sem WHERE) agora exigem confirmação explícita do usuário.
Separação rígida de ambientes: agente em sandbox vê apenas bancos taggeados como "dev".
Audit log de toda chamada de tool com alertas em tempo real.
Backups automáticos antes de qualquer migração executada por IA.

🎓 Lições gerais

OWASP LLM06 é real: "excessive agency" não é teórico — é assim que produção queima.
Reversibilidade é feature: todo agente em produção deve operar preferencialmente em operações reversíveis. Irreversíveis = humano.
Context engineering falhou: se o agente não sabe qual DB é qual, o problema é context, não permissão.

🎵

Spotify — AI DJ: TTS, recomendação e personalidade

Streaming • Disciplinas: 1, 7

💡 Produto

Feature de "DJ virtual" com voz que apresenta faixas, contextualiza a música tocando ("essa é dos primeiros álbuns da banda X"), ajusta playlist em tempo real baseado em feedback implícito (skip, replay).

🏗️ Stack (conforme engenharia pública)

OpenAI para geração de comentários sobre músicas (contexto cultural, curiosidades).
Sonantic (TTS) para voz hiper-realista — "Xavier" é um ator de voz real.
Recomendador proprietário do Spotify (anos de R&D) continua sendo o core — IA generativa é "camada de apresentação".
Todos os comentários pré-gerados offline — não é LLM ao vivo, é cache pesado (custo e latência proibitivos ao vivo).

🎓 Lições

LLM como camada, não como core: recomendação fica com sistema clássico; LLM adiciona personalidade.
Pré-computação quando possível: comentários genéricos sobre uma faixa são idênticos para milhões de usuários. Cache uma vez, reuse sempre.
Voz importa: UX de produto multiplica valor da IA — texto genérico seria esquecível.

🏦

Nubank — Categorização automática de transações

Fintech Brasil/LatAm • Disciplinas: 1, 7

🎯 Problema

100M+ clientes, bilhões de transações/mês. Categorizar cada transação ("Alimentação", "Transporte", "Saúde") é crítico para dashboards financeiros. Regras manuais (match de strings) tinham 60% de acurácia e não escalavam para novos comerciantes.

💡 Evolução em 3 fases

2019-2022: modelo proprietário (XGBoost) sobre features manuais — ~80% acurácia.
2023-2024: embeddings dos nomes de comerciantes + classificador leve — ~92%.
2024-2026: LLM + fine-tuning em dataset brasileiro para casos ambíguos ("UBER" pode ser transporte OU alimentação via Uber Eats) — ~97%.

🎓 Lições

Não comece com LLM: para problemas bem-definidos de classificação, modelos clássicos ainda são imbatíveis em custo/latência.
LLM para ambiguidade: chame o modelo caro apenas quando a solução barata falha.
Fine-tuning vence prompting quando você tem milhões de exemplos rotulados e escala massiva.

🦉

Duolingo Max — Roleplays com IA e Explain My Answer

Edtech • Disciplinas: 2, 7

💡 Features IA (parceria com OpenAI)

Roleplay: conversa aberta com "personagens" em idioma aprendido. Correção contextual.
Explain My Answer: usuário errou? IA explica por quê em linguagem natural, adaptada ao nível.
Custom difficulty: LLM gera exercícios novos baseados nos erros do usuário específico.

🏗️ Por trás das cenas

Tier premium ($30/mês) — LLM é caro, preço justifica o modelo mais capaz.
Prompts extensivamente testados — cada idioma tem variações, dialetos, formalidade.
Human-in-the-loop: time de linguistas revisa amostras regularmente para detectar drift.
Fallback a conteúdo estático quando API falha — aula não pode parar.

🎓 Lições

Tiered pricing: monetiza o custo de LLM — não empurre IA para todos de graça.
Prompts são produto: a qualidade das explicações é diferencial competitivo, não detalhe técnico.
Robustez é UX: fallback invisível quando OpenAI está fora — usuário não pode perceber.

🛍️

Shopify Sidekick — IA operando a loja pelo lojista

E-commerce SaaS • Disciplinas: 7, 8, 9

🎯 Conceito

Agente dentro do admin do Shopify que executa tarefas em linguagem natural: "crie descontos de 20% para clientes que não compram há 60 dias e envie email", "refatore a página de produto X para ser mais mobile-friendly", "gere relatório de vendas do Q1 por região".

🏗️ Arquitetura (alto nível)

LLM agent com acesso a dezenas de tools (create_discount, update_product, run_report, send_email, edit_theme).
Read-before-write: sempre consulta estado atual antes de propor mudança.
Preview obrigatório: mudanças visuais ou de preço são mostradas antes de aplicar.
Undo em tudo: toda ação é reversível em 1 clique.
Contexto de loja: o agente conhece nome da loja, nicho, histórico recente — não fala genérico.

🎓 Lições

"Undo" é a killer feature: reduz medo de experimentar com IA em ambiente crítico.
Preview > autopilot: lojistas querem ver o que vai mudar, não descobrir depois.
Domain context: agente genérico seria medíocre; agente que sabe que sua loja vende "camisetas retrô para millennials" dá sugestões cirúrgicas.

🔍

Padrões transversais observados

Analisando os 8 casos acima, emergem padrões que aparecem em praticamente todos os sucessos:

🎯

1. Escopo restrito vence ambição

Nenhum caso de sucesso tentou "resolver tudo". Cada um escolheu um problema específico e mensurável — só depois expandiu.

📏

2. Métricas antes da feature

Empresas que medem sucesso antes de lançar ganham. Ramp mediu "queries no Slack"; Klarna mediu "chats resolvidos"; Spotify mediu "tempo de sessão".

🛡️

3. Guardrails não são opcionais

Replit ensina: agentes sem guardrails destrutivos causam dano real. Toda arquitetura de sucesso tem camadas de segurança explícitas.

↩️

4. Reversibilidade como diferencial

Shopify Sidekick e Copilot Workspace têm "undo" nativo. Reduz medo de usar, acelera adoção.

🧠

5. LLM raramente é o core

Em quase todos os casos, LLM é camada sobre sistemas clássicos (recomendação, banco, pipelines). Substituir o core é antipadrão.

👤

6. Humano no loop em decisões altas

Reembolso grande, deploy prod, mudança de preço — sempre aprovação humana. Autopilot só em ações reversíveis e de baixo risco.

💎

Meta-lição: os casos de fracasso são tão valiosos quanto os de sucesso

Todo engenheiro que vai colocar IA em produção deveria ler 3 postmortems antes de escrever uma linha. O caso do Replit, apesar do estrago, é um dos mais pedagógicos de 2025 — exatamente o tipo de incidente que acontece com times que pulam as etapas de governança e segurança.