1

RAG Pipeline — do documento à resposta

🔄 Fluxo RAG Estático
INDEXAÇÃO (offline, uma vez) 📄 Documentos PDFs, .md, HTML ✂️ Chunking 500-1000 tokens 🔢 Embeddings text-embedding-3 💾 Vector Store Pinecone / Chroma / pgvector QUERY (online, cada pergunta) ❓ Pergunta do usuário 🔢 Embed mesmo modelo 🔍 Retrieval top-k chunks ✨ LLM + contexto resposta com citação
Indexação roda offline (uma vez); query é online (milissegundos). Vector store armazena embeddings para busca por similaridade.
2

Loop Agêntico — ReAct Pattern

🔁 Gather → Act → Verify → Repeat
LLM (cérebro) 1. GATHER ler, grep, buscar 2. ACT tool call, edit, exec 3. VERIFY test, assert, validate 4. DECIDE done? retry? escalate?
O loop se repete até o agente decidir que terminou — limitado por max_iterations, budget de tokens e detecção de repetição.
3

MCP — Arquitetura Cliente-Servidor

🔗 Model Context Protocol
CLIENTE MCP Claude Desktop / Cursor / IDE LLM (Claude/GPT) MCP Client Library UI (chat, IDE, terminal) JSON-RPC stdio / HTTP SERVIDOR MCP seu serviço customizado 🔧 TOOLS funções executáveis 📦 RESOURCES dados legíveis 💬 PROMPTS templates pré-definidos 🗄️ Backend: APIs • DB • File System • Custom Logic GitHub, Slack, Postgres, Google Drive, seu sistema...
Cliente MCP abstrai a integração. O mesmo servidor funciona com Claude Desktop, Cursor, IDE customizada — sem mudança de código.
4

A2A — Agent-to-Agent Protocol

🤝 Comunicação entre agentes de diferentes frameworks
🤖 AGENTE A framework: LangGraph empresa: Acme Corp especialidade: Pesquisa de mercado 🤖 AGENTE B framework: CrewAI empresa: DataWave Inc especialidade: Análise financeira PROTOCOLO A2A 📋 Task (estado, histórico) 💬 Message (text/file/json parts) 🎴 Agent Card (discovery) 📦 Artifact (output) ✅ v1.0: Signed Agent Cards Linux Foundation • 150+ organizações Microsoft, AWS, Salesforce, SAP, ServiceNow
A2A é agnóstico de framework: um agente em LangGraph fala com outro em CrewAI sem código específico.
5

C4 Model — Arquitetura em 4 zooms

🏗️ Context → Containers → Components → Code
NÍVEL 1 — CONTEXT Público: Executivos, POs NÍVEL 2 — CONTAINERS Público: Arquitetos, Tech Leads NÍVEL 3 — COMPONENTS Público: Engenheiros do time NÍVEL 4 — CODE Auto-gerado / raramente manual ex: Sistema + externos ex: Web app + DB + API ex: AuthController, UserRepo ex: classes, funções
Zoom progressivo: cada nível é subconjunto do anterior. Escolha o nível certo pelo público-alvo do documento.
6

Tokenização — como o modelo "vê" texto

🔤 Palavra ≠ Token
INGLÊS: "I love machine learning" I love machine learning = 4 tokens ≈ 4 palavras (ratio 1.0) PORTUGUÊS: "Eu amo aprendizado de máquina" Eu amo apren dizado de máqu ina = 7 tokens para 5 palavras (ratio 1.4) 💡 O mesmo texto em português custa ~40% mais tokens que em inglês
Acentos e palavras mais longas em português quebram em mais sub-tokens. Considere isso ao estimar custos de LLM.
7

Embeddings — semântica em espaço vetorial

📐 Proximidade no espaço = proximidade semântica
dimensão 1 dim 2 (visualização em 2D de vetor 1536-dim) "O gato subiu no telhado" "O felino está no topo da casa" "Meu gato está com fome" cluster: animais "Bitcoin atingiu recorde" "Ações em alta na bolsa" "Juros subiram nos EUA" cluster: mercado financeiro ❓ "Que animal subiu no telhado?"
Cada texto vira vetor de ~1536 dimensões. Textos semanticamente próximos têm menor distância no espaço. Base de RAG, busca, clustering.
8

RAG vs Fine-tuning — quando usar cada

⚖️ Árvore de decisão
Seu problema exige o quê? Conhecimento factual ✅ Use RAG Dados mudam • Cite fontes • Barato Bom para: • FAQ sobre docs internos • Busca em produtos • Compliance com citação • Dados que mudam semanas • Auditoria rastreável Comportamento/estilo ✅ Use Fine-tuning Tom • Formato • Domínio Bom para: • Consistência de formato • Jargão especializado • SLM competitivo • Tom da marca • 500+ exemplos de qualidade
Em 2026, o consenso: RAG para conhecimento, Fine-tuning para comportamento. Frequentemente usados juntos em produção.
💡
Como usar estes diagramas

Todos os diagramas são SVG inline: podem ser salvos, impressos (experimente Ctrl+P), ou reusados em apresentações (inspecione o elemento → copie o SVG). Zoom funciona sem perder qualidade. Para citar o MBA em apresentações, link para esta página.