🗞️
Como esta página foi construída

Todas as informações abaixo foram consolidadas a partir de pesquisa em abril de 2026 (benchmarks, blogs oficiais, anúncios de lançamento, papers no arXiv e análises de mercado). As fontes estão listadas ao final de cada seção. Este é um documento vivo — tecnologia de IA evolui em semanas, não em anos.

1

Modelos de Fronteira em Abril de 2026

Março de 2026 marca a primeira vez na história da IA em que três modelos mundialmente competitivos coexistem — cada um de um laboratório diferente, cada um com filosofia arquitetural distinta, e cada um com reivindicação credível de ser o melhor em algo importante. A era do "um modelo domina tudo" terminou.

Modelo Lançamento Forte em Diferencial arquitetural
Claude Opus 4.7
Anthropic
2026-04-18 Agentic coding, tarefas longas, visão de alta-resolução Self-verification embutido; CursorBench saltou de 58% → 70%
GPT-5.4
OpenAI
2026-03-11 Raciocínio estruturado, computer use (75% OSWorld) Primeiro modelo a superar baseline humano em OSWorld
Gemini 3.1 Pro
Google DeepMind
Fev/2026 Abstract reasoning (ARC-AGI-2), multimodal, GPQA 94.3% Massive context + tooling nativo; melhor em ciências
GLM-5.1
Zhipu AI (China)
2026-03-27 Coding a 94.6% de Claude Opus 4.6 Open-weights, treinado sem hardware NVIDIA

O que mudou: Claude Opus 4.7 e agentic coding

O release de Claude Opus 4.7 em 18/04/2026 representa o maior salto em agentic coding do ano:

  • CursorBench: 58% → 70% (ganho absoluto de 12 pontos percentuais).
  • SWE-bench Verified: 72.5% — uma das maiores marcas já registradas para qualquer ferramenta de IA de codificação.
  • Self-verification nativo: o modelo roda loops internos de verificação antes de emitir diffs, reduzindo erros "confiantes mas errados".
  • Long-horizon autonomy: consegue sustentar tarefas autônomas por ~5 horas (contra ~1h de modelos de 2024).
  • High-resolution vision: processa screenshots de IDEs, diagramas arquiteturais e UIs complexas com fidelidade muito maior.

A convergência do stack de coding com IA

Na primeira semana de abril de 2026, o ecossistema atingiu um marco simbólico: Cursor, Claude Code e Codex passaram a rodar juntos no mesmo workflow. Cursor lançou interface para orquestrar agentes paralelos; OpenAI publicou plugin oficial que roda dentro do Claude Code; early adopters começaram a combinar os três simultaneamente.

📊
Dado surpreendente: eficiência de tokens

Claude Code é 5,5x mais eficiente em tokens que Cursor para tarefas equivalentes — entrega o mesmo trabalho consumindo cerca de 82% menos tokens. Isso muda completamente a equação de custo para times que rodam agentic coding em escala.

Fontes: Anthropic Opus 4.7LM Council BenchmarksThe New Stack: coding stack
2

Context Engineering — a evolução do Prompt Engineering

Em 2024, a habilidade mais valorizada era criar "prompts perfeitos". Em 2026, essa habilidade virou mesa: o diferencial agora é engenharia de contexto — a disciplina de estruturar, enriquecer e entregar dinamicamente o contexto certo para cada interação com o modelo.

⚠️
O que não funciona mais em 2026

Técnicas que eram obrigatórias em 2024/2025 hoje ativamente prejudicam os resultados: prompts excessivamente longos com instruções redundantes, few-shot de 10+ exemplos (dilui atenção em modelos modernos), CoT hard-coded ("vamos pensar passo a passo" — modelos raciocinam sozinhos agora), e role-play exagerado ("você é o melhor engenheiro do mundo..."). O modelo não precisa disso.

As 4 estratégias canônicas (formalização da LangChain)

✍️
Write

Persistir contexto externamente — notas, memória de longo prazo, scratchpads. Libera o window de contexto para o que importa agora.

🎯
Select

Recuperar apenas o que é relevante via RAG, busca semântica ou filtros. Evita "despejar tudo" e contar com atenção do modelo.

🗜️
Compress

Sumarizar e compactar conversas longas, histórico, resultados intermediários. Mantém tokens dentro de orçamentos realistas.

🔀
Isolate

Separar contextos entre agentes especializados. Um "pesquisador" não precisa ver o contexto do "executor" — e vice-versa.

O framework mais robusto para prompts em 2026

A IBM consolidou, em pesquisa com milhares de equipes, que o framework mais confiável é Role + Context + Task + Format. Não é novidade conceitual, mas sua execução moderna incorpora context engineering em cada componente:

PROMPT
Template RCTF-2026
# ROLE
Você é um {role especializado e concreto}.
Público-alvo da sua resposta: {quem vai ler/consumir}.

# CONTEXT
{Contexto dinâmico — inclua APENAS o relevante para ESTA tarefa.
Se houver histórico longo, use a estratégia Compress: um sumário em
3-5 linhas do que importa.}

Variáveis pertinentes:
- {var_1}: {valor}
- {var_2}: {valor}

# TASK
{Ação única e concreta, com verbo forte.
Evite "pode me ajudar" — peça diretamente.}

Critérios de qualidade:
1. {critério verificável 1}
2. {critério verificável 2}

Restrições:
- NÃO {o que não fazer}
- NUNCA {o que é inaceitável}

# FORMAT
Retorne a resposta em {formato estruturado: JSON, markdown com seções nomeadas, tabela, etc}.
Exemplo de saída esperada:
{mostre um exemplo mínimo mas completo}
Fontes: IBM: 2026 GuideContext Engineering Guide 2026Prompting Guide
3

Agentes Long-Horizon e a nova "Lei de Moore" da IA

A organização de pesquisa METR mediu algo extraordinário: a duração máxima de tarefas que agentes autônomos conseguem completar com sucesso dobra a cada ~7 meses. Essa métrica — chamada de "task length horizon" — é a nova Lei de Moore da IA aplicada.

📈
Projeção da curva

Hoje (Abr/2026): agentes completam autonomamente tarefas que levam um humano ~5 horas.
2028: tarefas de 1 dia de trabalho humano.
2034: tarefas equivalentes a 1 ano de trabalho humano.
2037: tarefas equivalentes a 1 século de trabalho humano.
Projeção matemática — não garantia. Mas o padrão atual sustenta.

O terminal como interface para autonomia

Um dos achados mais inesperados da era agêntica é que o terminal emergiu como a interface universal para autonomia — pioneirada pelo Claude Code. Diferente de IDEs (que precisam de GUI), terminais são textuais, determinísticos, auditáveis e reproduzíveis. Isso os torna ideais para agentes.

📥
Gather context

Ler arquivos, executar grep, consultar documentação. Compor o estado mental do problema.

Take action

Editar arquivos, rodar bash, chamar skills reutilizáveis, invocar sub-agentes para tarefas paralelas.

Verify results

Rodar testes, validar no navegador, comparar com especificação. Self-verification nativa em Opus 4.7.

🔁
Repeat

Loop até critério de sucesso ou limite. Shift entre planning e execução é crítico para tarefas longas.

O problema real: degradação após 35 minutos

Apesar da euforia, a maioria dos "agentes long-horizon" em 2026 ainda são loops frágeis que simplesmente não falharam ainda. Medições independentes mostram que todo agente sofre degradação de performance após ~35 minutos de tempo humano equivalente:

  • Context pollution: histórico acumulado dilui atenção para o objetivo original.
  • Error compounding: pequenos erros em etapa N se amplificam em N+1, N+2...
  • Scope drift: o agente vai resolvendo "problemas relacionados" e se afasta do objetivo.
  • Verificação insuficiente: sucesso local ≠ sucesso global do sistema.
🛑
O contrato do autopilot total ainda não existe

"Autopilot pleno" (deixar um agente rodar por dias sem supervisão) é demo bonita e realidade frágil em 2026. Deploys em produção bem-sucedidos sempre envolvem: (1) checkpoints frequentes com aprovação humana, (2) roll-back automático em sinais de drift, (3) escopo restrito a domínios verificáveis. Fuja de fornecedores que prometem autonomia sem essas três.

Fontes: METR — Measuring AI task horizonsA new Moore's Law for AI agentsLong-Horizon Agents Are Here
4

Agentic RAG — RAG que raciocina sobre recuperação

O RAG tradicional que você estudou na disciplina 7 (recuperar chunks → injetar contexto → gerar resposta) é hoje considerado "RAG estático". A fronteira em 2026 é o Agentic RAG: um agente decide que perguntas fazer, quais ferramentas usar, quando parar — transformando recuperação de um passo fixo em um loop adaptativo.

Dimensão RAG Estático (2022-2024) Agentic RAG (2025-2026)
Workflow Fixo: embed → retrieve → augment → generate Dinâmico: o agente decide cada passo
Consultas Uma query → N chunks Query decomposta em sub-queries paralelas ou sequenciais
Fontes Um vector store Múltiplas (vector, SQL, grafo, API, web) com roteamento
Iteração Sem: um shot só Reflexão, re-query, verificação cruzada
Granularidade Chunks fixos (ex: 500 tokens) Hierárquica: busca ampla → zoom em trechos

A-RAG: hierarchical retrieval interfaces

O paper A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces (arXiv 2026) propõe expor três tools de recuperação ao agente, permitindo que ele escolha a granularidade adequada:

🔍
keyword_search(query)

Busca por termos exatos. Útil para identificadores, códigos, nomes próprios. Barato e preciso.

🧭
semantic_search(query)

Busca por similaridade de embeddings. Traz conceitos relacionados mesmo com palavras diferentes.

📖
chunk_read(doc_id, range)

Lê um trecho específico de um documento já identificado. Permite "zoom" após localização inicial.

Exemplo: Agentic RAG com OpenAI function calling

PYTHON
agentic_rag.py
"""
Agentic RAG: o modelo decide quais ferramentas de busca chamar, quantas vezes
e em que ordem — não uma pipeline fixa.
"""
from openai import OpenAI
import json

client = OpenAI()

# ── Implementações dos "tools" de busca (stubs — você pluga seu vector store) ──
def keyword_search(query: str, k: int = 5) -> list[dict]:
    """Busca por BM25/keyword — rápida, boa para termos exatos."""
    # ... conectar ao ElasticSearch / OpenSearch / Tantivy
    return [{"doc_id": "d1", "snippet": "..."}]  # stub

def semantic_search(query: str, k: int = 5) -> list[dict]:
    """Busca vetorial — boa para sinônimos e conceitos."""
    # ... conectar ao Pinecone / Chroma / pgvector
    return [{"doc_id": "d2", "snippet": "..."}]  # stub

def chunk_read(doc_id: str, start: int, end: int) -> str:
    """Lê trecho específico de um documento já identificado."""
    # ... ler do object store
    return "conteúdo do trecho..."  # stub

# ── Schema OpenAI para os tools ──
TOOLS = [
    {"type": "function", "function": {
        "name": "keyword_search",
        "description": "Busca por termos EXATOS. Use para códigos, IDs, nomes próprios.",
        "parameters": {"type": "object", "properties": {
            "query": {"type": "string"}, "k": {"type": "integer", "default": 5}
        }, "required": ["query"]}
    }},
    {"type": "function", "function": {
        "name": "semantic_search",
        "description": "Busca semântica. Use para perguntas conceituais ou quando não sabe termos exatos.",
        "parameters": {"type": "object", "properties": {
            "query": {"type": "string"}, "k": {"type": "integer", "default": 5}
        }, "required": ["query"]}
    }},
    {"type": "function", "function": {
        "name": "chunk_read",
        "description": "Lê trecho específico de um documento. Use APÓS identificar doc_id via busca.",
        "parameters": {"type": "object", "properties": {
            "doc_id": {"type": "string"}, "start": {"type": "integer"}, "end": {"type": "integer"}
        }, "required": ["doc_id", "start", "end"]}
    }}
]

TOOL_MAP = {"keyword_search": keyword_search, "semantic_search": semantic_search, "chunk_read": chunk_read}

def agentic_rag(pergunta: str, max_iter: int = 6) -> str:
    """Loop de agentic RAG: modelo decide quando parar."""
    messages = [
        {"role": "system", "content": (
            "Você é um assistente que busca em múltiplas fontes antes de responder. "
            "Regras: (1) decida entre keyword_search, semantic_search e chunk_read com base na pergunta; "
            "(2) use chunk_read APÓS identificar docs relevantes; "
            "(3) quando tiver contexto suficiente, responda SEM chamar mais tools; "
            "(4) cite doc_ids na resposta final."
        )},
        {"role": "user", "content": pergunta}
    ]

    for i in range(max_iter):
        resp = client.chat.completions.create(
            model="gpt-4o",        # ou claude via litellm
            messages=messages,
            tools=TOOLS,
            tool_choice="auto"     # o modelo decide — não forçamos
        )
        msg = resp.choices[0].message
        messages.append(msg)

        # Se o modelo não pediu tool, é resposta final
        if not msg.tool_calls:
            return msg.content

        # Executa cada tool_call solicitado
        for call in msg.tool_calls:
            fn = TOOL_MAP[call.function.name]
            args = json.loads(call.function.arguments)
            resultado = fn(**args)
            messages.append({
                "role": "tool",
                "tool_call_id": call.id,
                "content": json.dumps(resultado, default=str)
            })
        print(f"[iter {i+1}] Tools chamados: {[c.function.name for c in msg.tool_calls]}")

    return "⚠️ Atingi limite de iterações sem resposta final."

# ── Execução ──
if __name__ == "__main__":
    print(agentic_rag("Qual foi a decisão sobre mensageria no ADR-023 e por que rejeitamos Kafka?"))
▶ Passos para executar
  1. Instale: pip install openai
  2. Configure OPENAI_API_KEY no ambiente.
  3. Substitua os stubs keyword_search/semantic_search/chunk_read pelas implementações reais do seu stack.
  4. Execute: python agentic_rag.py.
  5. Observe nos logs quantas e quais tools o modelo decidiu chamar — compare com RAG estático (sempre exatamente 1 busca).
Fontes: Agentic RAG Survey (arXiv)A-RAG PaperSquirro: State of RAG 2026
5

Reasoning Models e Test-Time Compute

Um dos maiores deslocamentos de paradigma de 2024→2026 foi a separação de modelos de conversação (Claude Sonnet, GPT-4o) de modelos de raciocínio (o-series da OpenAI, thinking mode da Claude, Gemini "Deep Think"). Eles pensam antes de responder.

O que mudou conceitualmente

Em modelos tradicionais, o custo computacional é no treinamento; no inference time, o modelo gera uma resposta rapidamente. Em reasoning models, um orçamento de "thinking" (milhares a dezenas de milhares de tokens ocultos) é gasto antes de emitir a resposta visível — o modelo gera e descarta hipóteses internamente.

🏃
Modelo conversacional

Latência baixa, tokens invisíveis = 0. Ótimo para chat, tool-use simples, geração de texto. Exemplo: Claude Sonnet 4.6.

🧠
Reasoning model

Gasta "thinking tokens" antes da resposta. Melhor em matemática, lógica, planejamento multi-etapa. Exemplo: o3, Claude thinking, Gemini Deep Think.

Quando usar cada um (heurística de 2026)

  • Conversação: respostas rápidas, UX interativa, classificação, extração simples, RAG básico.
  • Reasoning: planejamento de projetos, depuração de código complexo, provas matemáticas, estratégia de negócio, análise causal.
  • Híbrido: um supervisor "conversacional" chama um reasoning como sub-agente apenas quando a tarefa precisa. Economiza custo e latência.
💡
Padrão arquitetural emergente: Planner + Executor

Cada vez mais sistemas em produção separam: um reasoning model como planejador (gera plano de alta qualidade, uma única vez) e um conversacional como executor (executa os passos do plano rapidamente). A combinação entrega qualidade de reasoning com custo e latência de conversacional.

6

MCP e A2A: atualizações críticas de 2026

MCP Roadmap 2026 — do protocolo hacker ao padrão enterprise

O Model Context Protocol saiu, em 2026, da fase "protocolo para early adopters" para maturidade enterprise. As 4 frentes do roadmap 2026:

🌐
Transport Scalability

Streamable HTTP stateless em múltiplas instâncias; sessões podem ser criadas, retomadas e migradas entre servidores transparentemente ao cliente.

📇
MCP Server Cards

URL padronizada em .well-known expõe metadados do servidor — permite discovery por crawlers, browsers e registries sem conectar.

Triggers & Events

Working Group dedicado. Permite "unsolicited tasks" — o servidor dispara ações sem esperar request do cliente. Crítico para agentes em produção.

🏢
Enterprise Readiness

Audit trails, SSO-integrated auth, gateway patterns, configuration portability. O "check-list" para adoção em Fortune 500.

A2A: agora sob guarda da Linux Foundation

O protocolo Agent-to-Agent do Google (introduzido em abril/2025) foi doado à Linux Foundation em junho de 2025. Em 2026, os marcos-chave:

  • Adoção massiva: 150+ organizações. Deployments de produção em Microsoft, AWS, Salesforce, SAP, ServiceNow.
  • A2A v1.0: estável, com Signed Agent Cards — cada agent card agora tem assinatura criptográfica verificável pelo domínio emissor. Essencial para trust entre agentes de organizações distintas.
  • AP2 (Agent Payment Protocol): extensão formal para transações econômicas entre agentes. Agentes pagam uns aos outros por serviços sem humano no meio.
  • Modalidade-agnóstico: já suporta áudio e vídeo streaming, não apenas texto/JSON.
🔗
MCP e A2A são complementares, não competidores

Entenda a divisão de trabalho: MCP conecta agente ↔ ferramenta (vertical, dentro de um sistema). A2A conecta agente ↔ agente (horizontal, entre sistemas). Um agente moderno típico fala MCP para dentro (acessar DBs, APIs, file systems) e A2A para fora (colaborar com agentes de outros vendors). Domine ambos.

Fontes: MCP 2026 RoadmapA2A ProtocolA2A 150+ organizações
7

AI SRE e Agentes de DevOps em produção

Em abril de 2026, o AWS DevOps Agent foi promovido de Preview para GA. É um dos primeiros agentes operacionais da AWS que investigam incidentes autonomamente, correlacionando telemetria, código e runbooks.

Capacidades reais em produção (Abr/2026)

1️⃣
Detecção automática

Agente monitora CloudWatch/Prometheus/Grafana, identifica anomalias sem necessidade de thresholds manuais.

2️⃣
Investigação autônoma

Correlaciona métricas, logs, traces e dependências. Incident.io reporta 90%+ de acurácia em investigação autônoma.

3️⃣
Hipótese de causa raiz

Integra com repositório de código e histórico de deploys. Sugere "deploy X do commit Y introduziu a regressão".

4️⃣
Remediação (com guardrails)

Para mudanças simples (rollback, scale-up), pode executar autonomamente. Para complexas, cria PR com fix proposto para humano aprovar.

📉
Impacto mensurado

Times que adotaram AI SRE em produção reportam redução de 40-70% no MTTR (Mean Time To Recovery). O mercado AIOps projetado para saltar de US$ 14,6B (2025) para US$ 36B (2030).

Diferença crítica: Copilot vs Agente vs Autopilot

Modo Quem decide? Quem executa? Adequado para
Copilot Humano Humano (com sugestão da IA) Decisões críticas, ambientes regulados
Agente supervisionado IA propõe, humano aprova IA (após aprovação) Ambiente produção típico — sweet spot atual
Autopilot (restrito) IA IA (dentro de guardrails) Ações de baixo risco: scale, restart, rollback
Autopilot pleno IA IA (sem supervisão) Raro em produção; demos e sandboxes
Fontes: AWS DevOps Agent GA5 AI SRE ToolsTop 14 AI SRE Tools 2026
8

Segurança: OWASP LLM Top 10 (edição 2026)

A OWASP Foundation publicou a atualização 2026 do Top 10 para LLM Applications. Spoiler: prompt injection permanece em #1 — apareceu em 73% dos deployments de IA em produção. A má notícia é que guardrails de vendor mitigam, mas não eliminam o risco.

Os 10 riscos (edição 2026)

💉
LLM01: Prompt Injection

Manipulação do modelo via input do usuário. Direto (user pede) ou indireto (via documento/web que o agente lê).

📤
LLM02: Sensitive Info Disclosure

Vazamento de dados pessoais, segredos, credenciais via respostas do modelo ou logs.

⛓️
LLM03: Supply Chain

Modelos, datasets e embeddings de terceiros comprometidos ou envenenados.

🧪
LLM04: Data/Model Poisoning

Dados de treino ou fine-tuning contaminados deliberadamente para alterar comportamento.

🔓
LLM05: Improper Output Handling

Respostas do LLM consumidas sem sanitização podem causar XSS, SSRF, RCE em sistemas downstream.

🎪
LLM06: Excessive Agency

Agente com permissões além do necessário; uma injection consegue fazer mais estrago (apagar DB, gastar dinheiro).

⚙️
LLM07: System Prompt Leakage

System prompt é visível via ataques e revela lógica de negócio, guardrails ou credenciais embutidas.

🎯
LLM08: Vector/Embedding Weaknesses

Embeddings inversíveis vazam dados; envenenamento de vector DB manipula retrieval.

📰
LLM09: Misinformation

Alucinação apresentada com confiança. Em domínios críticos (saúde, finanças), pode gerar dano real.

💸
LLM10: Unbounded Consumption

Modelo usado como vetor de DoS ou abuso financeiro (exhaust de quota/orçamento via prompts maliciosos).

Abordagem defense-in-depth (a única que funciona)

O consenso de 2026 é claro: assuma que prompt injection eventualmente vai ter sucesso. Projete para conter o impacto, não apenas prevenir a entrada:

  • Least privilege: agente só acessa o que precisa para a tarefa. Prefira tokens de sessão limitados a credenciais admin.
  • Output validation: sanitize tudo que sai do LLM antes de executar ou renderizar.
  • Separation of instructions and data: system prompt fica em canal protegido; user input em canal "untrusted".
  • Logging e auditoria: toda chamada, tool, permissão usada — com retention adequada para forensics.
  • Detecção: use Rebuff (heurística + classificador LLM + vector DB de ataques conhecidos) ou NVIDIA NeMo Guardrails (linguagem Colang para regras).
Fontes: OWASP LLM01OWASP LLM Top 10 2026Prompt Injection in 2026
9

Evaluations e LLMOps — o que separa amadores de profissionais

Em 2026, a diferença mais evidente entre times que colocam IA em produção e times que ficam em eterno PoC é evaluations. Sistemas não-determinísticos exigem medição contínua; sem evals, você não sabe se está melhorando ou piorando.

Os 4 níveis de evaluation (maturidade)

👀
Nível 0: Eyeballing (amador)

"Testei com 5 perguntas, ficou bom." — estado inicial; ok para PoC, não para produção.

📋
Nível 1: Dataset + métricas simples

Conjunto curado de 50-200 casos. Métricas: exact match, F1, BLEU. Rodado antes de cada release. Base mínima de produção.

⚖️
Nível 2: LLM-as-Judge + rubrics

Segundo LLM avalia respostas em critérios subjetivos (relevância, completude, segurança). Escala onde exact-match falha.

🔬
Nível 3: Online evals + human feedback

Evals contínuas em produção (sample de tráfego real) + ciclo de feedback humano (thumbs up/down, correções). Ouro padrão.

Ferramentas essenciais em 2026

🧭
LangSmith

Tracing, datasets, evals e A/B tests. Padrão de facto para times LangChain/LangGraph.

📊
Braintrust

Eval platform agnóstica de framework. Forte em playgrounds, rubrics e datasets versionados.

🔍
Arize / Phoenix

Observabilidade especializada em LLM. Detecta drift, hallucinations, regressões em produção.

📐
Promptfoo

Open-source para testes de prompts em CI. Define evals como YAML, integra com GitHub Actions.

🎯
Regra prática: evals antes de otimização

Nunca otimize um prompt, troque de modelo ou adicione fine-tuning sem uma suite de evals rodando. Caso contrário, você está voando cego — pode melhorar em um caso visível e piorar em 10 invisíveis. Regra de ouro: defina evals antes de fazer qualquer mudança, não depois.

10

Small Language Models e o renascimento do Fine-tuning

Enquanto Claude e GPT disputam o topo, um movimento paralelo está silenciosamente ganhando tração: Small Language Models (SLMs) de 1-8 bilhões de parâmetros, ajustados para tarefas específicas, rodando em CPUs/GPUs modestas, com custo 100-1000x menor.

Por que SLMs voltaram em 2026

  • Economia: em aplicações com milhões de chamadas/dia, o custo de LLMs frontier vira proibitivo. SLM fine-tuned para a tarefa resolve 90% dos casos a 5% do custo.
  • Latência: SLM local responde em 50-200ms. GPT-4o+thinking pode levar 10-30s. UX ruim.
  • Privacidade: dados sensíveis (saúde, jurídico, defesa) não podem sair da rede. SLM on-premise é a única opção.
  • Hardware acessível: roda em laptop (Llama 3.2 3B, Phi-3, Gemma 2), em edge (Jetson), e até em browser (via WebGPU).

O padrão híbrido: Router + SLMs + LLM frontier

PYTHON
hybrid_router.py — padrão recomendado
"""
Arquitetura híbrida: router classifica a tarefa e escolhe o modelo certo.
- Tarefas simples e de alto volume → SLM local/barato
- Tarefas complexas e raras       → LLM frontier
Economia típica: 70-90% de redução de custo vs. usar só frontier.
"""
from openai import OpenAI
import ollama  # para SLMs locais via Ollama

client = OpenAI()

# ── Classificador de complexidade (um LLM pequeno e rápido) ──
def classificar(pergunta: str) -> str:
    """Retorna: 'simple', 'moderate', 'complex'."""
    resp = client.chat.completions.create(
        model="gpt-4o-mini",  # barato, classificação é fácil
        temperature=0,
        messages=[
            {"role": "system", "content": (
                "Classifique a complexidade da pergunta. Retorne APENAS uma palavra: "
                "'simple' (factual, extração), 'moderate' (explicação, resumo), "
                "'complex' (raciocínio multi-step, planejamento, código não-trivial)."
            )},
            {"role": "user", "content": pergunta}
        ]
    )
    return resp.choices[0].message.content.strip().lower()

# ── Roteamento ──
def responder(pergunta: str) -> tuple[str, str]:
    """Retorna (resposta, modelo_usado)."""
    complexidade = classificar(pergunta)

    if complexidade == "simple":
        # SLM local — Ollama rodando Llama 3.2 3B
        r = ollama.chat(model="llama3.2:3b", messages=[{"role":"user","content":pergunta}])
        return r["message"]["content"], "llama3.2-3b (local)"

    elif complexidade == "moderate":
        # Mid-tier: gpt-4o-mini ou Claude Haiku
        r = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role":"user","content":pergunta}]
        )
        return r.choices[0].message.content, "gpt-4o-mini"

    else:  # complex
        # Frontier: gpt-4o ou Claude Opus
        r = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role":"user","content":pergunta}]
        )
        return r.choices[0].message.content, "gpt-4o"

# ── Teste ──
if __name__ == "__main__":
    perguntas = [
        "Qual a capital da Austrália?",                                        # simple
        "Resuma em 3 bullets os prós e contras de microserviços.",             # moderate
        "Projete a arquitetura de um sistema de pagamentos para 10M tx/dia.",  # complex
    ]
    for p in perguntas:
        resposta, modelo = responder(p)
        print(f"\n❓ {p}\n🤖 [{modelo}]: {resposta[:200]}...")
▶ Passos para executar
  1. Instale Ollama: ollama.com/download
  2. Baixe um SLM: ollama pull llama3.2:3b
  3. Instale as libs Python: pip install openai ollama
  4. Configure OPENAI_API_KEY.
  5. Execute: python hybrid_router.py. Observe como cada pergunta vai para um modelo diferente.
  6. Meça custo: compare o total com uma versão que usa gpt-4o para todas as perguntas.

Fine-tuning voltou à moda (mas diferente)

Em 2023, fine-tuning era a bala de prata. Em 2024, RAG matou fine-tuning ("apenas inject context"). Em 2026, a síntese: RAG para conhecimento, fine-tuning para comportamento. Use fine-tuning quando:

  • Você quer consistência de formato/tom que prompts não garantem.
  • Domínio tem jargão especializado que embeddings genéricos não capturam bem.
  • Você precisa de um SLM que compete com LLM frontier em uma tarefa específica.
  • Você tem 500-5000 exemplos de alta qualidade do output desejado.
11

Governança, Compliance e EU AI Act

A era da "IA sem rédeas" terminou oficialmente em 2026. O EU AI Act está em vigor para sistemas de alto risco; China tem regras estritas para IA generativa pública; EUA avançam em regulação setorial (finanças, saúde). Ignorar compliance hoje é ignorar responsabilidade legal.

Classificação de risco no EU AI Act

Categoria Exemplo Obrigações
Proibido Social scoring governamental; manipulação subliminal Uso proibido no EU
Alto risco Recrutamento, crédito, saúde, educação, justiça Documentação, evals, transparência, audit trails, supervisão humana
Risco limitado Chatbots, conteúdo gerado Disclosure obrigatório ("você está falando com IA")
Risco mínimo Filtros de spam, jogos Sem obrigações específicas

O que significa para desenvolvedores

  • Documentação obrigatória — para sistemas de alto risco, model cards, data sheets, limitações conhecidas.
  • Audit trails — logar decisões do modelo, entradas, saídas, versionamento do modelo usado.
  • Human in the loop — decisões de alto impacto precisam de supervisão humana verificável.
  • Transparência em conteúdo gerado — watermarking e labeling de conteúdo IA (deepfakes regulamentados).
  • Direito à explicação — usuários podem exigir explicação sobre decisões que os afetam.
⚖️
Multas não são simbólicas

Violações do EU AI Act podem chegar a €35 milhões ou 7% do faturamento global — pior que GDPR. Mesmo que sua empresa não seja europeia, se atende usuários da EU, as regras se aplicam. Trate governança como feature essencial, não como burocracia.

12

Panorama atualizado de frameworks de agentes

A disciplina 8 cobriu ADK, LangChain e conceitos gerais. Em 2026, o mercado se consolidou em três frameworks de agentes dominantes — cada um com filosofia distinta. A escolha não é religiosa: é baseada em caso de uso.

Framework Filosofia Pronto pra produção Curva de aprendizado Use quando...
LangGraph Graph-based, estado explícito ⭐⭐⭐⭐⭐ Alta (LangSmith, checkpointing, streaming) Alta (mais complexa) Precisa controle fino, lógica condicional complexa, HITL, observability sólida
CrewAI Role-based (agentes como pessoas) ⭐⭐⭐ Média (checkpointing limitado) Baixa (20 linhas para começar) Prototipagem rápida, workflows de equipe, tarefas paralelas por papel
AutoGen / AG2 Conversacional (group-chat) ⭐⭐⭐ Média (em evolução após rewrite) Média Debate, consensus-building, diálogos sequenciais entre múltiplos agentes

Trade-off de custo: cuidado com AutoGen em volume

Um ponto pouco discutido: o GroupChat do AutoGen consome tokens exponencialmente. Cada turno envolve uma chamada LLM completa com histórico acumulado. Um debate de 4 agentes por 5 rodadas = 20 chamadas mínimas, cada uma maior que a anterior. Para tarefas de alto volume ou tempo real, AutoGen sai caro.

🎯
Padrão de migração observado

Times que começam com CrewAI para prototipar frequentemente migram para LangGraph quando precisam de state management de produção, checkpointing e observabilidade. Se você sabe que vai escalar, comece direto em LangGraph. Se está explorando, CrewAI é mais rápido para validar a ideia.

Fontes: DataCamp ComparisonWhich Agent Framework 2026
13

O que estudar agora — roadmap pessoal 2026

Você não pode (e nem deve) estudar tudo. Baseado na conjuntura de abril/2026, priorize os seguintes temas em ordem de alavancagem para a carreira — do maior ROI para o menor.

🥇
Prioridade máxima: Context Engineering + Agentic RAG

Essas duas skills separam quem "usa ChatGPT" de quem constrói sistemas de IA em produção. São a base para tudo mais. 80% do valor em 20% do esforço.

🥈
Alta prioridade: Evaluations e LLMOps

Quase ninguém domina isso, mas é o gargalo de 90% dos projetos. Quem sabe evals é senior por definição em 2026.

🥉
Prioridade média: MCP + A2A em produção

Protocolos de comunicação serão infraestrutura invisível em 2027. Aprenda agora — em 12 meses será commodity.

4️⃣
Prioridade média: AI SRE e observability de agentes

Operar sistemas agênticos em produção é skill nova. Poucos sabem. Mercado paga caro.

5️⃣
Explore conforme o caso: SLMs, Fine-tuning, Reasoning Models

Não é skill "obrigatória", mas abre portas em nichos específicos (on-prem, custo, domínios regulados).

6️⃣
Mantenha-se atualizado: Segurança LLM + Governança

Não precisa ser especialista, mas precisa saber o básico de OWASP LLM + EU AI Act. É higiene profissional mínima.

Fontes semanais recomendadas

📰
Papers com derrubada rápida

AK (@_akhaliq) no X, Simon Willison's Blog, Latent Space newsletter, Import AI por Jack Clark.

🛠️
Atualizações de ferramentas

Changelogs da Anthropic, OpenAI, Cursor, LangChain. Assine os feeds — novidades mensais.

📚
Papers fundacionais

Leia 1 paper por semana do arXiv cs.CL. Não precisa entender tudo — pegue o padrão mental.

🎙️
Podcasts

Latent Space, Practical AI, No Priors, The TWIML AI Podcast. Ótimos para passivos — treino, trânsito.

💻
Código em open-source

Leia código de Claude Code, Aider, OpenHands, LangGraph. O melhor aprendizado é ver como engenheiros sérios resolvem o problema.

🧪
Prática semanal

Construa algo pequeno toda semana. Não importa o tamanho. A capacidade cresce por exposição repetida, não por leitura.

🎓
Mensagem final do programa

Você completou 11 disciplinas core + este material extra. Isso cobre o estado da arte em Abril de 2026. Em 12 meses, metade deste conteúdo estará desatualizado — e você terá aprendido coisas que não existem ainda. O valor do que você aprendeu não é o conteúdo: é a capacidade de aprender continuamente em um campo que se reinventa a cada trimestre. Use este site como ponto de partida, não como destino. Boa jornada. 🚀