Extras: O Estado da Arte em Abril de 2026
Enquanto você concluía as 11 disciplinas, o mundo da IA não parou. Esta seção consolida as novidades mais relevantes dos últimos meses — modelos recém-lançados, protocolos que amadureceram, técnicas que substituíram padrões antigos e tópicos que o MBA core não cobre, mas que são essenciais para profissionais atuando na fronteira em 2026.
- 1Modelos de Fronteira em Abril 2026
- 2Context Engineering — a evolução do Prompt Engineering
- 3Agentes Long-Horizon e a nova "Lei de Moore"
- 4Agentic RAG — RAG que raciocina
- 5Reasoning Models e Test-Time Compute
- 6MCP e A2A: atualizações de 2026
- 7AI SRE e Agentes de DevOps em produção
- 8Segurança: OWASP LLM Top 10 (edição 2026)
- 9Evaluations e LLMOps — o que separa amadores de profissionais
- 10Small Language Models e o renascimento do Fine-tuning
- 11Governança, Compliance e EU AI Act
- 12Panorama atualizado de frameworks de agentes
- 13O que estudar agora — roadmap pessoal 2026
Todas as informações abaixo foram consolidadas a partir de pesquisa em abril de 2026 (benchmarks, blogs oficiais, anúncios de lançamento, papers no arXiv e análises de mercado). As fontes estão listadas ao final de cada seção. Este é um documento vivo — tecnologia de IA evolui em semanas, não em anos.
Modelos de Fronteira em Abril de 2026
Março de 2026 marca a primeira vez na história da IA em que três modelos mundialmente competitivos coexistem — cada um de um laboratório diferente, cada um com filosofia arquitetural distinta, e cada um com reivindicação credível de ser o melhor em algo importante. A era do "um modelo domina tudo" terminou.
| Modelo | Lançamento | Forte em | Diferencial arquitetural |
|---|---|---|---|
| Claude Opus 4.7 Anthropic |
2026-04-18 | Agentic coding, tarefas longas, visão de alta-resolução | Self-verification embutido; CursorBench saltou de 58% → 70% |
| GPT-5.4 OpenAI |
2026-03-11 | Raciocínio estruturado, computer use (75% OSWorld) | Primeiro modelo a superar baseline humano em OSWorld |
| Gemini 3.1 Pro Google DeepMind |
Fev/2026 | Abstract reasoning (ARC-AGI-2), multimodal, GPQA 94.3% | Massive context + tooling nativo; melhor em ciências |
| GLM-5.1 Zhipu AI (China) |
2026-03-27 | Coding a 94.6% de Claude Opus 4.6 | Open-weights, treinado sem hardware NVIDIA |
O que mudou: Claude Opus 4.7 e agentic coding
O release de Claude Opus 4.7 em 18/04/2026 representa o maior salto em agentic coding do ano:
- CursorBench: 58% → 70% (ganho absoluto de 12 pontos percentuais).
- SWE-bench Verified: 72.5% — uma das maiores marcas já registradas para qualquer ferramenta de IA de codificação.
- Self-verification nativo: o modelo roda loops internos de verificação antes de emitir diffs, reduzindo erros "confiantes mas errados".
- Long-horizon autonomy: consegue sustentar tarefas autônomas por ~5 horas (contra ~1h de modelos de 2024).
- High-resolution vision: processa screenshots de IDEs, diagramas arquiteturais e UIs complexas com fidelidade muito maior.
A convergência do stack de coding com IA
Na primeira semana de abril de 2026, o ecossistema atingiu um marco simbólico: Cursor, Claude Code e Codex passaram a rodar juntos no mesmo workflow. Cursor lançou interface para orquestrar agentes paralelos; OpenAI publicou plugin oficial que roda dentro do Claude Code; early adopters começaram a combinar os três simultaneamente.
Claude Code é 5,5x mais eficiente em tokens que Cursor para tarefas equivalentes — entrega o mesmo trabalho consumindo cerca de 82% menos tokens. Isso muda completamente a equação de custo para times que rodam agentic coding em escala.
Context Engineering — a evolução do Prompt Engineering
Em 2024, a habilidade mais valorizada era criar "prompts perfeitos". Em 2026, essa habilidade virou mesa: o diferencial agora é engenharia de contexto — a disciplina de estruturar, enriquecer e entregar dinamicamente o contexto certo para cada interação com o modelo.
Técnicas que eram obrigatórias em 2024/2025 hoje ativamente prejudicam os resultados: prompts excessivamente longos com instruções redundantes, few-shot de 10+ exemplos (dilui atenção em modelos modernos), CoT hard-coded ("vamos pensar passo a passo" — modelos raciocinam sozinhos agora), e role-play exagerado ("você é o melhor engenheiro do mundo..."). O modelo não precisa disso.
As 4 estratégias canônicas (formalização da LangChain)
Persistir contexto externamente — notas, memória de longo prazo, scratchpads. Libera o window de contexto para o que importa agora.
Recuperar apenas o que é relevante via RAG, busca semântica ou filtros. Evita "despejar tudo" e contar com atenção do modelo.
Sumarizar e compactar conversas longas, histórico, resultados intermediários. Mantém tokens dentro de orçamentos realistas.
Separar contextos entre agentes especializados. Um "pesquisador" não precisa ver o contexto do "executor" — e vice-versa.
O framework mais robusto para prompts em 2026
A IBM consolidou, em pesquisa com milhares de equipes, que o framework mais confiável é Role + Context + Task + Format. Não é novidade conceitual, mas sua execução moderna incorpora context engineering em cada componente:
# ROLE
Você é um {role especializado e concreto}.
Público-alvo da sua resposta: {quem vai ler/consumir}.
# CONTEXT
{Contexto dinâmico — inclua APENAS o relevante para ESTA tarefa.
Se houver histórico longo, use a estratégia Compress: um sumário em
3-5 linhas do que importa.}
Variáveis pertinentes:
- {var_1}: {valor}
- {var_2}: {valor}
# TASK
{Ação única e concreta, com verbo forte.
Evite "pode me ajudar" — peça diretamente.}
Critérios de qualidade:
1. {critério verificável 1}
2. {critério verificável 2}
Restrições:
- NÃO {o que não fazer}
- NUNCA {o que é inaceitável}
# FORMAT
Retorne a resposta em {formato estruturado: JSON, markdown com seções nomeadas, tabela, etc}.
Exemplo de saída esperada:
{mostre um exemplo mínimo mas completo}
Agentes Long-Horizon e a nova "Lei de Moore" da IA
A organização de pesquisa METR mediu algo extraordinário: a duração máxima de tarefas que agentes autônomos conseguem completar com sucesso dobra a cada ~7 meses. Essa métrica — chamada de "task length horizon" — é a nova Lei de Moore da IA aplicada.
Hoje (Abr/2026): agentes completam autonomamente tarefas que levam um humano ~5 horas.
2028: tarefas de 1 dia de trabalho humano.
2034: tarefas equivalentes a 1 ano de trabalho humano.
2037: tarefas equivalentes a 1 século de trabalho humano.
Projeção matemática — não garantia. Mas o padrão atual sustenta.
O terminal como interface para autonomia
Um dos achados mais inesperados da era agêntica é que o terminal emergiu como a interface universal para autonomia — pioneirada pelo Claude Code. Diferente de IDEs (que precisam de GUI), terminais são textuais, determinísticos, auditáveis e reproduzíveis. Isso os torna ideais para agentes.
Ler arquivos, executar grep, consultar documentação. Compor o estado mental do problema.
Editar arquivos, rodar bash, chamar skills reutilizáveis, invocar sub-agentes para tarefas paralelas.
Rodar testes, validar no navegador, comparar com especificação. Self-verification nativa em Opus 4.7.
Loop até critério de sucesso ou limite. Shift entre planning e execução é crítico para tarefas longas.
O problema real: degradação após 35 minutos
Apesar da euforia, a maioria dos "agentes long-horizon" em 2026 ainda são loops frágeis que simplesmente não falharam ainda. Medições independentes mostram que todo agente sofre degradação de performance após ~35 minutos de tempo humano equivalente:
- Context pollution: histórico acumulado dilui atenção para o objetivo original.
- Error compounding: pequenos erros em etapa N se amplificam em N+1, N+2...
- Scope drift: o agente vai resolvendo "problemas relacionados" e se afasta do objetivo.
- Verificação insuficiente: sucesso local ≠ sucesso global do sistema.
"Autopilot pleno" (deixar um agente rodar por dias sem supervisão) é demo bonita e realidade frágil em 2026. Deploys em produção bem-sucedidos sempre envolvem: (1) checkpoints frequentes com aprovação humana, (2) roll-back automático em sinais de drift, (3) escopo restrito a domínios verificáveis. Fuja de fornecedores que prometem autonomia sem essas três.
Agentic RAG — RAG que raciocina sobre recuperação
O RAG tradicional que você estudou na disciplina 7 (recuperar chunks → injetar contexto → gerar resposta) é hoje considerado "RAG estático". A fronteira em 2026 é o Agentic RAG: um agente decide que perguntas fazer, quais ferramentas usar, quando parar — transformando recuperação de um passo fixo em um loop adaptativo.
| Dimensão | RAG Estático (2022-2024) | Agentic RAG (2025-2026) |
|---|---|---|
| Workflow | Fixo: embed → retrieve → augment → generate | Dinâmico: o agente decide cada passo |
| Consultas | Uma query → N chunks | Query decomposta em sub-queries paralelas ou sequenciais |
| Fontes | Um vector store | Múltiplas (vector, SQL, grafo, API, web) com roteamento |
| Iteração | Sem: um shot só | Reflexão, re-query, verificação cruzada |
| Granularidade | Chunks fixos (ex: 500 tokens) | Hierárquica: busca ampla → zoom em trechos |
A-RAG: hierarchical retrieval interfaces
O paper A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces (arXiv 2026) propõe expor três tools de recuperação ao agente, permitindo que ele escolha a granularidade adequada:
Busca por termos exatos. Útil para identificadores, códigos, nomes próprios. Barato e preciso.
Busca por similaridade de embeddings. Traz conceitos relacionados mesmo com palavras diferentes.
Lê um trecho específico de um documento já identificado. Permite "zoom" após localização inicial.
Exemplo: Agentic RAG com OpenAI function calling
"""
Agentic RAG: o modelo decide quais ferramentas de busca chamar, quantas vezes
e em que ordem — não uma pipeline fixa.
"""
from openai import OpenAI
import json
client = OpenAI()
# ── Implementações dos "tools" de busca (stubs — você pluga seu vector store) ──
def keyword_search(query: str, k: int = 5) -> list[dict]:
"""Busca por BM25/keyword — rápida, boa para termos exatos."""
# ... conectar ao ElasticSearch / OpenSearch / Tantivy
return [{"doc_id": "d1", "snippet": "..."}] # stub
def semantic_search(query: str, k: int = 5) -> list[dict]:
"""Busca vetorial — boa para sinônimos e conceitos."""
# ... conectar ao Pinecone / Chroma / pgvector
return [{"doc_id": "d2", "snippet": "..."}] # stub
def chunk_read(doc_id: str, start: int, end: int) -> str:
"""Lê trecho específico de um documento já identificado."""
# ... ler do object store
return "conteúdo do trecho..." # stub
# ── Schema OpenAI para os tools ──
TOOLS = [
{"type": "function", "function": {
"name": "keyword_search",
"description": "Busca por termos EXATOS. Use para códigos, IDs, nomes próprios.",
"parameters": {"type": "object", "properties": {
"query": {"type": "string"}, "k": {"type": "integer", "default": 5}
}, "required": ["query"]}
}},
{"type": "function", "function": {
"name": "semantic_search",
"description": "Busca semântica. Use para perguntas conceituais ou quando não sabe termos exatos.",
"parameters": {"type": "object", "properties": {
"query": {"type": "string"}, "k": {"type": "integer", "default": 5}
}, "required": ["query"]}
}},
{"type": "function", "function": {
"name": "chunk_read",
"description": "Lê trecho específico de um documento. Use APÓS identificar doc_id via busca.",
"parameters": {"type": "object", "properties": {
"doc_id": {"type": "string"}, "start": {"type": "integer"}, "end": {"type": "integer"}
}, "required": ["doc_id", "start", "end"]}
}}
]
TOOL_MAP = {"keyword_search": keyword_search, "semantic_search": semantic_search, "chunk_read": chunk_read}
def agentic_rag(pergunta: str, max_iter: int = 6) -> str:
"""Loop de agentic RAG: modelo decide quando parar."""
messages = [
{"role": "system", "content": (
"Você é um assistente que busca em múltiplas fontes antes de responder. "
"Regras: (1) decida entre keyword_search, semantic_search e chunk_read com base na pergunta; "
"(2) use chunk_read APÓS identificar docs relevantes; "
"(3) quando tiver contexto suficiente, responda SEM chamar mais tools; "
"(4) cite doc_ids na resposta final."
)},
{"role": "user", "content": pergunta}
]
for i in range(max_iter):
resp = client.chat.completions.create(
model="gpt-4o", # ou claude via litellm
messages=messages,
tools=TOOLS,
tool_choice="auto" # o modelo decide — não forçamos
)
msg = resp.choices[0].message
messages.append(msg)
# Se o modelo não pediu tool, é resposta final
if not msg.tool_calls:
return msg.content
# Executa cada tool_call solicitado
for call in msg.tool_calls:
fn = TOOL_MAP[call.function.name]
args = json.loads(call.function.arguments)
resultado = fn(**args)
messages.append({
"role": "tool",
"tool_call_id": call.id,
"content": json.dumps(resultado, default=str)
})
print(f"[iter {i+1}] Tools chamados: {[c.function.name for c in msg.tool_calls]}")
return "⚠️ Atingi limite de iterações sem resposta final."
# ── Execução ──
if __name__ == "__main__":
print(agentic_rag("Qual foi a decisão sobre mensageria no ADR-023 e por que rejeitamos Kafka?"))
- Instale:
pip install openai - Configure
OPENAI_API_KEYno ambiente. - Substitua os stubs
keyword_search/semantic_search/chunk_readpelas implementações reais do seu stack. - Execute:
python agentic_rag.py. - Observe nos logs quantas e quais tools o modelo decidiu chamar — compare com RAG estático (sempre exatamente 1 busca).
Reasoning Models e Test-Time Compute
Um dos maiores deslocamentos de paradigma de 2024→2026 foi a separação de modelos de conversação (Claude Sonnet, GPT-4o) de modelos de raciocínio (o-series da OpenAI, thinking mode da Claude, Gemini "Deep Think"). Eles pensam antes de responder.
O que mudou conceitualmente
Em modelos tradicionais, o custo computacional é no treinamento; no inference time, o modelo gera uma resposta rapidamente. Em reasoning models, um orçamento de "thinking" (milhares a dezenas de milhares de tokens ocultos) é gasto antes de emitir a resposta visível — o modelo gera e descarta hipóteses internamente.
Latência baixa, tokens invisíveis = 0. Ótimo para chat, tool-use simples, geração de texto. Exemplo: Claude Sonnet 4.6.
Gasta "thinking tokens" antes da resposta. Melhor em matemática, lógica, planejamento multi-etapa. Exemplo: o3, Claude thinking, Gemini Deep Think.
Quando usar cada um (heurística de 2026)
- Conversação: respostas rápidas, UX interativa, classificação, extração simples, RAG básico.
- Reasoning: planejamento de projetos, depuração de código complexo, provas matemáticas, estratégia de negócio, análise causal.
- Híbrido: um supervisor "conversacional" chama um reasoning como sub-agente apenas quando a tarefa precisa. Economiza custo e latência.
Cada vez mais sistemas em produção separam: um reasoning model como planejador (gera plano de alta qualidade, uma única vez) e um conversacional como executor (executa os passos do plano rapidamente). A combinação entrega qualidade de reasoning com custo e latência de conversacional.
MCP e A2A: atualizações críticas de 2026
MCP Roadmap 2026 — do protocolo hacker ao padrão enterprise
O Model Context Protocol saiu, em 2026, da fase "protocolo para early adopters" para maturidade enterprise. As 4 frentes do roadmap 2026:
Streamable HTTP stateless em múltiplas instâncias; sessões podem ser criadas, retomadas e migradas entre servidores transparentemente ao cliente.
URL padronizada em .well-known expõe metadados do servidor — permite discovery por crawlers, browsers e registries sem conectar.
Working Group dedicado. Permite "unsolicited tasks" — o servidor dispara ações sem esperar request do cliente. Crítico para agentes em produção.
Audit trails, SSO-integrated auth, gateway patterns, configuration portability. O "check-list" para adoção em Fortune 500.
A2A: agora sob guarda da Linux Foundation
O protocolo Agent-to-Agent do Google (introduzido em abril/2025) foi doado à Linux Foundation em junho de 2025. Em 2026, os marcos-chave:
- Adoção massiva: 150+ organizações. Deployments de produção em Microsoft, AWS, Salesforce, SAP, ServiceNow.
- A2A v1.0: estável, com Signed Agent Cards — cada agent card agora tem assinatura criptográfica verificável pelo domínio emissor. Essencial para trust entre agentes de organizações distintas.
- AP2 (Agent Payment Protocol): extensão formal para transações econômicas entre agentes. Agentes pagam uns aos outros por serviços sem humano no meio.
- Modalidade-agnóstico: já suporta áudio e vídeo streaming, não apenas texto/JSON.
Entenda a divisão de trabalho: MCP conecta agente ↔ ferramenta (vertical, dentro de um sistema). A2A conecta agente ↔ agente (horizontal, entre sistemas). Um agente moderno típico fala MCP para dentro (acessar DBs, APIs, file systems) e A2A para fora (colaborar com agentes de outros vendors). Domine ambos.
AI SRE e Agentes de DevOps em produção
Em abril de 2026, o AWS DevOps Agent foi promovido de Preview para GA. É um dos primeiros agentes operacionais da AWS que investigam incidentes autonomamente, correlacionando telemetria, código e runbooks.
Capacidades reais em produção (Abr/2026)
Agente monitora CloudWatch/Prometheus/Grafana, identifica anomalias sem necessidade de thresholds manuais.
Correlaciona métricas, logs, traces e dependências. Incident.io reporta 90%+ de acurácia em investigação autônoma.
Integra com repositório de código e histórico de deploys. Sugere "deploy X do commit Y introduziu a regressão".
Para mudanças simples (rollback, scale-up), pode executar autonomamente. Para complexas, cria PR com fix proposto para humano aprovar.
Times que adotaram AI SRE em produção reportam redução de 40-70% no MTTR (Mean Time To Recovery). O mercado AIOps projetado para saltar de US$ 14,6B (2025) para US$ 36B (2030).
Diferença crítica: Copilot vs Agente vs Autopilot
| Modo | Quem decide? | Quem executa? | Adequado para |
|---|---|---|---|
| Copilot | Humano | Humano (com sugestão da IA) | Decisões críticas, ambientes regulados |
| Agente supervisionado | IA propõe, humano aprova | IA (após aprovação) | Ambiente produção típico — sweet spot atual |
| Autopilot (restrito) | IA | IA (dentro de guardrails) | Ações de baixo risco: scale, restart, rollback |
| Autopilot pleno | IA | IA (sem supervisão) | Raro em produção; demos e sandboxes |
Segurança: OWASP LLM Top 10 (edição 2026)
A OWASP Foundation publicou a atualização 2026 do Top 10 para LLM Applications. Spoiler: prompt injection permanece em #1 — apareceu em 73% dos deployments de IA em produção. A má notícia é que guardrails de vendor mitigam, mas não eliminam o risco.
Os 10 riscos (edição 2026)
Manipulação do modelo via input do usuário. Direto (user pede) ou indireto (via documento/web que o agente lê).
Vazamento de dados pessoais, segredos, credenciais via respostas do modelo ou logs.
Modelos, datasets e embeddings de terceiros comprometidos ou envenenados.
Dados de treino ou fine-tuning contaminados deliberadamente para alterar comportamento.
Respostas do LLM consumidas sem sanitização podem causar XSS, SSRF, RCE em sistemas downstream.
Agente com permissões além do necessário; uma injection consegue fazer mais estrago (apagar DB, gastar dinheiro).
System prompt é visível via ataques e revela lógica de negócio, guardrails ou credenciais embutidas.
Embeddings inversíveis vazam dados; envenenamento de vector DB manipula retrieval.
Alucinação apresentada com confiança. Em domínios críticos (saúde, finanças), pode gerar dano real.
Modelo usado como vetor de DoS ou abuso financeiro (exhaust de quota/orçamento via prompts maliciosos).
Abordagem defense-in-depth (a única que funciona)
O consenso de 2026 é claro: assuma que prompt injection eventualmente vai ter sucesso. Projete para conter o impacto, não apenas prevenir a entrada:
- Least privilege: agente só acessa o que precisa para a tarefa. Prefira tokens de sessão limitados a credenciais admin.
- Output validation: sanitize tudo que sai do LLM antes de executar ou renderizar.
- Separation of instructions and data: system prompt fica em canal protegido; user input em canal "untrusted".
- Logging e auditoria: toda chamada, tool, permissão usada — com retention adequada para forensics.
- Detecção: use Rebuff (heurística + classificador LLM + vector DB de ataques conhecidos) ou NVIDIA NeMo Guardrails (linguagem Colang para regras).
Evaluations e LLMOps — o que separa amadores de profissionais
Em 2026, a diferença mais evidente entre times que colocam IA em produção e times que ficam em eterno PoC é evaluations. Sistemas não-determinísticos exigem medição contínua; sem evals, você não sabe se está melhorando ou piorando.
Os 4 níveis de evaluation (maturidade)
"Testei com 5 perguntas, ficou bom." — estado inicial; ok para PoC, não para produção.
Conjunto curado de 50-200 casos. Métricas: exact match, F1, BLEU. Rodado antes de cada release. Base mínima de produção.
Segundo LLM avalia respostas em critérios subjetivos (relevância, completude, segurança). Escala onde exact-match falha.
Evals contínuas em produção (sample de tráfego real) + ciclo de feedback humano (thumbs up/down, correções). Ouro padrão.
Ferramentas essenciais em 2026
Tracing, datasets, evals e A/B tests. Padrão de facto para times LangChain/LangGraph.
Eval platform agnóstica de framework. Forte em playgrounds, rubrics e datasets versionados.
Observabilidade especializada em LLM. Detecta drift, hallucinations, regressões em produção.
Open-source para testes de prompts em CI. Define evals como YAML, integra com GitHub Actions.
Nunca otimize um prompt, troque de modelo ou adicione fine-tuning sem uma suite de evals rodando. Caso contrário, você está voando cego — pode melhorar em um caso visível e piorar em 10 invisíveis. Regra de ouro: defina evals antes de fazer qualquer mudança, não depois.
Small Language Models e o renascimento do Fine-tuning
Enquanto Claude e GPT disputam o topo, um movimento paralelo está silenciosamente ganhando tração: Small Language Models (SLMs) de 1-8 bilhões de parâmetros, ajustados para tarefas específicas, rodando em CPUs/GPUs modestas, com custo 100-1000x menor.
Por que SLMs voltaram em 2026
- Economia: em aplicações com milhões de chamadas/dia, o custo de LLMs frontier vira proibitivo. SLM fine-tuned para a tarefa resolve 90% dos casos a 5% do custo.
- Latência: SLM local responde em 50-200ms. GPT-4o+thinking pode levar 10-30s. UX ruim.
- Privacidade: dados sensíveis (saúde, jurídico, defesa) não podem sair da rede. SLM on-premise é a única opção.
- Hardware acessível: roda em laptop (Llama 3.2 3B, Phi-3, Gemma 2), em edge (Jetson), e até em browser (via WebGPU).
O padrão híbrido: Router + SLMs + LLM frontier
"""
Arquitetura híbrida: router classifica a tarefa e escolhe o modelo certo.
- Tarefas simples e de alto volume → SLM local/barato
- Tarefas complexas e raras → LLM frontier
Economia típica: 70-90% de redução de custo vs. usar só frontier.
"""
from openai import OpenAI
import ollama # para SLMs locais via Ollama
client = OpenAI()
# ── Classificador de complexidade (um LLM pequeno e rápido) ──
def classificar(pergunta: str) -> str:
"""Retorna: 'simple', 'moderate', 'complex'."""
resp = client.chat.completions.create(
model="gpt-4o-mini", # barato, classificação é fácil
temperature=0,
messages=[
{"role": "system", "content": (
"Classifique a complexidade da pergunta. Retorne APENAS uma palavra: "
"'simple' (factual, extração), 'moderate' (explicação, resumo), "
"'complex' (raciocínio multi-step, planejamento, código não-trivial)."
)},
{"role": "user", "content": pergunta}
]
)
return resp.choices[0].message.content.strip().lower()
# ── Roteamento ──
def responder(pergunta: str) -> tuple[str, str]:
"""Retorna (resposta, modelo_usado)."""
complexidade = classificar(pergunta)
if complexidade == "simple":
# SLM local — Ollama rodando Llama 3.2 3B
r = ollama.chat(model="llama3.2:3b", messages=[{"role":"user","content":pergunta}])
return r["message"]["content"], "llama3.2-3b (local)"
elif complexidade == "moderate":
# Mid-tier: gpt-4o-mini ou Claude Haiku
r = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role":"user","content":pergunta}]
)
return r.choices[0].message.content, "gpt-4o-mini"
else: # complex
# Frontier: gpt-4o ou Claude Opus
r = client.chat.completions.create(
model="gpt-4o",
messages=[{"role":"user","content":pergunta}]
)
return r.choices[0].message.content, "gpt-4o"
# ── Teste ──
if __name__ == "__main__":
perguntas = [
"Qual a capital da Austrália?", # simple
"Resuma em 3 bullets os prós e contras de microserviços.", # moderate
"Projete a arquitetura de um sistema de pagamentos para 10M tx/dia.", # complex
]
for p in perguntas:
resposta, modelo = responder(p)
print(f"\n❓ {p}\n🤖 [{modelo}]: {resposta[:200]}...")
- Instale Ollama: ollama.com/download
- Baixe um SLM:
ollama pull llama3.2:3b - Instale as libs Python:
pip install openai ollama - Configure
OPENAI_API_KEY. - Execute:
python hybrid_router.py. Observe como cada pergunta vai para um modelo diferente. - Meça custo: compare o total com uma versão que usa gpt-4o para todas as perguntas.
Fine-tuning voltou à moda (mas diferente)
Em 2023, fine-tuning era a bala de prata. Em 2024, RAG matou fine-tuning ("apenas inject context"). Em 2026, a síntese: RAG para conhecimento, fine-tuning para comportamento. Use fine-tuning quando:
- Você quer consistência de formato/tom que prompts não garantem.
- Domínio tem jargão especializado que embeddings genéricos não capturam bem.
- Você precisa de um SLM que compete com LLM frontier em uma tarefa específica.
- Você tem 500-5000 exemplos de alta qualidade do output desejado.
Governança, Compliance e EU AI Act
A era da "IA sem rédeas" terminou oficialmente em 2026. O EU AI Act está em vigor para sistemas de alto risco; China tem regras estritas para IA generativa pública; EUA avançam em regulação setorial (finanças, saúde). Ignorar compliance hoje é ignorar responsabilidade legal.
Classificação de risco no EU AI Act
| Categoria | Exemplo | Obrigações |
|---|---|---|
| Proibido | Social scoring governamental; manipulação subliminal | Uso proibido no EU |
| Alto risco | Recrutamento, crédito, saúde, educação, justiça | Documentação, evals, transparência, audit trails, supervisão humana |
| Risco limitado | Chatbots, conteúdo gerado | Disclosure obrigatório ("você está falando com IA") |
| Risco mínimo | Filtros de spam, jogos | Sem obrigações específicas |
O que significa para desenvolvedores
- Documentação obrigatória — para sistemas de alto risco, model cards, data sheets, limitações conhecidas.
- Audit trails — logar decisões do modelo, entradas, saídas, versionamento do modelo usado.
- Human in the loop — decisões de alto impacto precisam de supervisão humana verificável.
- Transparência em conteúdo gerado — watermarking e labeling de conteúdo IA (deepfakes regulamentados).
- Direito à explicação — usuários podem exigir explicação sobre decisões que os afetam.
Violações do EU AI Act podem chegar a €35 milhões ou 7% do faturamento global — pior que GDPR. Mesmo que sua empresa não seja europeia, se atende usuários da EU, as regras se aplicam. Trate governança como feature essencial, não como burocracia.
Panorama atualizado de frameworks de agentes
A disciplina 8 cobriu ADK, LangChain e conceitos gerais. Em 2026, o mercado se consolidou em três frameworks de agentes dominantes — cada um com filosofia distinta. A escolha não é religiosa: é baseada em caso de uso.
| Framework | Filosofia | Pronto pra produção | Curva de aprendizado | Use quando... |
|---|---|---|---|---|
| LangGraph | Graph-based, estado explícito | ⭐⭐⭐⭐⭐ Alta (LangSmith, checkpointing, streaming) | Alta (mais complexa) | Precisa controle fino, lógica condicional complexa, HITL, observability sólida |
| CrewAI | Role-based (agentes como pessoas) | ⭐⭐⭐ Média (checkpointing limitado) | Baixa (20 linhas para começar) | Prototipagem rápida, workflows de equipe, tarefas paralelas por papel |
| AutoGen / AG2 | Conversacional (group-chat) | ⭐⭐⭐ Média (em evolução após rewrite) | Média | Debate, consensus-building, diálogos sequenciais entre múltiplos agentes |
Trade-off de custo: cuidado com AutoGen em volume
Um ponto pouco discutido: o GroupChat do AutoGen consome tokens exponencialmente. Cada turno envolve uma chamada LLM completa com histórico acumulado. Um debate de 4 agentes por 5 rodadas = 20 chamadas mínimas, cada uma maior que a anterior. Para tarefas de alto volume ou tempo real, AutoGen sai caro.
Times que começam com CrewAI para prototipar frequentemente migram para LangGraph quando precisam de state management de produção, checkpointing e observabilidade. Se você sabe que vai escalar, comece direto em LangGraph. Se está explorando, CrewAI é mais rápido para validar a ideia.
O que estudar agora — roadmap pessoal 2026
Você não pode (e nem deve) estudar tudo. Baseado na conjuntura de abril/2026, priorize os seguintes temas em ordem de alavancagem para a carreira — do maior ROI para o menor.
Essas duas skills separam quem "usa ChatGPT" de quem constrói sistemas de IA em produção. São a base para tudo mais. 80% do valor em 20% do esforço.
Quase ninguém domina isso, mas é o gargalo de 90% dos projetos. Quem sabe evals é senior por definição em 2026.
Protocolos de comunicação serão infraestrutura invisível em 2027. Aprenda agora — em 12 meses será commodity.
Operar sistemas agênticos em produção é skill nova. Poucos sabem. Mercado paga caro.
Não é skill "obrigatória", mas abre portas em nichos específicos (on-prem, custo, domínios regulados).
Não precisa ser especialista, mas precisa saber o básico de OWASP LLM + EU AI Act. É higiene profissional mínima.
Fontes semanais recomendadas
AK (@_akhaliq) no X, Simon Willison's Blog, Latent Space newsletter, Import AI por Jack Clark.
Changelogs da Anthropic, OpenAI, Cursor, LangChain. Assine os feeds — novidades mensais.
Leia 1 paper por semana do arXiv cs.CL. Não precisa entender tudo — pegue o padrão mental.
Latent Space, Practical AI, No Priors, The TWIML AI Podcast. Ótimos para passivos — treino, trânsito.
Leia código de Claude Code, Aider, OpenHands, LangGraph. O melhor aprendizado é ver como engenheiros sérios resolvem o problema.
Construa algo pequeno toda semana. Não importa o tamanho. A capacidade cresce por exposição repetida, não por leitura.
Você completou 11 disciplinas core + este material extra. Isso cobre o estado da arte em Abril de 2026. Em 12 meses, metade deste conteúdo estará desatualizado — e você terá aprendido coisas que não existem ainda. O valor do que você aprendeu não é o conteúdo: é a capacidade de aprender continuamente em um campo que se reinventa a cada trimestre. Use este site como ponto de partida, não como destino. Boa jornada. 🚀