📚 Referência Rápida
Glossário
60+ termos técnicos do MBA em IA — definição concisa, por que importa, e links para a(s) disciplina(s) que aprofundam o tema. Use o filtro para buscar qualquer termo instantaneamente.
A
Agente (AI Agent)
Sistema que usa um LLM como "cérebro" para decidir autonomamente quais ações tomar (chamar tools, consultar memória, planejar) até atingir um objetivo. Diferente de chatbots: tem objetivo, plano e capacidade de agir no mundo.
Agentic RAG
Evolução do RAG tradicional onde um agente decide dinamicamente quais queries fazer, quais fontes consultar e quando parar — em vez de seguir uma pipeline fixa "embed → retrieve → generate".
ADR Architecture Decision Record
Documento curto e imutável que registra uma decisão arquitetural já tomada: contexto, alternativas consideradas, decisão e consequências. Nasce pequeno, vive para sempre no repositório.
ADK Agent Development Kit
Framework do Google para construir agentes estruturados com subagentes, ferramentas externas e observabilidade integrada via painel visual. Integra nativamente com o protocolo A2A.
AGI Artificial General Intelligence
IA capaz de realizar qualquer tarefa cognitiva humana com igual ou maior proficiência. Não é o estado atual (2026) — modelos modernos são estreitos; debatido quando/se chegará.
A2A Agent-to-Agent Protocol
Protocolo aberto (Google → Linux Foundation) para comunicação horizontal entre agentes de diferentes frameworks e vendors. Usa Agent Cards, Tasks, Messages e Artifacts. v1.0 em 2026 com Signed Agent Cards.
Attention (Mecanismo de Atenção)
Mecanismo fundamental dos Transformers que permite ao modelo "olhar" para diferentes partes da entrada com pesos diferentes ao gerar cada token. É o que faz LLMs entenderem dependências de longa distância em texto.
B
BM25
Algoritmo clássico de busca por relevância baseado em frequência de termos (TF-IDF melhorado). Usado em motores de busca tradicionais e, em 2026, combinado com busca semântica em hybrid search para RAG robusto.
C
C4 Model
Framework de Simon Brown para documentar arquitetura em 4 níveis de zoom: Context, Containers, Components, Code. Cada nível serve a um público (exec → arquiteto → dev).
Cache-aside
Padrão de caching onde a aplicação consulta o cache primeiro; em caso de miss, busca na fonte e ela atualiza o cache. Dominante em sistemas com LLMs pela flexibilidade.
Chunking
Processo de dividir documentos longos em pedaços menores (chunks) para caber na janela de contexto do LLM e melhorar a recuperação em RAG. Chunks típicos: 200-1000 tokens com overlap de 10-20%.
Claude Code
CLI oficial da Anthropic para desenvolvimento agêntico. Roda no terminal, VSCode, desktop e navegador. Em 2026, atingiu 72.5% no SWE-bench Verified e é 5.5x mais eficiente em tokens que Cursor.
CoT Chain of Thought
Técnica de prompting que incentiva o modelo a "pensar passo a passo" antes de responder. Melhora dramaticamente tarefas de raciocínio matemático e lógico. Em modelos reasoning (2026), CoT é nativo — não precisa instruir.
Context Engineering
Evolução do Prompt Engineering em 2026: foco não no prompt em si, mas em engenheirar o contexto dinâmico (Write, Select, Compress, Isolate) que alimenta o modelo. A nova skill core de engenheiros de IA.
📚 Extras
Context Window (Janela de Contexto)
Número máximo de tokens que um modelo pode processar em uma única chamada. Em 2026: ~200K a 1-2M tokens nos modelos frontier. Quanto maior, mais caro — e a atenção se dilui ao final.
Cursor
IDE fork do VSCode otimizado para IA: Tab completion sub-segundo, Composer para edições multi-arquivo, CLI desde jan/2026. Melhor para prototipagem rápida, roda múltiplos modelos (Claude, GPT-5, Gemini, Composer).
D
DevSecOps
Integração de segurança em todo o pipeline CI/CD, não como etapa final. Em 2026, LLMs automatizam regras SAST/DAST, detecção de vulnerabilidades e validação de dependências.
Drift (Docs/Model)
Docs drift: código evolui, docs não. Model drift: performance cai com o tempo por mudança de distribuição dos dados em produção. Ambos exigem monitoramento ativo.
E
Embedding
Representação vetorial (lista de números, ex: 1536 dimensões) que captura significado semântico de texto/imagem/áudio. Usado para busca por similaridade, clustering e RAG. Textos com significado próximo têm vetores próximos no espaço.
Eval (Evaluation)
Conjunto de testes para medir qualidade de um sistema de IA de forma reprodutível. Sem evals, você não sabe se está melhorando ou piorando. Ferramentas: LangSmith, Braintrust, Promptfoo, Arize.
EU AI Act
Regulação europeia (em vigor 2026) que classifica sistemas de IA por risco: proibido / alto / limitado / mínimo. Multas até €35M ou 7% do faturamento global.
F
Few-shot Learning
Técnica de prompt que inclui 2-10 exemplos (entrada → saída desejada) antes do pedido real. Calibra o modelo para o formato/estilo esperado sem treino adicional.
Fine-tuning
Retreinamento de um modelo base em dataset específico para adaptar comportamento/estilo. Em 2026: caiu em 2023-2024 (RAG matou), voltou forte para SLMs especializados e consistência de formato.
G
Guardrails
Camada de segurança que filtra inputs/outputs do LLM: bloqueia prompts maliciosos, detecta vazamento de PII, força output em formato válido. Ferramentas: NVIDIA NeMo Guardrails, Rebuff, Guardrails AI.
H
Hallucination (Alucinação)
LLM gera informação plausível mas incorreta com alta confiança. Causa principal: modelo "preenche lacunas" quando não tem dado real. Mitigações: RAG, citação de fontes, verificação por LLM-as-Judge.
HITL Human in the Loop
Design pattern onde pontos de decisão críticos exigem aprovação humana explícita. Essencial para: mudanças irreversíveis, transações financeiras, decisões regulamentadas.
Hybrid Search
Combinação de busca lexical (BM25/keyword) + busca vetorial (embeddings) para obter melhores resultados que qualquer uma isoladamente. Padrão de qualidade em RAG de produção.
📚 Extras
I
Inference (Inferência)
Processo de gerar output a partir de um modelo já treinado. Custo de inferência é o que você paga por chamada de API. Otimizações: quantização, batching, KV-cache, speculative decoding.
J
Jailbreak
Técnica de contornar restrições de segurança do LLM via prompts elaborados (role-play, indireção, encoding). Subclasse de prompt injection, está no topo do OWASP LLM Top 10.
JSON Mode / Structured Output
Capacidade dos modelos modernos (GPT-4, Claude 3+) de garantir output em JSON válido conforme um schema. Elimina parsing frágil de texto livre. Use sempre que possível.
L
LangChain / LangGraph
LangChain: framework para apps com LLM (chains, RAG, memória). LangGraph: framework stateful para agentes complexos com grafos de execução. Padrão de facto para produção em 2026.
LangSmith
Plataforma da LangChain para tracing, evals, datasets e A/B tests em aplicações LLM. Equivalente a "DataDog para IA".
LLM Large Language Model
Modelo de linguagem treinado em grandes volumes de texto (trilhões de tokens). Exemplos 2026: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro, LLaMA, DeepSeek, GLM-5.1.
LLM-as-Judge
Padrão de avaliação onde um LLM (geralmente mais capaz) avalia a qualidade de respostas de outro LLM segundo rubricas. Escala onde métricas tradicionais (BLEU, F1) falham.
Long-Horizon Agents
Agentes capazes de sustentar tarefas por horas sem supervisão. Em 2026: ~5h de autonomia. Lei de Moore dos agentes: duração dobra a cada ~7 meses.
📚 Extras
M
MCP Model Context Protocol
Protocolo aberto da Anthropic (2024) para expor tools, resources e prompts a LLMs de forma padronizada. Em 2026, virou padrão enterprise com Server Cards, auth SSO e triggers.
Memory (Memória de Agente)
Mecanismo pelo qual um agente mantém estado entre interações. Tipos: short-term (conversa atual, LLM context), long-term (vector store, arquivos persistentes), episódica (eventos datados).
MoE Mixture of Experts
Arquitetura onde o modelo tem N sub-redes ("experts") e só ativa algumas por token. Permite modelos gigantes (trilhões de parâmetros) com custo de inferência de modelos menores. Usado por GPT-4, Gemini, Mixtral.
MTTR Mean Time To Recovery
Tempo médio para resolver um incidente. Métrica-chave de SRE. Em 2026, times com AI SRE reportam redução de 40-70% no MTTR.
Multimodal
Modelo que processa múltiplos tipos de input: texto + imagem + áudio + vídeo. Claude 3+, GPT-4o, Gemini são multimodais nativos. Essencial para computer use e análise de documentos.
N
NER Named Entity Recognition
Identificação de entidades em texto: pessoas, lugares, organizações, datas, valores. Tarefa clássica de NLP que hoje um LLM resolve trivialmente via prompt.
O
Ollama
Ferramenta open-source para rodar LLMs localmente com um comando. Suporta Llama, Mistral, Phi, Gemma e outros. Essencial para testar modelos sem depender de API paga.
OWASP LLM Top 10
Lista dos 10 maiores riscos de segurança em aplicações LLM. #1 em 2026 (e 2024): Prompt Injection (73% dos deployments). Referência obrigatória para sistemas em produção.
P
PRD Product Requirements Document
Documento que captura problema do usuário, não solução. Inclui usuários, métricas de sucesso, escopo explícito (in/out) e critérios testáveis.
Prompt Injection
Ataque onde input do usuário sobrescreve instruções do system prompt. Variantes: direta (user digita) e indireta (via documento/web que o agente lê). #1 OWASP LLM 2026.
Q
Quantização
Redução de precisão dos pesos do modelo (ex: FP32 → INT8 → INT4) para rodar modelos grandes em hardware modesto. Compromisso entre memória/velocidade e qualidade.
R
RAG Retrieval-Augmented Generation
Padrão que injeta documentos relevantes no contexto antes de o LLM gerar resposta. Reduz alucinação, permite usar dados proprietários/atualizados. Em 2026: evoluiu para Agentic RAG.
ReAct (Reason + Act)
Padrão de prompting onde o LLM alterna raciocínio (Thought) e ação (Action) em loop. Fundação do "agent loop" moderno. Proposto em paper da Google (2022).
Reasoning Model
Modelo que gasta "thinking tokens" ocultos antes de responder (test-time compute). Exemplos: OpenAI o3, Claude thinking mode, Gemini Deep Think. Melhor em raciocínio, pior em latência/custo.
📚 Extras
RFC Request for Comments
Documento aberto a discussão antes de decisão. Diferente de ADR: RFC pode ser rejeitado. Use quando existem múltiplas soluções e você quer input do time.
RLHF Reinforcement Learning from Human Feedback
Técnica de fine-tuning onde humanos rankeiam respostas e o modelo é ajustado para maximizar preferência humana. É o que transformou GPT-3 (bruto) em ChatGPT (alinhado).
S
SLM Small Language Model
Modelos de 1-8B parâmetros otimizados para tarefas específicas. Rodam localmente, custo 100-1000x menor que LLMs frontier. Exemplos: Llama 3.2 3B, Phi-3, Gemma 2.
📚 Extras
SRE Site Reliability Engineering
Disciplina criada pelo Google que aplica princípios de engenharia de software à operação. Foco em SLOs, error budgets, automação, postmortems blameless.
Skill (Agent Skill)
Conceito emergente em 2025-2026: conjunto pré-definido de capacidade que um agente pode invocar sob demanda. Diferente de tool (função única), skill encapsula lógica mais complexa, opcionalmente multi-step.
SWE-bench Verified
Benchmark de referência para IA que resolve issues reais do GitHub. Em 2026: Claude Code atinge 72.5% — métrica-chave para avaliar agentic coding.
T
Temperature
Parâmetro que controla aleatoriedade no sampling de tokens. 0.0: determinístico (use para extração, classificação). 0.7-1.0: criativo (use para brainstorm, escrita).
Token
Unidade mínima processada pelo LLM. Não é palavra: "supercalifragilisticexpialidocious" são ~12 tokens; "the" é 1. Regra prática: 1 token ≈ 0.75 palavra em inglês, ≈ 0.5 em português.
Tool Use / Function Calling
Capacidade do LLM de invocar funções externas (APIs, bancos, file system) por meio de schemas JSON. Fundação de todo sistema agêntico moderno.
Top-p / Top-k
Sampling strategies que limitam universo de tokens a escolher. Top-k: só considera os k mais prováveis. Top-p: só considera tokens cuja probabilidade acumulada é ≤ p.
Transformer
Arquitetura de rede neural (paper "Attention Is All You Need", 2017) que base todos os LLMs modernos. Elementos-chave: self-attention, positional encoding, multi-head attention.
V
Vector Store / Vector DB
Banco de dados otimizado para armazenar e buscar vetores por similaridade. Exemplos: Pinecone, Chroma, Weaviate, Qdrant, pgvector (Postgres). Infraestrutura essencial para RAG.
Vibe Coding
Termo cunhado por Andrej Karpathy (2025): estilo de desenvolvimento onde você descreve em linguagem natural e aceita o que a IA produz sem revisar profundamente. Rápido para protótipo, arriscado para produção.