Glossário — MBA IA

Agente (AI Agent)

Sistema que usa um LLM como "cérebro" para decidir autonomamente quais ações tomar (chamar tools, consultar memória, planejar) até atingir um objetivo. Diferente de chatbots: tem objetivo, plano e capacidade de agir no mundo.

📚 Disciplina 8: Desenvolvimento de Agentes Disciplina 6: Desenvolvimento em modo Agente

Agentic RAG

Evolução do RAG tradicional onde um agente decide dinamicamente quais queries fazer, quais fontes consultar e quando parar — em vez de seguir uma pipeline fixa "embed → retrieve → generate".

📚 Extras: Agentic RAG

ADR Architecture Decision Record

Documento curto e imutável que registra uma decisão arquitetural já tomada: contexto, alternativas consideradas, decisão e consequências. Nasce pequeno, vive para sempre no repositório.

📚 Disciplina 4: Design Docs

ADK Agent Development Kit

Framework do Google para construir agentes estruturados com subagentes, ferramentas externas e observabilidade integrada via painel visual. Integra nativamente com o protocolo A2A.

📚 Disciplina 8

AGI Artificial General Intelligence

IA capaz de realizar qualquer tarefa cognitiva humana com igual ou maior proficiência. Não é o estado atual (2026) — modelos modernos são estreitos; debatido quando/se chegará.

A2A Agent-to-Agent Protocol

Protocolo aberto (Google → Linux Foundation) para comunicação horizontal entre agentes de diferentes frameworks e vendors. Usa Agent Cards, Tasks, Messages e Artifacts. v1.0 em 2026 com Signed Agent Cards.

📚 Disciplina 9 Extras: A2A em 2026

Attention (Mecanismo de Atenção)

Mecanismo fundamental dos Transformers que permite ao modelo "olhar" para diferentes partes da entrada com pesos diferentes ao gerar cada token. É o que faz LLMs entenderem dependências de longa distância em texto.

📚 Disciplina 1

BM25

Algoritmo clássico de busca por relevância baseado em frequência de termos (TF-IDF melhorado). Usado em motores de busca tradicionais e, em 2026, combinado com busca semântica em hybrid search para RAG robusto.

📚 Extras: RAG avançado

C4 Model

Framework de Simon Brown para documentar arquitetura em 4 níveis de zoom: Context, Containers, Components, Code. Cada nível serve a um público (exec → arquiteto → dev).

📚 Disciplina 4

Cache-aside

Padrão de caching onde a aplicação consulta o cache primeiro; em caso de miss, busca na fonte e ela atualiza o cache. Dominante em sistemas com LLMs pela flexibilidade.

📚 Disciplina 3: Caching

Chunking

Processo de dividir documentos longos em pedaços menores (chunks) para caber na janela de contexto do LLM e melhorar a recuperação em RAG. Chunks típicos: 200-1000 tokens com overlap de 10-20%.

📚 Disciplina 7

Claude Code

CLI oficial da Anthropic para desenvolvimento agêntico. Roda no terminal, VSCode, desktop e navegador. Em 2026, atingiu 72.5% no SWE-bench Verified e é 5.5x mais eficiente em tokens que Cursor.

📚 Disciplina 6

CoT Chain of Thought

Técnica de prompting que incentiva o modelo a "pensar passo a passo" antes de responder. Melhora dramaticamente tarefas de raciocínio matemático e lógico. Em modelos reasoning (2026), CoT é nativo — não precisa instruir.

📚 Disciplina 2

Context Engineering

Evolução do Prompt Engineering em 2026: foco não no prompt em si, mas em engenheirar o contexto dinâmico (Write, Select, Compress, Isolate) que alimenta o modelo. A nova skill core de engenheiros de IA.

📚 Extras

Context Window (Janela de Contexto)

Número máximo de tokens que um modelo pode processar em uma única chamada. Em 2026: ~200K a 1-2M tokens nos modelos frontier. Quanto maior, mais caro — e a atenção se dilui ao final.

📚 Disciplina 1

Cursor

IDE fork do VSCode otimizado para IA: Tab completion sub-segundo, Composer para edições multi-arquivo, CLI desde jan/2026. Melhor para prototipagem rápida, roda múltiplos modelos (Claude, GPT-5, Gemini, Composer).

📚 Disciplina 5

DevSecOps

Integração de segurança em todo o pipeline CI/CD, não como etapa final. Em 2026, LLMs automatizam regras SAST/DAST, detecção de vulnerabilidades e validação de dependências.

📚 Disciplina 10

Drift (Docs/Model)

Docs drift: código evolui, docs não. Model drift: performance cai com o tempo por mudança de distribuição dos dados em produção. Ambos exigem monitoramento ativo.

📚 Disciplina 4

Embedding

Representação vetorial (lista de números, ex: 1536 dimensões) que captura significado semântico de texto/imagem/áudio. Usado para busca por similaridade, clustering e RAG. Textos com significado próximo têm vetores próximos no espaço.

📚 Disciplina 1

Eval (Evaluation)

Conjunto de testes para medir qualidade de um sistema de IA de forma reprodutível. Sem evals, você não sabe se está melhorando ou piorando. Ferramentas: LangSmith, Braintrust, Promptfoo, Arize.

📚 Extras: Evaluations

EU AI Act

Regulação europeia (em vigor 2026) que classifica sistemas de IA por risco: proibido / alto / limitado / mínimo. Multas até €35M ou 7% do faturamento global.

📚 Extras: Governança

Few-shot Learning

Técnica de prompt que inclui 2-10 exemplos (entrada → saída desejada) antes do pedido real. Calibra o modelo para o formato/estilo esperado sem treino adicional.

📚 Disciplina 2

Fine-tuning

Retreinamento de um modelo base em dataset específico para adaptar comportamento/estilo. Em 2026: caiu em 2023-2024 (RAG matou), voltou forte para SLMs especializados e consistência de formato.

📚 Extras: SLMs

Guardrails

Camada de segurança que filtra inputs/outputs do LLM: bloqueia prompts maliciosos, detecta vazamento de PII, força output em formato válido. Ferramentas: NVIDIA NeMo Guardrails, Rebuff, Guardrails AI.

📚 Disciplina 3

Hallucination (Alucinação)

LLM gera informação plausível mas incorreta com alta confiança. Causa principal: modelo "preenche lacunas" quando não tem dado real. Mitigações: RAG, citação de fontes, verificação por LLM-as-Judge.

HITL Human in the Loop

Design pattern onde pontos de decisão críticos exigem aprovação humana explícita. Essencial para: mudanças irreversíveis, transações financeiras, decisões regulamentadas.

Hybrid Search

Combinação de busca lexical (BM25/keyword) + busca vetorial (embeddings) para obter melhores resultados que qualquer uma isoladamente. Padrão de qualidade em RAG de produção.

📚 Extras

Inference (Inferência)

Processo de gerar output a partir de um modelo já treinado. Custo de inferência é o que você paga por chamada de API. Otimizações: quantização, batching, KV-cache, speculative decoding.

Jailbreak

Técnica de contornar restrições de segurança do LLM via prompts elaborados (role-play, indireção, encoding). Subclasse de prompt injection, está no topo do OWASP LLM Top 10.

📚 Disciplina 3: Segurança

JSON Mode / Structured Output

Capacidade dos modelos modernos (GPT-4, Claude 3+) de garantir output em JSON válido conforme um schema. Elimina parsing frágil de texto livre. Use sempre que possível.

LangChain / LangGraph

LangChain: framework para apps com LLM (chains, RAG, memória). LangGraph: framework stateful para agentes complexos com grafos de execução. Padrão de facto para produção em 2026.

📚 Disciplina 7

LangSmith

Plataforma da LangChain para tracing, evals, datasets e A/B tests em aplicações LLM. Equivalente a "DataDog para IA".

LLM Large Language Model

Modelo de linguagem treinado em grandes volumes de texto (trilhões de tokens). Exemplos 2026: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro, LLaMA, DeepSeek, GLM-5.1.

📚 Disciplina 1

LLM-as-Judge

Padrão de avaliação onde um LLM (geralmente mais capaz) avalia a qualidade de respostas de outro LLM segundo rubricas. Escala onde métricas tradicionais (BLEU, F1) falham.

📚 Disciplina 2

Long-Horizon Agents

Agentes capazes de sustentar tarefas por horas sem supervisão. Em 2026: ~5h de autonomia. Lei de Moore dos agentes: duração dobra a cada ~7 meses.

📚 Extras

MCP Model Context Protocol

Protocolo aberto da Anthropic (2024) para expor tools, resources e prompts a LLMs de forma padronizada. Em 2026, virou padrão enterprise com Server Cards, auth SSO e triggers.

📚 Disciplina 9 Extras

Memory (Memória de Agente)

Mecanismo pelo qual um agente mantém estado entre interações. Tipos: short-term (conversa atual, LLM context), long-term (vector store, arquivos persistentes), episódica (eventos datados).

MoE Mixture of Experts

Arquitetura onde o modelo tem N sub-redes ("experts") e só ativa algumas por token. Permite modelos gigantes (trilhões de parâmetros) com custo de inferência de modelos menores. Usado por GPT-4, Gemini, Mixtral.

MTTR Mean Time To Recovery

Tempo médio para resolver um incidente. Métrica-chave de SRE. Em 2026, times com AI SRE reportam redução de 40-70% no MTTR.

📚 Disciplina 10

Multimodal

Modelo que processa múltiplos tipos de input: texto + imagem + áudio + vídeo. Claude 3+, GPT-4o, Gemini são multimodais nativos. Essencial para computer use e análise de documentos.

NER Named Entity Recognition

Identificação de entidades em texto: pessoas, lugares, organizações, datas, valores. Tarefa clássica de NLP que hoje um LLM resolve trivialmente via prompt.

Ollama

Ferramenta open-source para rodar LLMs localmente com um comando. Suporta Llama, Mistral, Phi, Gemma e outros. Essencial para testar modelos sem depender de API paga.

📚 Extras: SLMs

OWASP LLM Top 10

Lista dos 10 maiores riscos de segurança em aplicações LLM. #1 em 2026 (e 2024): Prompt Injection (73% dos deployments). Referência obrigatória para sistemas em produção.

📚 Extras: OWASP

PRD Product Requirements Document

Documento que captura problema do usuário, não solução. Inclui usuários, métricas de sucesso, escopo explícito (in/out) e critérios testáveis.

📚 Disciplina 4

Prompt Injection

Ataque onde input do usuário sobrescreve instruções do system prompt. Variantes: direta (user digita) e indireta (via documento/web que o agente lê). #1 OWASP LLM 2026.

📚 Disciplina 3

Quantização

Redução de precisão dos pesos do modelo (ex: FP32 → INT8 → INT4) para rodar modelos grandes em hardware modesto. Compromisso entre memória/velocidade e qualidade.

RAG Retrieval-Augmented Generation

Padrão que injeta documentos relevantes no contexto antes de o LLM gerar resposta. Reduz alucinação, permite usar dados proprietários/atualizados. Em 2026: evoluiu para Agentic RAG.

📚 Disciplina 7

ReAct (Reason + Act)

Padrão de prompting onde o LLM alterna raciocínio (Thought) e ação (Action) em loop. Fundação do "agent loop" moderno. Proposto em paper da Google (2022).

📚 Disciplina 2

Reasoning Model

Modelo que gasta "thinking tokens" ocultos antes de responder (test-time compute). Exemplos: OpenAI o3, Claude thinking mode, Gemini Deep Think. Melhor em raciocínio, pior em latência/custo.

📚 Extras

RFC Request for Comments

Documento aberto a discussão antes de decisão. Diferente de ADR: RFC pode ser rejeitado. Use quando existem múltiplas soluções e você quer input do time.

📚 Disciplina 4

RLHF Reinforcement Learning from Human Feedback

Técnica de fine-tuning onde humanos rankeiam respostas e o modelo é ajustado para maximizar preferência humana. É o que transformou GPT-3 (bruto) em ChatGPT (alinhado).

SLM Small Language Model

Modelos de 1-8B parâmetros otimizados para tarefas específicas. Rodam localmente, custo 100-1000x menor que LLMs frontier. Exemplos: Llama 3.2 3B, Phi-3, Gemma 2.

📚 Extras

SRE Site Reliability Engineering

Disciplina criada pelo Google que aplica princípios de engenharia de software à operação. Foco em SLOs, error budgets, automação, postmortems blameless.

📚 Disciplina 10

Skill (Agent Skill)

Conceito emergente em 2025-2026: conjunto pré-definido de capacidade que um agente pode invocar sob demanda. Diferente de tool (função única), skill encapsula lógica mais complexa, opcionalmente multi-step.

SWE-bench Verified

Benchmark de referência para IA que resolve issues reais do GitHub. Em 2026: Claude Code atinge 72.5% — métrica-chave para avaliar agentic coding.

Temperature

Parâmetro que controla aleatoriedade no sampling de tokens. 0.0: determinístico (use para extração, classificação). 0.7-1.0: criativo (use para brainstorm, escrita).

📚 Disciplina 1

Token

Unidade mínima processada pelo LLM. Não é palavra: "supercalifragilisticexpialidocious" são ~12 tokens; "the" é 1. Regra prática: 1 token ≈ 0.75 palavra em inglês, ≈ 0.5 em português.

Tool Use / Function Calling

Capacidade do LLM de invocar funções externas (APIs, bancos, file system) por meio de schemas JSON. Fundação de todo sistema agêntico moderno.

📚 Disciplina 9

Top-p / Top-k

Sampling strategies que limitam universo de tokens a escolher. Top-k: só considera os k mais prováveis. Top-p: só considera tokens cuja probabilidade acumulada é ≤ p.

Transformer

Arquitetura de rede neural (paper "Attention Is All You Need", 2017) que base todos os LLMs modernos. Elementos-chave: self-attention, positional encoding, multi-head attention.

Vector Store / Vector DB

Banco de dados otimizado para armazenar e buscar vetores por similaridade. Exemplos: Pinecone, Chroma, Weaviate, Qdrant, pgvector (Postgres). Infraestrutura essencial para RAG.

📚 Disciplina 7

Vibe Coding

Termo cunhado por Andrej Karpathy (2025): estilo de desenvolvimento onde você descreve em linguagem natural e aceita o que a IA produz sem revisar profundamente. Rápido para protótipo, arriscado para produção.

📚 Disciplina 6