Physical AI e Robótica

1

O que é Physical AI

Physical AI é o ramo da Inteligência Artificial que dota máquinas da capacidade de perceber, raciocinar e agir no mundo físico. Diferente da IA digital — que vive dentro do navegador, do terminal e do banco de dados — a Physical AI lida com átomos: sensores ruidosos, atuadores imprecisos, gravidade, atrito, dinâmicas não-lineares e a necessidade de respostas em milissegundos para evitar acidentes.

Até 2024 a robótica era dominada por scripts de controle clássico, planejamento simbólico e aprendizado por reforço estreito. Em 2025-2026 ocorreu uma virada arquitetural: os mesmos princípios que deram à GPT-4 sua generalidade — modelos de fundação treinados em larga escala com dados multimodais — passaram a dominar o controle de robôs. Essa convergência é o que Jensen Huang batizou no CES 2026 keynote como "The ChatGPT moment for robotics is here".

IA digital vs. Physical AI

Dimensão	IA Digital (LLMs / agentes em texto)	Physical AI
Domínio	Texto, código, imagens estáticas, áudio	Mundo físico — espaço, gravidade, contato, dinâmica
Inputs	Tokens, embeddings, pixels comprimidos	Câmeras 3D, LiDAR, IMUs, força, tato, propriocepção
Outputs	Tokens (texto, código, JSON)	Trajetórias, torques, velocidades articulares
Latência tolerada	200ms – 5s aceitável	10–50ms ou o robô tomba / quebra peça
Custo do erro	Resposta ruim, bug, retrabalho	Acidente físico, dano material, ferimento humano
Dados de treino	Internet pública (~10T tokens)	Demonstrações, teleoperação, simulação massiva, vídeo

Por que agora? A confluência de 2025-2026

Não é coincidência que o "ChatGPT moment" da robótica chegou em 2026. Quatro vetores tecnológicos amadureceram simultaneamente:

🧠

Transformers escaláveis para ação

A arquitetura que dominou linguagem (GPT) e visão (ViT) foi adaptada para gerar sequências de ações motoras. Modelos como RT-2 (Google, 2023) provaram que tokens de ação podem ser tratados como tokens de texto.

🌍

World Models maduros

NVIDIA Cosmos (lançado no CES 2025, evoluído ao Cosmos 3 em 2026) gera vídeo fisicamente plausível condicionado a comandos — isso é dado sintético infinito para treinar políticas.

⚡

Hardware on-device viável

NVIDIA Jetson Thor (Blackwell) entrega ~2.000 TFLOPs em ~100W, suficiente para rodar VLA de 7B parâmetros embarcado num humanoide sem depender de cloud.

🎬

Datasets abertos em escala

Open X-Embodiment (Google + 30 universidades, 2024), DROID, BridgeData V2 e LeRobot (Hugging Face) padronizaram dados de teleoperação. Pela primeira vez existe um "ImageNet da robótica".

Os principais players de 2026

🟩

NVIDIA

Plataforma full-stack: Cosmos (world models), GR00T (humanoid foundation model), Isaac Sim/Lab (simulação), Jetson Thor (hardware). É hoje o "Microsoft + Intel" da robótica.

🤖

Boston Dynamics

Pioneira em mobilidade. Atlas elétrico (2024) já roda VLA da Toyota Research Institute. Spot e Stretch dominam logística industrial.

👤

Figure AI

Humanoide Figure 02 em produção na BMW Spartanburg desde 2024. Em 2026 lança Figure 03, com VLA proprietário "Helix" rodando 100% on-device.

🇩🇪

NEURA Robotics

Empresa alemã com foco em robôs cognitivos residenciais (4NE-1) e industriais (MAiRA). Fechou parceria com Kawasaki em 2024 e levantou €120M Series B em 2025.

🚗

Tesla Optimus

Gen 2 (2024) já caminha. Gen 3 (2026) prometido para uso interno em fábrica Tesla, com meta de 10 mil unidades em 2026 e produção em massa em 2027.

🐉

Unitree

China. Quebrou a barreira de preço com H1 ($16k) e G1 ($16k) em 2024. Em 2026 lançam o R1 com VLA integrado por menos de US$ 10k — disrupção brutal.

🏠

1X Technologies

Investida pela OpenAI. NEO Beta (2024) e NEO Gamma (2026) miram o lar. Foco em manipulação suave e segurança em ambientes domésticos não-estruturados.

🧪

Physical Intelligence (π)

Startup de SF fundada em 2024 por ex-Google/Stanford (Sergey Levine, Chelsea Finn). Lançou π0 e π0.5 — VLAs generalistas que controlam robôs heterogêneos com o mesmo modelo.

📰

Timeline curto: 2024 → 2026

Jul/2023: Google publica RT-2. Jan/2024: Figure 01 demonstrado fazendo café. Out/2024: NVIDIA anuncia GR00T no GTC. Jan/2025: CES — Cosmos lançado, "physical AI" vira termo oficial. Mar/2025: Physical Intelligence libera π0 open-weights. Set/2025: GR00T N1 open source. Jan/2026: CES — Jensen anuncia "ChatGPT moment for robotics". Abr/2026 (hoje): Figure 03, Optimus Gen 3 e Unitree R1 disputando os primeiros pilotos comerciais em massa.

2

World Foundation Models e simulação

Um World Model (modelo de mundo) é uma rede neural que aprendeu a dinâmica do universo físico a partir de vídeo. Dado um frame atual e uma ação proposta, ele prevê o próximo frame — incluindo gravidade, colisões, deformação, fluxo de fluidos e iluminação. É, em essência, um simulador aprendido, em contraste com simuladores clássicos (MuJoCo, Bullet) que são equações físicas escritas à mão.

Por que World Models destravaram a robótica

O calcanhar-de-aquiles da robótica sempre foi dados. Coletar 1 milhão de horas de demonstração teleoperada custa centenas de milhões de dólares. World Models resolvem isso: treine uma vez em todo o vídeo da Internet (YouTube, Vimeo, datasets industriais) e gere infinitos rollouts sintéticos para treinar políticas.

NVIDIA Cosmos — o estado da arte em Abr/2026

Cosmos é a plataforma de World Foundation Models da NVIDIA, lançada no CES 2025 e expandida agressivamente desde então:

1️⃣

Cosmos 1 (Jan/2025)

Primeiro WFM aberto da NVIDIA. Variantes diffusion (qualidade fotorrealista) e autoregressive (velocidade). Treinado em 20M horas de vídeo. Liberado com licença permissiva para pesquisa e uso comercial.

2️⃣

Cosmos 2 (Mid 2025)

Adicionou condicionamento por trajetória 3D, controle por linguagem natural ("o robô pega a caneca azul") e geração multi-câmera consistente — crucial pra treinar políticas sim2real.

3️⃣

Cosmos 3 (CES 2026)

Modelo de mundo com física verificável: respeita conservação de massa, momento e fricção dentro de tolerância. Integrado nativamente ao Isaac Lab e GR00T. Gera "data flywheel" infinita.

🎯

Cosmos Reason (2026)

Variante focada em raciocínio espacial: dado um frame e uma instrução, prevê quais ações causarão sucesso vs. falha. Usado para curadoria automática de dados de treinamento.

Sim2Real: o pipeline canônico

Sim2Real é a prática de treinar uma política em simulação massivamente paralela e fazer deploy no robô físico. Em 2026, o pipeline padrão é:

⚙️ Pipeline Sim2Real moderno

Modelagem do robô e ambiente: URDF/USD do robô + cena no Isaac Sim (powered by Omniverse).
Domain randomization: aleatoriza textura, iluminação, fricção, massa, latência de sensor — para que a política aprenda a ser robusta.
Treinamento massivo paralelo: Isaac Lab roda 4096 ambientes simultâneos numa GPU, usando PPO ou SAC (RL) e/ou behavior cloning sobre teleoperação.
Augmentação por World Model: Cosmos gera variações fotorrealísticas dos rollouts da simulação rígida — preenche o "reality gap" visual.
Avaliação em sim e em real: métricas de sucesso, segurança e generalização para objetos não vistos.
Deploy on-device: quantização (INT8/FP8) e compilação TensorRT, embarcado no Jetson Thor do robô.

Python

Loop sim2real conceitual com Isaac Lab + Cosmos (mock)

# Snippet conceitual — não roda standalone, requer Isaac Lab + GPU H100/B200
# Mostra a estrutura de um treinamento sim2real moderno em 2026

import torch
from typing import Tuple

# Mocks dos imports reais — em produção:
#   from isaaclab.envs import ManagerBasedRLEnv
#   from isaaclab_assets.robots.unitree import G1_HUMANOID_CFG
#   from cosmos import CosmosWorldModel
#   from lerobot.policies import OpenVLAPolicy

class IsaacLabEnv:
    """Mock de ambiente Isaac Lab: 4096 robôs paralelos numa GPU."""
    def __init__(self, robot_cfg, num_envs: int = 4096):
        self.num_envs = num_envs
        self.action_dim = 23  # G1: 23 graus de liberdade
        self.obs_dim = 256

    def reset(self) -> torch.Tensor:
        # Cada env aleatorizado: massa do robô ±10%, fricção ±20%, luz, textura
        return torch.randn(self.num_envs, self.obs_dim, device="cuda")

    def step(self, actions: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        # Executa 1 passo de simulação física (PhysX) em todos os 4096 envs
        next_obs = torch.randn(self.num_envs, self.obs_dim, device="cuda")
        rewards  = torch.randn(self.num_envs, device="cuda")          # progresso na tarefa
        dones    = torch.zeros(self.num_envs, dtype=torch.bool, device="cuda")
        return next_obs, rewards, dones


class CosmosAugmenter:
    """Mock do Cosmos 3 — usado para fechar o reality gap visual."""
    def render_photorealistic(self, sim_frames: torch.Tensor, prompt: str) -> torch.Tensor:
        # Recebe frames "render game-engine" e devolve frames fotorrealistas
        # condicionados ao prompt (ex.: "kitchen lighting, dirty floor")
        return sim_frames  # mock — na prática chama o WFM


def treinar_politica_sim2real(num_iteracoes: int = 10_000):
    env       = IsaacLabEnv(robot_cfg="G1_HUMANOID")
    cosmos    = CosmosAugmenter()
    policy    = torch.nn.Linear(env.obs_dim, env.action_dim).cuda()  # placeholder
    optimizer = torch.optim.AdamW(policy.parameters(), lr=3e-4)

    obs = env.reset()
    for it in range(num_iteracoes):
        # 1) Política propõe ações
        actions = policy(obs)

        # 2) Simulação física avança 1 passo em 4096 ambientes
        next_obs, rewards, _dones = env.step(actions)

        # 3) A cada N steps, rewrite frames com Cosmos (data augmentation visual)
        if it % 50 == 0:
            _augmented = cosmos.render_photorealistic(next_obs, prompt="warehouse, fluorescent")

        # 4) PPO loss simplificado (apenas conceitual)
        loss = -(rewards.detach() * actions.norm(dim=-1)).mean()
        optimizer.zero_grad(); loss.backward(); optimizer.step()

        if it % 500 == 0:
            print(f"[it {it:>5}] reward médio = {rewards.mean().item():+.3f}")

        obs = next_obs

    return policy

# Execução: 10k iterações × 4096 envs ≈ 40M steps de experiência em ~1h de H100
# Mesma quantidade demoraria meses para coletar com robô físico

Output esperado (mock)

[it     0] reward médio = -0.412
[it   500] reward médio = +0.083
[it  1000] reward médio = +0.391
[it  2000] reward médio = +0.812
[it  5000] reward médio = +1.284
[it  9500] reward médio = +1.732   # política convergiu

# Próximo passo: avaliar no robô físico (Unitree G1).
# Tipicamente, a política "sim-only" tem 60-75% de sucesso no real.
# Depois de finetuning com ~1h de teleoperação humana, sobe para 90%+.

Stack de simulação 2026

Ferramenta	Especialidade	Quando usar
Isaac Sim (NVIDIA)	Simulador fotorrealístico baseado em Omniverse / USD. Física PhysX 5.	Cenas complexas, avaliação visual, integração com Cosmos.
Isaac Lab (NVIDIA)	Framework de RL em cima do Isaac Sim. 4096 envs paralelos numa GPU.	Treinamento de locomoção e manipulação em larga escala.
MuJoCo (Google DeepMind)	Simulador de contato preciso, leve, open-source desde 2022.	Pesquisa acadêmica, prototipagem rápida, ambientes pequenos.
Genesis (CMU + colaboradores, 2024)	Simulador unificado: rígido, fluidos, tecidos, em GPU.	Tarefas de manipulação deformável (cozinhar, dobrar roupa).
Cosmos (NVIDIA)	World model neural — gera vídeo fotorrealístico condicionado.	Augmentação visual e avaliação em distribuições novas.

3

Vision-Language-Action (VLA) Models

Um Vision-Language-Action model é a arquitetura que dominou a robótica em 2025-2026. Ele recebe uma instrução em linguagem natural ("pegue a maçã da mesa") e imagens das câmeras do robô, e produz uma sequência de tokens de ação — geralmente velocidades articulares ou poses do efetuador.

A grande inovação é tratar ações como mais um idioma. Assim como um LLM aprendeu a "falar Python" treinando em GitHub, um VLA aprende a "falar atuação" treinando em demonstrações teleoperadas. O modelo backbone é tipicamente um VLM (Vision-Language Model) congelado (PaLI, Llama Vision, Gemma) ao qual se acopla uma cabeça de geração de ação.

Famílias principais de VLAs em Abr/2026

🟢

Google RT-2 e RT-X

RT-2 (2023) foi o "GPT-2 da robótica". Treinado em PaLI-X de 55B + dados de robô. RT-X (2024) generaliza para 22 plataformas. Closed-source mas pavimentou tudo o que vem depois.

🔓

OpenVLA (Stanford, 2024)

Primeiro VLA aberto. 7B parâmetros, baseado em Llama-2 + DINOv2 + SigLIP. Treinado no Open X-Embodiment. Pesos no Hugging Face. Padrão de fato pra pesquisa em 2025-2026.

🟩

NVIDIA GR00T N1 (2025)

Foundation model especificamente pra humanoides. Open weights desde Set/2025. Suporta 25+ plataformas humanoides (Figure, Unitree, NEURA, 1X). Treina nativamente com Cosmos.

π

Physical Intelligence π0 / π0.5

VLA "frontier" de SF. π0 (Out/2024) é open-weights. π0.5 (2025) introduziu flow-matching para ações contínuas e adaptação a robôs novos com poucos demos. Considerado o "Claude" dos VLAs.

🎯

Figure Helix (2026)

VLA proprietário da Figure AI. Roda 100% on-device no humanoide. Sistema dual: módulo "rápido" (200Hz, controle reativo) + módulo "lento" (10Hz, raciocínio). Closed-source.

🚀

Tesla Optimus VLA

Internamente derivado do FSD (Full Self-Driving) stack. Vision-only, sem LiDAR. Treinado massivamente em dados de teleoperação coletados nas fábricas Tesla. Closed-source.

VLA vs. agente baseado em LLM — qual a diferença?

Em 2024 era comum implementar "robô com IA" assim: um LLM gera código Python que chama primitivas de movimento (robot.move_to(x, y, z)). Isso é um LLM agent — funciona bem para tarefas de alto nível mas falha em manipulação fina porque o LLM não vê o mundo com fidelidade nem fecha o loop em tempo real.

Aspecto	LLM Agent + APIs de movimento	VLA end-to-end
Frequência de controle	~1 Hz (latência da API LLM)	30–200 Hz (modelo embarcado)
Manipulação fina	Ruim — depende de primitivas pré-codificadas	Excelente — aprendeu de demonstrações
Generalização	Alta no nível de tarefa, baixa no nível motor	Alta nos dois níveis se treinado em dados diversos
Caso de uso ideal	Planejamento de tarefas longas, raciocínio	Manipulação, locomoção, coordenação fina

A arquitetura vencedora em 2026 é híbrida: VLA fazendo controle de baixo nível embarcado (Helix da Figure, Cosmos+GR00T da NVIDIA) e um LLM remoto fazendo planejamento de alto nível ("primeiro pegue o copo, depois encha de água, depois entregue"). O LLM emite instruções em linguagem natural que o VLA interpreta no nível motor.

Python

Inferência conceitual num VLA (Cosmos / GR00T) — mock

# Exemplo conceitual de chamada a um VLA hospedado.
# Em produção isso roda embarcado no Jetson Thor do robô; aqui simulamos a API.

from dataclasses import dataclass
import numpy as np

@dataclass
class RobotObservation:
    """Snapshot dos sensores num instante t."""
    rgb_main: np.ndarray        # imagem RGB da câmera frontal (H, W, 3)
    rgb_wrist: np.ndarray       # câmera no pulso (manipulação fina)
    joint_pos: np.ndarray       # 23 articulações (humanoide G1)
    joint_vel: np.ndarray       # velocidades articulares
    gripper_state: float        # 0.0 = aberto, 1.0 = fechado

@dataclass
class RobotAction:
    """Saída do VLA — comando de baixo nível."""
    joint_targets: np.ndarray   # 23 valores em rad
    gripper_target: float
    duration_ms: int            # quanto tempo até a próxima inferência

class GR00TClient:
    """Mock do cliente GR00T N1 da NVIDIA."""

    def __init__(self, model_name: str = "nvidia/gr00t-n1-2b", device: str = "cuda"):
        self.model_name = model_name
        self.device = device
        # Em produção: torch.compile + TensorRT pra rodar em ~5ms no Jetson Thor
        print(f"[GR00T] modelo {model_name} carregado em {device}")

    def predict(self, instruction: str, obs: RobotObservation) -> RobotAction:
        """Recebe instrução em linguagem natural + observação e devolve ação."""
        # Conceitualmente:
        # 1) tokeniza imagens via SigLIP / DINOv2
        # 2) tokeniza instrução via tokenizer Llama
        # 3) concatena e roda o transformer multimodal
        # 4) decoder gera 23 tokens de ação que são detokenizados em rad

        # Mock: ação aleatória pequena pra ilustrar formato
        return RobotAction(
            joint_targets=obs.joint_pos + np.random.randn(23) * 0.01,
            gripper_target=0.0,
            duration_ms=50,   # próxima inferência em 50ms (20 Hz)
        )


# ─── Loop de controle típico num humanoide ───────────────────────────────────
vla = GR00TClient()

# Instrução vinda de um LLM de alto nível ou diretamente do operador
instrucao = "pegue a maçã vermelha em cima da mesa e coloque na cesta azul"

# Em produção, este loop roda a 20-200Hz embarcado
for t in range(200):
    obs = RobotObservation(
        rgb_main=np.zeros((480, 640, 3), dtype=np.uint8),
        rgb_wrist=np.zeros((240, 320, 3), dtype=np.uint8),
        joint_pos=np.zeros(23),
        joint_vel=np.zeros(23),
        gripper_state=0.0,
    )
    acao = vla.predict(instrucao, obs)
    # robot.send(acao)  # envia comando para o controlador de baixo nível

🧩

Tokens de ação — como funcionam

A grande sacada do RT-2 foi discretizar cada dimensão da ação em 256 buckets e tratar cada bucket como um token novo no vocabulário do VLM. Assim o mesmo decoder transformer que gerava texto agora gera "tokens de torque". π0.5 e GR00T N1 usaram refinamentos: flow matching e diffusion heads para gerar ações contínuas com mais fidelidade.

4

Hardware e infraestrutura

Rodar um VLA de 2-7B parâmetros a 30-200Hz num robô móvel é um problema brutal de engenharia: 100W de power budget, latência sub-50ms, sem fan ruidoso, robusto a vibração. Em 2026 o vencedor de fato é a NVIDIA com a linha Jetson Thor.

NVIDIA Jetson Thor T5000 — o cérebro dos humanoides 2026

Especificação	Jetson Orin (2022)	Jetson Thor T5000 (2025)	Jetson Thor (Blackwell, 2026)
Arquitetura GPU	Ampere	Blackwell (early)	Blackwell B1 (full)
Performance FP4	275 TOPS (INT8)	~2.000 TFLOPs	~2.070 TFLOPs
Memória	64 GB LPDDR5	128 GB LPDDR5X	128 GB LPDDR5X
TDP	15-60W	~130W	~130W
Eficiência (TFLOPs/W)	~5	~15	~16 (4× Orin)
Preço dev kit	US$ 1.999	US$ 3.499	US$ 3.499

On-device vs. cloud — onde mora a inteligência?

Em 2024 muitos robôs ainda usavam cloud para inferência. Em 2026, isso é cada vez mais raro para o controle motor — a latência de rede (mesmo em 5G/Wi-Fi 7) é incompatível com manipulação em tempo real. A divisão moderna é:

⚡

On-device (Jetson Thor)

Controle motor (VLA), percepção, fusão sensorial, segurança. Tudo que precisa de < 50ms de latência. 100% offline-capable.

☁️

Cloud (DGX, GB200)

Planejamento de tarefas longas (LLM grande), aprendizado contínuo (fleet learning), análise de telemetria, atualização de modelos.

🛰️

Edge (estação local)

Servidor RTX Pro 6000 numa fábrica, atendendo dezenas de robôs. Para casos sem rede confiável e tarefas com qualidade > tempo real.

🔁

Federated / Fleet learning

Robôs coletam experiências, sobem para a nuvem, modelo é re-treinado e redistribuído. Padrão consagrado pelo Tesla FSD; agora também em Optimus, Figure e GR00T.

Sensores em 2026

Há uma tendência clara: cada vez menos LiDAR e mais câmeras estéreo + redes neurais. Tesla puxou esse movimento (vision-only) e Figure, 1X e Optimus seguem. Robôs industriais e Boston Dynamics ainda usam LiDAR, mas combinam com visão neural.

Sensor	Para que serve	Quem usa em 2026
Câmera RGB estéreo	Visão geral, segmentação, depth via rede neural	Todos os humanoides
Câmera de pulso	Manipulação fina, oclusões da mão	Figure, Optimus, NEURA, 1X
LiDAR sólido	Mapeamento, navegação outdoor	Boston Dynamics Spot, Unitree industrial
IMU 9-DOF	Orientação, equilíbrio (locomoção)	Todos os bípedes
Sensor de força/torque	Manipulação compliant, segurança humana	NEURA 4NE-1, Figure 03, 1X NEO
Tato (eletrônico)	Texturas, slip detection	Pesquisa (Meta DIGIT, GelSight); Figure 03 (limitado)

5

Robôs em produção (cases 2025-2026)

Em Abril de 2026, há pela primeira vez na história um número significativo de robôs humanoides em operação comercial, não apenas em demos de YouTube. Vamos aos casos:

Tipos de robôs — uma taxonomia rápida

🚶

Humanoides bípedes

Atlas, Figure, Optimus, Unitree H1/G1/R1, NEURA 4NE-1, 1X NEO. Forma humana, ideal para ambientes feitos para humanos. Maior atenção midiática e investimento.

🐕

Quadrúpedes

Boston Dynamics Spot, Unitree Go2/B2, ANYmal. Maduros, em produção há anos. Inspeção industrial, segurança, mapeamento.

🦾

Manipuladores fixos / colaborativos

Universal Robots, Franka Emika, Kuka iiwa, ABB GoFa. Backbone da indústria. Em 2026 começam a ganhar VLAs (NEURA MAiRA).

🚙

Robôs móveis / AMRs

Geek+, Locus, 6 River Systems. Logística e fulfillment. Mercado mais maduro e lucrativo da robótica.

🚚

Veículos autônomos

Waymo, Tesla FSD, Cruise (descontinuada 2024), Wayve. Caso particular de Physical AI com longa história e regulação pesada.

🛩️

Drones autônomos

Skydio, ZipLine, Wing. Manobras em tempo real, navegação visual. Skydio 3 (2025) já roda VLA derivado de OpenVLA.

Comparativo dos principais humanoides em Abr/2026

Robô	Empresa	Altura / Peso	Status (Abr 2026)	Preço	VLA usado
Atlas elétrico	Boston Dynamics	1.50m / 89kg	Pilotos com Hyundai e TRI	Não comercializado ainda	TRI Large Behavior Models
Figure 03	Figure AI	1.68m / 60kg	Produção: BMW, LogiSquare	~US$ 50-100k (estimado)	Helix (proprietário)
Optimus Gen 3	Tesla	1.73m / 57kg	Uso interno Tesla; meta 10k em 2026	Meta de US$ 20-30k	Optimus Stack (proprietário, deriv. FSD)
Unitree G1	Unitree	1.32m / 35kg	Vendendo a quem comprar	US$ 16.000	OpenVLA / GR00T N1 (open)
Unitree R1	Unitree	1.21m / 25kg	Lançado CES 2026, pré-venda aberta	US$ 5.900 (!)	GR00T N1 (open)
NEURA 4NE-1	NEURA Robotics	1.80m / 80kg	Pilotos residenciais e industriais (DE)	Sob consulta (US$ 60-100k)	Neuraverse (proprietário)
1X NEO Gamma	1X Technologies	1.65m / 30kg	Beta privado em residências	US$ 20k + assinatura	1X World Model (proprietário)
Apptronik Apollo	Apptronik	1.73m / 73kg	Pilotos com Mercedes e GXO	Não comercializado	Apollo Foundation Model

Cases de produção real

🏭

BMW Spartanburg + Figure (2024 → produção 2026)

Em 2024, Figure 02 começou a colocar peças de chassi na linha de montagem. Em 2026, são ~30 unidades de Figure 03 operando em três turnos, com taxa de sucesso > 95% em tarefas estruturadas.

📦

GXO Logistics + Apptronik / Agility Digit

Operadora logística global usa robôs humanoides para case-pick e palletizing em DCs nos EUA e UK. Métricas: throughput 80% de humano, 24/7, uptime > 95%.

🏥

Toyota Research Institute + Boston Dynamics

Atlas elétrico rodando Large Behavior Models do TRI em ambiente controlado de cuidados a idosos (Japão, piloto). Tarefas: trazer objetos, dobrar roupas, ajudar a sentar.

🏘️

1X NEO em residências — Beta 2026

~50 famílias selecionadas em SF e NYC com NEO Gamma em casa. Uso real: dobrar roupa, organizar cozinha, abrir porta. Modo "supervised": humano pode tomar controle a qualquer momento via app.

🚛

Tesla Optimus em fábricas Tesla

Centenas de unidades Gen 2/3 operando em Fremont e Giga Texas em tarefas de embalagem de baterias, transporte de bins, e pegar peças. Dataset gerado é usado para treinar o modelo seguinte.

⚠️

Realidade vs. hype: cuidado com vídeos editados

Boa parte das demos de humanoides em redes sociais é teleoperada, encenada, ou rodada com corte agressivo. As taxas de sucesso reais em ambientes não-estruturados (cozinha doméstica, por exemplo) ainda são tipicamente 50-80%, não os 99% sugeridos por vídeos. Sempre pergunte: (1) é teleoperação?, (2) quantas tentativas?, (3) ambiente novo ou treinado?, (4) vídeo em tempo real ou acelerado?

🛡️

Desafios reais: segurança, ética e regulação

Um humanoide de 60 kg em casa pode ferir uma criança ao cair. ISO 13482 (robôs de cuidado pessoal) e ISO 10218 (industriais) são pontos de partida, mas estão atrasados em relação ao estado da arte. Questões em aberto em 2026: (a) responsabilidade civil quando o VLA "alucina" e quebra algo, (b) privacidade — robôs com câmeras 24/7 em casa, (c) viés em treinamento (datasets enviesados levam a falhas em populações sub-representadas), (d) uso militar e dual-use, (e) impacto no emprego (relatório Goldman Sachs 2025 estima 15M de empregos afetados em logística até 2030).

6

Como entrar na área e o que estudar

A boa notícia: você não precisa ter feito doutorado em robótica clássica para entrar na onda de Physical AI. Os modelos de fundação absorvem boa parte da teoria de controle e cinemática — o que importa hoje é dominar Python, ML moderno, e ter acesso a hardware (mesmo que simulado).

Pré-requisitos honestos

🐍

Essencial

Python avançado (numpy, pytorch), ML fundamental (transformers, RL básico), Linux/CLI, Git. Inglês técnico para ler papers e docs.

🎓

Útil mas não bloqueante

Controle clássico (PID, MPC), cinemática direta/inversa, ROS. Os modelos absorvem boa parte disso, mas entender ajuda no debug.

🚫

Não precisa (em 2026)

CAD mecânico, eletrônica de baixo nível, FEA. A menos que você queira fazer hardware — o que é uma carreira separada (Mech-E).

💪

Soft skills cruciais

Tolerância a falha (robôs quebram), pensamento sistêmico (sensor → percepção → política → atuador), debug em tempo real.

Stack para começar (open-source, gratuita)

📚 Roteiro de 12 semanas para um dev sair do zero

Semanas 1-2: Revisar Python científico (numpy, pytorch). Tutorial oficial do PyTorch + Hugging Face NLP course.
Semanas 3-4: ROS 2 Humble — tutoriais oficiais (ros.org). Crie um nó publisher/subscriber, simule um robô móvel no Gazebo.
Semanas 5-6: MuJoCo + Gymnasium. Treine um cartpole e um humanoide simples com PPO usando Stable-Baselines3.
Semanas 7-8: Isaac Lab — tutorial oficial NVIDIA. Roda em qualquer GPU RTX 3060+. Treina locomoção do G1 humanoide.
Semanas 9-10: LeRobot (Hugging Face) — clone repo, baixe dataset PushT, fine-tune um diffusion policy. Faça inferência em vídeo do YouTube.
Semanas 11-12: Leia o paper do OpenVLA, baixe os pesos no Hugging Face, rode inferência em uma imagem e veja a saída.
Bônus: participe do Embodied AI Workshop @ CVPR (todo ano). Inscreva-se no NVIDIA Developer Program e LeRobot Discord.

Datasets abertos para treinar

Dataset	Tamanho	O que tem	Ideal para
Open X-Embodiment	1M+ trajetórias, 22 robôs	Demonstrações teleoperadas em vários robôs	Treinar VLAs generalistas
DROID	76k demos, 564 cenas	Manipulação Franka em casas / labs	Manipulação doméstica
BridgeData V2	60k+ trajetórias	Manipulação WidowX em cozinhas	Generalização cross-task
LeRobot HF Datasets	Crescendo rapidamente (200+ datasets)	Coletado pela comunidade, padronizado	Prototipagem rápida
Ego4D / Ego-Exo4D	3.670 horas de vídeo egocêntrico	Humanos fazendo tarefas (POV)	Aprender de demonstração humana
RT-X	Subset do Open X-Emb usado pelo Google	Pré-curado para qualidade	Benchmark de VLAs

Frameworks open-source que você precisa conhecer

🤗

LeRobot (Hugging Face)

"O Transformers da robótica". Implementações de Diffusion Policy, ACT, OpenVLA, π0. Datasets padronizados, treinamento simples, hardware barato (Koch arms ~US$ 250).

🔓

OpenVLA

Repo da Stanford. Baseline open de VLA generalista. Pesos no HF Hub. Documentação clara — melhor ponto de entrada para entender VLAs por dentro.

🟢

NVIDIA Isaac Lab

Framework de RL em larga escala em cima do Isaac Sim. Ambientes prontos para humanoides Unitree, Boston Dynamics, Franka, e mais.

📦

ROS 2

Middleware padrão da indústria. Pub/sub, visualização (RViz2), simulação (Gazebo). Você precisa saber, mesmo que o futuro seja "pós-ROS".

🎮

MuJoCo

Simulador físico de contato preciso. Open-source desde 2022. Leve, roda no laptop. Ótimo para protótipos e papers.

📐

Genesis

Simulador unificado de 2024 — rígido, fluidos, tecidos. Disputando espaço com Isaac Sim para tarefas de manipulação deformável.

Python

Inferência com OpenVLA em uma imagem mock — primeiro hello-world

# Hello-world de VLA: rodar o OpenVLA-7B em uma imagem mock e
# obter um vetor de ação de 7 dimensões (Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper).
#
# Em produção é necessário GPU com 16GB+ VRAM. Aqui o esqueleto está completo;
# em uma máquina sem GPU, comente a linha de carregamento e use o stub no final.

import numpy as np
from PIL import Image

# Em produção:
#   from transformers import AutoModelForVision2Seq, AutoProcessor
#   import torch
#
# processor = AutoProcessor.from_pretrained("openvla/openvla-7b", trust_remote_code=True)
# model = AutoModelForVision2Seq.from_pretrained(
#     "openvla/openvla-7b",
#     torch_dtype=torch.bfloat16,
#     trust_remote_code=True,
# ).to("cuda")

def carregar_imagem_mock(altura: int = 224, largura: int = 224) -> Image.Image:
    """Gera uma imagem RGB sintética para fins de demonstração."""
    arr = np.random.randint(0, 255, (altura, largura, 3), dtype=np.uint8)
    return Image.fromarray(arr)


def predict_acao(instrucao: str, imagem: Image.Image) -> np.ndarray:
    """
    Recebe instrução em linguagem natural + imagem e retorna ação 7D.

    Estrutura da ação (padrão OpenVLA / Open X-Embodiment):
        [Δx, Δy, Δz]              translação do efetuador (m)
        [Δroll, Δpitch, Δyaw]     rotação (rad)
        [gripper]                  0=abrir, 1=fechar
    """
    # ─── Caminho real (com GPU + transformers) ──────────────────────────
    # prompt = f"In: What action should the robot take to {instrucao}?\nOut:"
    # inputs = processor(prompt, imagem).to("cuda", dtype=torch.bfloat16)
    # action = model.predict_action(**inputs, unnorm_key="bridge_orig", do_sample=False)
    # return action.cpu().numpy()

    # ─── Stub para demonstração ─────────────────────────────────────────
    print(f"[OpenVLA-mock] instrução: {instrucao!r}")
    print(f"[OpenVLA-mock] imagem: {imagem.size} pixels")
    # Mock: ação aleatória pequena
    return np.array([
        0.02, -0.01, 0.0,    # translação (cm a cada passo)
        0.0,  0.0, 0.05,      # rotação suave
        0.0                   # gripper fechado
    ])


def loop_de_controle_demo():
    """Loop conceitual rodando a 5 Hz por 3 segundos."""
    instrucao = "pick up the red apple from the table"

    for t in range(15):  # 15 passos × 200ms = 3s
        img = carregar_imagem_mock()
        acao = predict_acao(instrucao, img)

        # Em produção: enviar para controlador de baixo nível do robô
        # robot.set_end_effector_velocity(acao[:6])
        # robot.set_gripper(acao[6])

        print(f"  t={t*0.2:.1f}s  Δp=({acao[0]:+.3f},{acao[1]:+.3f},{acao[2]:+.3f})  gripper={acao[6]:.0f}")


if __name__ == "__main__":
    loop_de_controle_demo()

Output esperado

[OpenVLA-mock] instrução: 'pick up the red apple from the table'
[OpenVLA-mock] imagem: (224, 224) pixels
  t=0.0s  Δp=(+0.020,-0.010,+0.000)  gripper=0
[OpenVLA-mock] instrução: 'pick up the red apple from the table'
[OpenVLA-mock] imagem: (224, 224) pixels
  t=0.2s  Δp=(+0.020,-0.010,+0.000)  gripper=0
...
  t=2.8s  Δp=(+0.020,-0.010,+0.000)  gripper=0

# Próximo passo: substituir o stub pela carga real do modelo
# (16GB VRAM) e usar uma imagem real de uma webcam ou um robô em sim.
# A partir daí: fine-tuning em LeRobot com seu próprio dataset.

Comunidade e onde aprender mais

💬

LeRobot Discord

Comunidade ativa do Hugging Face. Devs respondendo dúvidas em tempo real, tutoriais ao vivo, hardware aberto (~US$ 250 para o braço Koch).

🎓

NVIDIA Developer Program

Acesso gratuito a Isaac Sim, Cosmos (research license), GR00T weights. Webinars semanais. Programa de bolsas para estudantes.

📑

CVPR Embodied AI Workshop

Acontece anualmente (Junho). Onde os principais papers são apresentados. Vídeos no YouTube, gratuitos. Networking forte.

📺

Canais do YouTube

"Robotics @ Google", "Boston Dynamics", "NVIDIA Robotics", "Yannic Kilcher" (review de papers). Lex Fridman para entrevistas longas.

Mercado e salários (Abr/2026)

Cargo	Brasil (BRL/mês CLT ou PJ)	Estados Unidos (USD/ano total)	Empresas que contratam
ML Engineer (Robotics) Pleno	R$ 18-30k	US$ 180-260k	NVIDIA Brasil, ITA, Embraer, startups
Robotics Software Engineer Sênior	R$ 25-45k	US$ 220-320k	Boston Dynamics, Figure, NEURA, Apptronik
Research Scientist (PhD)	R$ 35-60k+	US$ 280-450k+	NVIDIA Research, Physical Intelligence, TRI, OpenAI
Founding Engineer (startup)	R$ 30-50k + equity	US$ 200-300k + 0.5-3% equity	Startups recém YC / a16z
Tech Lead VLA / Foundation Models	R$ 50-90k	US$ 400k - 1M+ (FAANG-tier)	Google DeepMind, Tesla, NVIDIA, OpenAI

💡

Como começar essa semana — plano concreto

Hoje: instale Python 3.11, PyTorch, e clone github.com/huggingface/lerobot. Amanhã: rode o tutorial "PushT" do LeRobot — vai treinar uma policy em 10 minutos num laptop. Esta semana: baixe os pesos do OpenVLA-7B (HF Hub) e rode em uma imagem. Este mês: faça um pequeno projeto e poste no LinkedIn — recrutadores de Figure, NVIDIA e startups estão em modo "scout" agressivo. Se você for sólido em Python e ML, já consegue entrevista. O gargalo do mercado é talento, não vagas.

🎯

Por onde a próxima década vai

A trajetória é clara: 2026 consolida pilotos comerciais em logística e linha de montagem. 2027-2028: humanoides residenciais saem de beta privado para consumer (NEO, Optimus, possivelmente Figure home). 2029-2030: começa a substituição em massa em tarefas físicas repetitivas. Profissionais que dominarem VLA + ROS + simulação nesta janela vão pegar a onda equivalente a quem dominou Java em 2000 ou Python para ML em 2015.