VLA模型

核心事件 X Square Robot 正式发布 Wall-OSS-0.5，这是一款拥有 40 亿参数（4B）的视觉-语言-动作（VLA）模型。该模型基于 3B 规模的视觉语言模型（VLM）骨干，创新性地采用了混合变换器（Mixture-of-Transformers, MoT）架构。与行业内普遍展示微调后性能的做法不同，Wall-OSS-0.5 强调其在未进行特定任务微调的情况下的“零样本”真机执行能力，并同步开源了训练代码。 ▶ 架构范式转移：通过 Mixture-of-Transformers 架构，Wall-OSS-0.5 在 4B 参数规模下实现了计算效率与多模态理解的平衡，为具身智能在资源受限的硬件上运行提供了新思路。 ▶ 打破“微调依赖”：在包含 17 个任务的真机测试集中实现零样本评估，证明了预训练阶段通用策略的泛化能力，这对于降低机器人部署成本至关重要。八卦洞察 Wall-OSS-0.5 的出现标志着具身智能（Embodied AI）竞争进入了“实战化”阶段。长期以来，VLA 模型的评估往往依赖于仿真环境或特定场景的深度微调，这在实际工业或家庭场景中极难落地。X Square Robot 选择在 4B 这个“甜点级”参数规模上发力，显然是瞄准了端侧部署（Edge Deployment）的商业潜力。4B 参数既保留了足够的逻辑推理能力，又能在主流机器人算力平台上实现低延迟推理。更重要的是，开源训练代码而非仅仅是模型权重，显示了其试图构建开发者生态、挑战闭源巨头的野心。这种“透明化”的竞争策略，将迫使后续入局者在真机泛化指标上进行更硬核的较量。行动建议对于机器人研发团队，应重点研究其 MoT 架构与预训练数据的配比方案，这可能是实现零样本泛化的关键。对于投资机构，需重新审视那些仅在仿真环境（Simulation）中表现优异的项目，转而关注具备真机零样本（Zero-shot Real-robot）能力的团队。企业在选型 VLA 模型时，应优先考虑 3B-7B 规模的轻量化模型，以兼顾推理成本与任务成功率。

阿里Qwen-Robot套件发布：具身智能迈向“物理大脑”统一时代

机器人具身智能新范式：Hopfield 网络能否重塑 VLA 模型的记忆架构？

具身智能新标杆：X Square Robot 发布 Wall-OSS-0.5，主打 4B VLA 零样本真机性能

AllenAI 领跑具身智能：MolmoAct2 5B 模型开启机器人 VLA 进化新阶段

BAGUA AI