[ INTEL_NODE_29106 ]
· PRIORITY: 8.8/10
具身智能新标杆:X Square Robot 发布 Wall-OSS-0.5,主打 4B VLA 零样本真机性能
●
PUBLISHED:
· SOURCE:
Reddit MachineLearning →
[ DATA_STREAM_START ]
核心事件
X Square Robot 正式发布 Wall-OSS-0.5,这是一款拥有 40 亿参数(4B)的视觉-语言-动作(VLA)模型。该模型基于 3B 规模的视觉语言模型(VLM)骨干,创新性地采用了混合变换器(Mixture-of-Transformers, MoT)架构。与行业内普遍展示微调后性能的做法不同,Wall-OSS-0.5 强调其在未进行特定任务微调的情况下的“零样本”真机执行能力,并同步开源了训练代码。
- ▶ 架构范式转移:通过 Mixture-of-Transformers 架构,Wall-OSS-0.5 在 4B 参数规模下实现了计算效率与多模态理解的平衡,为具身智能在资源受限的硬件上运行提供了新思路。
- ▶ 打破“微调依赖”:在包含 17 个任务的真机测试集中实现零样本评估,证明了预训练阶段通用策略的泛化能力,这对于降低机器人部署成本至关重要。
八卦洞察
Wall-OSS-0.5 的出现标志着具身智能(Embodied AI)竞争进入了“实战化”阶段。长期以来,VLA 模型的评估往往依赖于仿真环境或特定场景的深度微调,这在实际工业或家庭场景中极难落地。X Square Robot 选择在 4B 这个“甜点级”参数规模上发力,显然是瞄准了端侧部署(Edge Deployment)的商业潜力。4B 参数既保留了足够的逻辑推理能力,又能在主流机器人算力平台上实现低延迟推理。更重要的是,开源训练代码而非仅仅是模型权重,显示了其试图构建开发者生态、挑战闭源巨头的野心。这种“透明化”的竞争策略,将迫使后续入局者在真机泛化指标上进行更硬核的较量。
行动建议
对于机器人研发团队,应重点研究其 MoT 架构与预训练数据的配比方案,这可能是实现零样本泛化的关键。对于投资机构,需重新审视那些仅在仿真环境(Simulation)中表现优异的项目,转而关注具备真机零样本(Zero-shot Real-robot)能力的团队。企业在选型 VLA 模型时,应优先考虑 3B-7B 规模的轻量化模型,以兼顾推理成本与任务成功率。
[ DATA_STREAM_END ]
[ ORIGINAL_SOURCE ]
READ_ORIGINAL →
[ 02 ]
RELATED_INTEL
粤公网安备44030002003366号