[ INTEL_NODE_29106 ] · PRIORITY: 8.8/10

具身智能新标杆：X Square Robot 发布 Wall-OSS-0.5，主打 4B VLA 零样本真机性能

● PUBLISHED: · SOURCE: Reddit MachineLearning →

[ DATA_STREAM_START ]

核心事件

X Square Robot 正式发布 Wall-OSS-0.5，这是一款拥有 40 亿参数（4B）的视觉-语言-动作（VLA）模型。该模型基于 3B 规模的视觉语言模型（VLM）骨干，创新性地采用了混合变换器（Mixture-of-Transformers, MoT）架构。与行业内普遍展示微调后性能的做法不同，Wall-OSS-0.5 强调其在未进行特定任务微调的情况下的“零样本”真机执行能力，并同步开源了训练代码。

▶ 架构范式转移：通过 Mixture-of-Transformers 架构，Wall-OSS-0.5 在 4B 参数规模下实现了计算效率与多模态理解的平衡，为具身智能在资源受限的硬件上运行提供了新思路。
▶ 打破“微调依赖”：在包含 17 个任务的真机测试集中实现零样本评估，证明了预训练阶段通用策略的泛化能力，这对于降低机器人部署成本至关重要。

八卦洞察

Wall-OSS-0.5 的出现标志着具身智能（Embodied AI）竞争进入了“实战化”阶段。长期以来，VLA 模型的评估往往依赖于仿真环境或特定场景的深度微调，这在实际工业或家庭场景中极难落地。X Square Robot 选择在 4B 这个“甜点级”参数规模上发力，显然是瞄准了端侧部署（Edge Deployment）的商业潜力。4B 参数既保留了足够的逻辑推理能力，又能在主流机器人算力平台上实现低延迟推理。更重要的是，开源训练代码而非仅仅是模型权重，显示了其试图构建开发者生态、挑战闭源巨头的野心。这种“透明化”的竞争策略，将迫使后续入局者在真机泛化指标上进行更硬核的较量。

行动建议

对于机器人研发团队，应重点研究其 MoT 架构与预训练数据的配比方案，这可能是实现零样本泛化的关键。对于投资机构，需重新审视那些仅在仿真环境（Simulation）中表现优异的项目，转而关注具备真机零样本（Zero-shot Real-robot）能力的团队。企业在选型 VLA 模型时，应优先考虑 3B-7B 规模的轻量化模型，以兼顾推理成本与任务成功率。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

llama.cpp WebUI 正式支持视频输入：本地多模态交互迈入“动态”时代

核心事件：主流本地大模型推理框架 lla…

Fractale-350M：重新定义长文本——从“上下文依赖”转向“训练化记忆”

独立研究员近日发布了 Fractale-…

Anthropic 发布 Claude Fable 5 与 Mythos 5：重塑长上下文推理与智能体原生架构

Anthropic 正式推出其新一代模型…

Cohere发布North Mini Code：首个开源智能体编码模型及其行业信号

核心摘要 Cohere正式发布North…