万亿参数模型

事件核心在 Reddit 的 r/LocalLLaMA 社区中，一名开发者展示了一套基于英特尔傲腾持久内存（Intel Optane Persistent Memory, PMem）的独特硬件方案。该配置成功在本地实现了对万亿参数级别模型（如 Kimi K2.5）的推理，速度稳定在 4 tokens/秒以上。这一突破的意义在于，它利用了已被英特尔边缘化的傲腾技术，为个人开发者和小型机构提供了一种绕过昂贵企业级 GPU 集群、运行超大规模模型的可行路径。技术/商业细节该方案的核心在于使用了插在 DDR4 插槽中的傲腾 PMem 200 系列模块。与传统的 NVMe SSD 相比，PMem 具有极低的延迟和极高的耐用性；而与标准 DRAM 相比，它提供了极高的容量密度和更低的单位成本。在 LLM 推理场景下，显存（VRAM）容量通常是最大的瓶颈，而将万亿参数模型量化后，其权重文件依然高达数百 GB，远超消费级显卡的承载能力。内存层级优化：该配置利用了傲腾的“App Direct”模式，将 PMem 作为字节可寻址的内存池，配合高性能至强（Xeon）处理器，解决了模型权重从存储加载到计算单元的带宽瓶颈。性能表现：在运行 Kimi K2.5（约 1T 参数）时，4 tokens/秒的速度已接近人类阅读速度，这对于非实时交互的研究和长文本生成任务具有极高的实用价值。成本优势：通过二手市场采购退役的服务器组件（如第二代/第三代至强可扩展处理器及傲腾模块），构建该系统的成本仅为同等显存容量 NVIDIA H100 集群的零头。八卦分析：全球影响「八卦智慧」认为，这一案例揭示了 AI 硬件领域长期被忽视的“内存墙”解决方案。虽然英特尔已正式停止傲腾业务，但在大模型时代，这种介于内存与闪存之间的存储架构（Storage Class Memory）展现出了惊人的“第二春”。首先，这标志着本地大模型（Local LLM）社区正从单纯的“堆显卡”转向“优化存储架构”。对于万亿参数模型，传统的统一内存架构（如 Apple Silicon）虽然优秀，但在扩展性上受限。傲腾方案证明了在 x86 平台上，通过异构内存设计可以实现极高性价比的推理能力。其次，这对于数据隐私敏感型企业极具吸引力。无需租用昂贵的云端算力，利用翻新的企业级硬件即可在本地私有化部署顶级性能的模型，这可能引发一波旧服务器硬件的抢购潮。战略建议硬件开发者：应重新评估 CXL（Compute Express Link）协议下的内存扩展技术。傲腾虽死，但 CXL 内存扩展将是未来解决万亿参数模型推理成本的核心路径。模型优化团队：针对高延迟、大容量的内存环境优化量化算法（如 GGUF 格式的深度优化），减少对高速 VRAM 的绝对依赖。企业 IT 采购：在进行 AI 基础设施规划时，不必盲目追求全 GPU 架构。对于推理负载，采用“大内存+中等算力 GPU/CPU”的混合方案，能显著降低 TCO（总拥有成本）。

万亿参数模型

傲腾“复活”：利用持久内存突破万亿参数大模型本地推理瓶颈

BAGUA AI