核心摘要
通过P2P互联4张二手RTX 5060 Ti(16GB)显卡,开发者成功以1800美元的极低硬件成本,实现了Qwen-27b-FP8模型在262K超长上下文下的稳定推理,吞吐量达到55 tok/s。
八卦洞察
▶ 算力民主化新范式: 消费级显卡通过P2P技术堆叠,正在打破企业级GPU(如H100/A100)在长上下文推理领域的垄断,为个人开发者和小型初创公司提供了极具性价比的替代路径。
▶ 显存带宽的博弈: 尽管FP8量化降低了显存压力,但262K上下文对KV Cache的吞吐要求极高,P2P连接方案在绕过PCIe瓶颈方面的表现,验证了分布式推理在非企业级环境下的可行性。
行动建议
对于追求极致性价比的本地化部署,应优先关注“多卡P2P互联+量化模型”方案,而非盲目追求单卡性能。
在构建RAG或长文档分析应用时,优先评估FP8量化对精度的影响,并在算力成本与响应速度之间寻找平衡点。
SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE