专栏名称: 光芯
光子芯片相关知识学习心得
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  光芯

Celestial AI的PFA技术细节:低能耗光子互连+内存解耦实现万亿参数模型推理效率倍增

光芯  · 公众号  · 科技媒体 AI媒体  · 2025-07-25 15:18
    

主要观点总结

近期,Celestial AI在arxiv上发表文章,详细披露了其系统级方案及仿真框架CelestiSim,介绍了仿真建模细节并论证光互连如何实现推理加速和能耗降低。Celestial AI提出了Photonic Fabric™和Photonic Fabric Appliance™(PFA),突破当前XPU加速器固定内存-计算比限制,提供高效解决方案。PFA提供32TB共享内存和115Tbps全对全交换能力,通过整合高带宽HBM3E内存、光子交换机和DDR5,为分布式AI训练和推理提供解决方案。CelestiSim模拟器和其在LLM推理、训练和DLRM推理中的表现,显示了PFA在提升性能、降低能耗方面的显著优势。这些优势包括灵活扩展内存容量与带宽、大幅提升大模型处理效率、显著降低能耗,且适用于多种AI加速器和工作负载。

关键观点总结

关键观点1: PFA的设计与优势

PFA通过整合高带宽HBM3E内存、光子交换机和DDR5,提供32TB共享内存和115Tbps全对全交换能力,突破当前XPU加速器固定内存-计算比限制,为分布式AI训练和推理提供解决方案。

关键观点2: CelestiSim模拟器的发展

CelestiSim基于分析建模技术,为基于transformer的LLM量身定制,并引入三项关键贡献:支持多层非聚合内存、统一支持训练和推理建模、集成功耗和能量建模,用于迭代协同设计探索。

关键观点3: 性能验证与功耗节省

通过仿真与实证数据比较,验证了CelestiSim的预测准确性,并显示使用PFA可以减少60-90%的能源消耗,在大规模预训练工作负载中表现尤为显著。

关键观点4: LLM推理与PFA的性能评估

评估了PFA与DGX-H100在LLM推理上的性能,结果显示PFA在吞吐量、延迟方面均有显著提升,特别是在内存绑定工作负载上。

关键观点5: DLRM嵌入池化的可扩展性

在具有大规模嵌入表的推荐系统中,PFA也显示出数量级的性能和效率优势,缓解了DLRM推理中的瓶颈。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照