专栏名称: 光芯

光子芯片相关知识学习心得

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

Celestial AI的PFA技术细节：低能耗光子互连＋内存解耦实现万亿参数模型推理效率倍增

光芯 · 公众号 · 科技媒体 AI媒体 · 2025-07-25 15:18

主要观点总结

近期，Celestial AI在arxiv上发表文章，详细披露了其系统级方案及仿真框架CelestiSim，介绍了仿真建模细节并论证光互连如何实现推理加速和能耗降低。Celestial AI提出了Photonic Fabric™和Photonic Fabric Appliance™（PFA），突破当前XPU加速器固定内存-计算比限制，提供高效解决方案。PFA提供32TB共享内存和115Tbps全对全交换能力，通过整合高带宽HBM3E内存、光子交换机和DDR5，为分布式AI训练和推理提供解决方案。CelestiSim模拟器和其在LLM推理、训练和DLRM推理中的表现，显示了PFA在提升性能、降低能耗方面的显著优势。这些优势包括灵活扩展内存容量与带宽、大幅提升大模型处理效率、显著降低能耗，且适用于多种AI加速器和工作负载。

关键观点总结

关键观点1: PFA的设计与优势

PFA通过整合高带宽HBM3E内存、光子交换机和DDR5，提供32TB共享内存和115Tbps全对全交换能力，突破当前XPU加速器固定内存-计算比限制，为分布式AI训练和推理提供解决方案。

关键观点2: CelestiSim模拟器的发展

CelestiSim基于分析建模技术，为基于transformer的LLM量身定制，并引入三项关键贡献：支持多层非聚合内存、统一支持训练和推理建模、集成功耗和能量建模，用于迭代协同设计探索。

关键观点3: 性能验证与功耗节省

通过仿真与实证数据比较，验证了CelestiSim的预测准确性，并显示使用PFA可以减少60-90%的能源消耗，在大规模预训练工作负载中表现尤为显著。

关键观点4: LLM推理与PFA的性能评估

评估了PFA与DGX-H100在LLM推理上的性能，结果显示PFA在吞吐量、延迟方面均有显著提升，特别是在内存绑定工作负载上。

关键观点5: DLRM嵌入池化的可扩展性

在具有大规模嵌入表的推荐系统中，PFA也显示出数量级的性能和效率优势，缓解了DLRM推理中的瓶颈。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

Datawhale · 从 Vibe Coding 到 Agentic Engineering：Karpathy 说自己落后了！

12 小时前

IT之家 · 苹果Mac mini卖爆，最低配却悄悄没了

昨天

见实 · 网信办刚刚划定了14条“AI红线”

昨天

IT之家 · 【开放世界沙盒游戏《深海迷航 2》将于 5 月 14 日开启抢先-20260501163635

2 天前

华尔街见闻-资讯-硬AI · 2027年，AI资本开支将达1万亿美元？

2 天前

199IT互联网数据中心 · 2023年全球主要IC设计厂商营收市场份额

1 年前

华政民商 · 李锡鹤｜不当得利法理根据探讨

1 年前

一条 · 瑞士专业去渍牙膏，轻松刷净烟、咖、茶渍

1 年前

上海市七宝外国语小学 · 2025年 Q.F.L. 暑假，你好！

10 月前

厦门广电 · 3岁男童扁桃体手术后脑死亡，母亲：孩子半个月没醒了，他们一直强调就是个小手术，医院回应：术前已告知家属手术风险

9 月前