专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  量子位

清华系细胞大模型登Nature子刊!能对人类2万基因同时建模,代码已开源

量子位  · 公众号  · AI  · 2024-06-08 13:36
    

主要观点总结

文章介绍了来自清华和百图生科团队提出的单细胞基础大模型scFoundation,该模型在Nature Methods上发表。模型基于5000万人类单细胞测序数据训练,能够同时处理约20000个基因。研究团队在模型架构上进行了创新,解决了训练大规模单细胞数据的挑战。scFoundation在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等任务中表现出卓越性能,相关研究成果被NeurIPS2024接收。文章还介绍了模型的应用范式,包括开箱即用和微调两种,并且模型权重及代码已开源。

关键观点总结

关键观点1: scFoundation模型的主要特点和成就

基于5000万人类单细胞测序数据训练,拥有1亿参数,能同时处理约20000个基因。在模型架构上进行了创新,计算时间是传统Transformer架构的3%左右。在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等下游任务中表现出卓越性能。

关键观点2: 训练大规模单细胞数据的主要挑战

挑战包括基因表达预训练数据需要涵盖不同状态和类型的细胞景观、处理大量基因构成的“句子”、以及不同技术和实验室的单细胞转录数据在测序深度上的差异。

关键观点3: 研究团队如何解决这些挑战

研究团队通过收集大规模人类单细胞数据集用于训练,设计了一种非对称编码模块和测序深度感知的预训练任务“read-depth-aware (RDA)”,以提高模型的效率和准确性。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照