专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  AINLPer

蚂蚁 & 上交 | 推出系列Embedding模型:F2LLM,达业界领先,且数据/代码完全开源!

AINLPer  · 公众号  · 科技自媒体  · 2025-10-12 21:46
    

主要观点总结

文章介绍了Embedding模型在信息检索、文本处理等领域的应用,以及当前主流Embedding模型的训练难点。作者推出了F2LLM系列模型,该模型使用六百万高质量非合成数据进行训练,达到业界领先水平,且完全开源。文章还详细描述了F2LLM的训练数据、训练过程、评测结果以及团队介绍。

关键观点总结

关键观点1: 文章主要介绍了F2LLM系列模型

该模型解决了当前主流Embedding模型训练困难的问题,使用六百万高质量非合成数据直接对基座模型进行微调,达到业界领先水平,并且完全开源。

关键观点2: F2LLM系列模型的训练数据

训练数据来自60个开源数据集,统一整理成三种格式:检索、分类和聚类。数据集中包含检索、摘要、自然语言推理、语义相似度、复述等数据类型,并使用了难负样本对比损失和检索类数据的批内对比损失进行训练。

关键观点3: F2LLM系列模型的训练与性能

模型使用标准的对比学习损失直接微调Qwen3基座模型。在MTEB英语榜单上,F2LLM-4B和F2LLM-1.7B模型取得了优异的成绩。其中,F2LLM-1.7B在1-2B模型中排名第一,成为算力受限应用场景下的理想选择。

关键观点4: 团队介绍

该文章由蚂蚁集团智能平台工程的全模态代码算法团队发表,该团队在ACL、ICLR、NeurIPS、KDD等顶级会议上发表过多篇论文,并参与了蚂蚁技术最高奖T-Star的获得。团队欢迎NLP、大模型、多模态、图神经网络等领域的研究型实习生联系。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照