专栏名称: AINLPer

一个专注自然语言处理（NLP）方向的公众号。机器学习（ML）、深度学习（DL）、自然语言处理相关模型理解、热门论文（Paper）分享分析、pytorch、C++、Python、Java ...

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

蚂蚁 & 上交｜推出系列Embedding模型：F2LLM，达业界领先，且数据/代码完全开源！

AINLPer · 公众号 · 科技自媒体 · 2025-10-12 21:46

主要观点总结

文章介绍了Embedding模型在信息检索、文本处理等领域的应用，以及当前主流Embedding模型的训练难点。作者推出了F2LLM系列模型，该模型使用六百万高质量非合成数据进行训练，达到业界领先水平，且完全开源。文章还详细描述了F2LLM的训练数据、训练过程、评测结果以及团队介绍。

该模型解决了当前主流Embedding模型训练困难的问题，使用六百万高质量非合成数据直接对基座模型进行微调，达到业界领先水平，并且完全开源。

训练数据来自60个开源数据集，统一整理成三种格式：检索、分类和聚类。数据集中包含检索、摘要、自然语言推理、语义相似度、复述等数据类型，并使用了难负样本对比损失和检索类数据的批内对比损失进行训练。

模型使用标准的对比学习损失直接微调Qwen3基座模型。在MTEB英语榜单上，F2LLM-4B和F2LLM-1.7B模型取得了优异的成绩。其中，F2LLM-1.7B在1-2B模型中排名第一，成为算力受限应用场景下的理想选择。

该文章由蚂蚁集团智能平台工程的全模态代码算法团队发表，该团队在ACL、ICLR、NeurIPS、KDD等顶级会议上发表过多篇论文，并参与了蚂蚁技术最高奖T-Star的获得。团队欢迎NLP、大模型、多模态、图神经网络等领域的研究型实习生联系。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博