专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
TodayRss-海外稳定RSS
目录
今天看啥  ›  专栏  ›  AI前线

代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也...

AI前线  · 公众号  · AI  · 2025-08-27 13:40
    

主要观点总结

本文报道了DeepSeek模型出现的bug,该bug会在生成的代码中插入随机的“极”字。网友们实测发现,官方API能够复现该bug,概率不高但需要多次尝试。网友表示此bug可能涉及到数据清洗的问题。一些开发者猜测这是预训练或合成数据的问题导致的,也可能涉及到模型蒸馏过程中的数据污染。开发者表示未来需要对整个数据链条进行更严格的监控和清洗。

关键观点总结

关键观点1: DeepSeek模型出现bug,会在生成的代码中插入随机的“极”字。

此bug被广大网友戏称为“极你太美”事件。

关键观点2: 官方API能够复现该bug,但概率不高。

网友实测发现,第三方平台上的复现率较高。

关键观点3: 一些开发者猜测该bug与数据清洗有关,可能涉及到预训练或合成数据的问题。

开发者猜测模型把“极”当成边界token使用,这种行为与自然语言生成有差距。

关键观点4: 开发者认为这种“极”现象很有研究价值,可以了解模型如何在语料噪声中形成“伪语言规则”。

未来需要对整个数据链条进行更严格的监控和清洗,避免类似问题再次发生。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照