AI 训练数据藏雷：近 12,000 个 API 密钥与密码曝光

嘶吼专业版 · 公众号 · 互联网安全 · 2025-03-06 14:00

主要观点总结

Common Crawl存储了自2008年以来数PB级的网络数据，为人工智能项目，包括大型语言模型（LLM）训练提供了重要资源。然而，Truffle Security公司对Common Crawl 2024年12月档案数据的检查发现了超过1.1万个有效机密被硬编码在源代码中，可能存在安全隐患。这些机密包括AWS根密钥、MailChimp API密钥等。Truffle Security已协助供应商撤销用户密钥，但仍需警惕不安全的编码实践可能对LLM行为产生的影响。

关键观点总结

关键观点1: Common Crawl数据的规模和使用情况

Common Crawl维护一个庞大的开源存储库，存储了自2008年以来的网络数据，支持多个AI项目。许多人工智能项目可能依赖这一数字档案。

关键观点2: Truffle Security公司的发现

Truffle Security公司研究人员在Common Crawl数据中发现了超过1.1万个有效机密被硬编码在源代码中，包括AWS根密钥和MailChimp API密钥等。这些机密在前端HTML和JavaScript源代码中泄露，存在安全风险。

关键观点3: 机密数据的风险和影响

硬编码的机密数据可能导致网络钓鱼、品牌冒充等恶意活动，增加数据泄露的风险。此外，机密数据的高重复使用率也加剧了风险。虽然AI训练数据会经过预处理，但机密数据难以彻底删除，无法保证清除所有敏感内容。

关键观点4: Truffle Security的应对措施

Truffle Security公司联系受影响的供应商，协助撤销用户密钥，成功帮助这些组织轮换/撤销数千个密钥，提醒注意不安全的编码实践可能对LLM行为的影响。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博