专栏名称: 嘶吼专业版
为您带来每日最新最专业的互联网安全专业信息。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  嘶吼专业版

AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光

嘶吼专业版  · 公众号  · 互联网安全  · 2025-03-06 14:00
    

主要观点总结

Common Crawl存储了自2008年以来数PB级的网络数据,为人工智能项目,包括大型语言模型(LLM)训练提供了重要资源。然而,Truffle Security公司对Common Crawl 2024年12月档案数据的检查发现了超过1.1万个有效机密被硬编码在源代码中,可能存在安全隐患。这些机密包括AWS根密钥、MailChimp API密钥等。Truffle Security已协助供应商撤销用户密钥,但仍需警惕不安全的编码实践可能对LLM行为产生的影响。

关键观点总结

关键观点1: Common Crawl数据的规模和使用情况

Common Crawl维护一个庞大的开源存储库,存储了自2008年以来的网络数据,支持多个AI项目。许多人工智能项目可能依赖这一数字档案。

关键观点2: Truffle Security公司的发现

Truffle Security公司研究人员在Common Crawl数据中发现了超过1.1万个有效机密被硬编码在源代码中,包括AWS根密钥和MailChimp API密钥等。这些机密在前端HTML和JavaScript源代码中泄露,存在安全风险。

关键观点3: 机密数据的风险和影响

硬编码的机密数据可能导致网络钓鱼、品牌冒充等恶意活动,增加数据泄露的风险。此外,机密数据的高重复使用率也加剧了风险。虽然AI训练数据会经过预处理,但机密数据难以彻底删除,无法保证清除所有敏感内容。

关键观点4: Truffle Security的应对措施

Truffle Security公司联系受影响的供应商,协助撤销用户密钥,成功帮助这些组织轮换/撤销数千个密钥,提醒注意不安全的编码实践可能对LLM行为的影响。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照