ByteBrain团队SIGMOD25 | 基于预训练语言模型的NDV估计

字节跳动技术团队 · 公众号 · 架构 · 2025-06-10 10:51

主要观点总结

本文介绍了一种基于预训练语言模型的NDV（Number of Distinct Values）估计方法，该方法利用语义信息来预测数据库表中不同值的数量，而无需进行数据采样或少量采样。文章详细描述了模型架构、输入和输出、训练数据、实验与结果，以及该方法的局限性。

利用预训练语言模型通过语义信息做开箱即用的NDV估计。

NDV估计是数据科学领域的基础工作，常用于数据库SQL优化。现有方法依赖扫描全部数据或随机采样数据，开销较大。

设计一个预训练模型，根据数据库schema中的语义信息预测NDV，减少采样开销。

PLM4NDV模型架构包括预训练模型PLM、Self-Attention和MLP。PLM用于语义信息的embedding，Self-attention用于关联不同column，MLP用于输出NDV预测。

输入包括库表schema、统计信息和可选的采样数据，输出是目标列的NDV。

实验结果显示，PLM4NDV在无需采样数据的情况下能够预测NDV，且效果优于传统方法。随着采样数据量的提升，PLM4NDV的预测效果更佳。

PLM4NDV旨在支持NDV估计的实时性，其实际应用需与其他技术结合。此外，该方法还需进一步与数据库查询优化问题结合落地。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博