专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
今天看啥  ›  专栏  ›  字节跳动技术团队

ByteBrain团队SIGMOD25 | 基于预训练语言模型的NDV估计

字节跳动技术团队  · 公众号  · 架构  · 2025-06-10 10:51
    

主要观点总结

本文介绍了一种基于预训练语言模型的NDV(Number of Distinct Values)估计方法,该方法利用语义信息来预测数据库表中不同值的数量,而无需进行数据采样或少量采样。文章详细描述了模型架构、输入和输出、训练数据、实验与结果,以及该方法的局限性。

关键观点总结

关键观点1: 核心思想

利用预训练语言模型通过语义信息做开箱即用的NDV估计。

关键观点2: 研究背景

NDV估计是数据科学领域的基础工作,常用于数据库SQL优化。现有方法依赖扫描全部数据或随机采样数据,开销较大。

关键观点3: 研究目标

设计一个预训练模型,根据数据库schema中的语义信息预测NDV,减少采样开销。

关键观点4: 模型架构

PLM4NDV模型架构包括预训练模型PLM、Self-Attention和MLP。PLM用于语义信息的embedding,Self-attention用于关联不同column,MLP用于输出NDV预测。

关键观点5: 输入与输出

输入包括库表schema、统计信息和可选的采样数据,输出是目标列的NDV。

关键观点6: 实验与结果

实验结果显示,PLM4NDV在无需采样数据的情况下能够预测NDV,且效果优于传统方法。随着采样数据量的提升,PLM4NDV的预测效果更佳。

关键观点7: 局限性

PLM4NDV旨在支持NDV估计的实时性,其实际应用需与其他技术结合。此外,该方法还需进一步与数据库查询优化问题结合落地。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照