Blaze：SparkSQL Native算子优化在快手的深度优化及大规模应用实践

DataFunSummit · 公众号 · 科技自媒体大数据 · 2024-07-13 18:00

主要观点总结

本次分享将围绕Blaze的原理及架构设计、面向生产的深度优化、当前进展及未来规划三个方面展开。Blaze是快手自研的基于向量化技术开发的Spark向量化执行引擎，执行过程充分利用native代码和SIMD指令向量化计算的优势，目前已在快手内部部分业务上线，并实现了30%的算力提升。

关键观点总结

关键观点1: Blaze的原理及架构设计

解释了Spark的发展历程和存在的问题，以及Blaze的设计思路和实现方式，包括Spark 1.0、2.0、3.0阶段的特点和向量化执行的重要性。Blaze是快手自研的基于rust和datafusion框架开发的Spark向量化执行引擎，通过引入Blaze Session Extension组件进行翻译，将物理执行计划转化为native向量化引擎可以识别的计划，提交到Executor端由Native引擎执行计算。

关键观点2: 面向生产的深度优化

描述了面向线上生产环境的深度优化工作，包括细粒度的FailBack机制、基于CBO的转换策略、更高效的向量化数据传输格式、多级内存管理策略、复杂度更优的聚合算法实现、向量化计算场景的表达式重复计算优化等。

关键观点3: 当前进展及未来规划

介绍了Blaze的当前进展，包括已经支持的功能和未来的规划。在内部一些典型业务场景中，通过应用这些优化，算力平均提升了30%以上。未来规划包括持续迭代优化，支持更多引擎或场景，如数据湖等。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博