专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
今天看啥  ›  专栏  ›  DataFunSummit

Blaze:SparkSQL Native算子优化在快手的深度优化及大规模应用实践

DataFunSummit  · 公众号  · 科技自媒体 大数据  · 2024-07-13 18:00
    

主要观点总结

本次分享将围绕Blaze的原理及架构设计、面向生产的深度优化、当前进展及未来规划三个方面展开。Blaze是快手自研的基于向量化技术开发的Spark向量化执行引擎,执行过程充分利用native代码和SIMD指令向量化计算的优势,目前已在快手内部部分业务上线,并实现了30%的算力提升。

关键观点总结

关键观点1: Blaze的原理及架构设计

解释了Spark的发展历程和存在的问题,以及Blaze的设计思路和实现方式,包括Spark 1.0、2.0、3.0阶段的特点和向量化执行的重要性。Blaze是快手自研的基于rust和datafusion框架开发的Spark向量化执行引擎,通过引入Blaze Session Extension组件进行翻译,将物理执行计划转化为native向量化引擎可以识别的计划,提交到Executor端由Native引擎执行计算。

关键观点2: 面向生产的深度优化

描述了面向线上生产环境的深度优化工作,包括细粒度的FailBack机制、基于CBO的转换策略、更高效的向量化数据传输格式、多级内存管理策略、复杂度更优的聚合算法实现、向量化计算场景的表达式重复计算优化等。

关键观点3: 当前进展及未来规划

介绍了Blaze的当前进展,包括已经支持的功能和未来的规划。在内部一些典型业务场景中,通过应用这些优化,算力平均提升了30%以上。未来规划包括持续迭代优化,支持更多引擎或场景,如数据湖等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照