专栏名称: 迪答数据
大数据(flink,kafka,spark,hadoop),程序语言(java,scala,Python),用户画像,数据分析,资源分享......这里有技术,但不只技术;点点滴滴,些许用处,滴滴答答,终能穿石。
目录
今天看啥  ›  专栏  ›  迪答数据

Apache Spark在小米的生产实践

迪答数据  · 公众号  · 科技自媒体 大数据  · 2024-06-30 18:01
    

主要观点总结

本文介绍了小米团队在使用Apache Spark构建新一代数据工场时遇到的典型问题以及解决方案,包括Multiple Catalog落地与应用、Hive SQL迁移Spark SQL、离线场景下Spark的稳定性和性能优化等方面。

关键观点总结

关键观点1: Multiple Catalog落地与应用

介绍了小米团队如何使用Metacat解决旧平台表名不一致、Schema不一致等问题的。同时,基于Spark3.1的CatalogPlugin实现了不同数据源的Catalog,解决了旧平台上只能查询hive单一数据源的问题。

关键观点2: Hive SQL迁移Spark SQL

描述了小米团队在推广数据湖的使用过程中,推动Hive SQL和Spark2 SQL向Spark3 SQL迁移的工作。包括语法检测、数据一致性校验、批量自动化升级SQL引擎版本等步骤,以及遇到的典型问题和解决方案。

关键观点3: 离线场景下Spark的稳定性和性能优化

讲述了在进行SQL升级到Spark3的过程中,同时进行Spark3+数据湖查询优化工作。主要包括性能优化和稳定性优化两个方面。性能优化通过Data skipping、调整谓词顺序、Page级别的min max索引等技术实现。稳定性优化则通过解决小文件问题、配置隔离、中心化鉴权服务等方式进行。

关键观点4: 未来规划

简要介绍了未来的规划,包括落地向量化引擎和提升用户体验等。

关键观点5: 问答环节

对几个关键问题进行了回答,包括联邦查询的语法、小米的基础架构选择、ETL迁移的兼容性问题、Iceberg中的repartition函数、Gluten的测试数据配置等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照