专栏名称: 迪答数据

大数据（flink,kafka,spark,hadoop），程序语言（java，scala，Python），用户画像，数据分析，资源分享......这里有技术，但不只技术；点点滴滴，些许用处，滴滴答答，终能穿石。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Apache Spark在小米的生产实践

迪答数据 · 公众号 · 科技自媒体大数据 · 2024-06-30 18:01

主要观点总结

本文介绍了小米团队在使用Apache Spark构建新一代数据工场时遇到的典型问题以及解决方案，包括Multiple Catalog落地与应用、Hive SQL迁移Spark SQL、离线场景下Spark的稳定性和性能优化等方面。

关键观点总结

关键观点1: Multiple Catalog落地与应用

介绍了小米团队如何使用Metacat解决旧平台表名不一致、Schema不一致等问题的。同时，基于Spark3.1的CatalogPlugin实现了不同数据源的Catalog，解决了旧平台上只能查询hive单一数据源的问题。

关键观点2: Hive SQL迁移Spark SQL

描述了小米团队在推广数据湖的使用过程中，推动Hive SQL和Spark2 SQL向Spark3 SQL迁移的工作。包括语法检测、数据一致性校验、批量自动化升级SQL引擎版本等步骤，以及遇到的典型问题和解决方案。

关键观点3: 离线场景下Spark的稳定性和性能优化

讲述了在进行SQL升级到Spark3的过程中，同时进行Spark3+数据湖查询优化工作。主要包括性能优化和稳定性优化两个方面。性能优化通过Data skipping、调整谓词顺序、Page级别的min max索引等技术实现。稳定性优化则通过解决小文件问题、配置隔离、中心化鉴权服务等方式进行。

关键观点4: 未来规划

简要介绍了未来的规划，包括落地向量化引擎和提升用户体验等。

关键观点5: 问答环节

对几个关键问题进行了回答，包括联邦查询的语法、小米的基础架构选择、ETL迁移的兼容性问题、Iceberg中的repartition函数、Gluten的测试数据配置等。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱生活的燃烧 · 海航这个BUG风险太大了

19 小时前

轨道世界 · 11家竞标价值6700万 2个地铁通信标段评标情况出炉

20 小时前

福建市场监管 · 省市场监管局党组书记、局长黄水木赴省特检院调研指导

2 天前

上海高中生 · 计算机分数上涨，市场真的趋于饱和？

2 天前

老冯云数 · PostgreSQL已主宰数据库世界

2 天前

北航就业 · 招聘 | 兆芯 | 2025校园招聘闪耀启动！

10 月前

舰大官人 · 经过昨天的白宫鸿门宴，美国投资市场走熊，欧洲投资市场走牛是大概率-20250301202046

5 月前

有连云 · 中高端医疗服务净利不足10%，卓正医疗再度闯关港股IPO

4 月前

市说新语 · 直播平台购物，收好这份提示（附一图读懂）

2 月前

光明日报 · 已致1死6失联！湖南临澧烟花爆炸事故最新情况通报

1 月前