今天看啥  ›  专栏  ›  InfoQ

Databricks 为 Apache Spark 提供了 Spark 声明式管道

InfoQ  · 公众号  · 科技媒体  · 2025-07-13 10:15
    

主要观点总结

Databricks在旧金山的Databricks Data+AI峰会上宣布将Delta Live Tables(DLT)的技术贡献给Apache Spark项目,并更名为Spark声明式管道。此贡献使Spark用户更容易开发和维护流式管道,体现了Databrick对开源的承诺。新特性允许开发人员定义数据流管道,使用SQL语法或Python SDK,减少对编排器如Apache Airflow的需求。声明式管道支持流式数据源和物化视图,并将在Spark 4.10版本中使用。

关键观点总结

关键观点1: Databricks将Delta Live Tables技术贡献给Apache Spark项目,并更名为Spark声明式管道。

这个新特性简化了管道的开发和维护,体现了Databrick对开源的承诺。

关键观点2: 声明式管道允许使用SQL语法或Python SDK定义数据流管道,减少对编排器的需求。

开发人员可以定义数据流管道而无需在Spark中创建命令式命令。

关键观点3: 声明式管道支持流式数据源和物化视图,并在后台解释查询、创建依赖图并优化执行计划。

此外,它还支持变更数据捕获、批处理和流逻辑、内置重试逻辑和可观测性钩子。

关键观点4: 声明式管道的特性计划在Apache Spark的下一个版本4.10中使用,该版本预计在2026年1月发布。

用户可以在工单SPARK-51727中查看Apache Jira Spark项目中的进度。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照