Spark SQL增量查询Hudi表

Posted on 2023年9月18日 by hackdl

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

由于项目上主要用Hive查询Hudi，所以之前总结过一篇:Hive增量查询Hudi表。最近可能会有Spark SQL增量查询Hudi表的需求，并且我发现目前用纯Spark SQL的形式还不能直接增量查询Hudi表，于是进行学习总结一下。

编程方式（DF+SQL）

先看一下官方文档上Spark SQL增量查询的方式，地址：https://hudi.apache.org/cn/docs/quick-start-guide#incremental-query 和 https://hudi.apache.org/cn/docs/querying_data#incremental-query

它是先通过spark.read中添加增量参数的形式读Hudi表为DF，然后将DF注册成临时表，最后通过Spark SQL查询临时表的形式，实现增量查询的。

参数

hoodie.datasource.query.type=incr

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用

服务器托管

咨询：董先生

电话13051898268 QQ/微信93663045！

上一篇: 实战系列（一）| Dubbo和Spring Cloud的区别，包含代码详解 1. 概述 2. 核心功能 3. 代码示例 4. 适用场景
下一篇: SpringBoot——动态数据源（多数据源自动切换）