10、Flink动态表之 DataStream 上的关系查询详解
a)DataStream 上的关系查询
下表比较了传统的关系代数和流处理与输入数据、执行和输出结果的关系。
关系代数 / SQL | 流处理 |
---|---|
关系(或表)是有界(多)元组集合。 | 流是一个无限元组序列。 |
对批数据(例如关系数据库中的表)执行的查询可以访问完整的输入数据。 | 流式查询在启动时不能访问所有数据,必须“等待”数据流入。 |
批处理查询在产生固定大小的结果后终止。 | 流查询不断地根据接收到的记录更新其结果,始终不会结束。 |
尽管存在这些差异,但是使用关系查询和 SQL 处理流并不是不可能的,高级关系数据库系统提供了一个称为 物化视图(Materialized Views) 的特性。
物化视图被定义为一条 SQL 查询,就像常规的虚拟视图一样;与虚拟视图相反,物化视图缓存查询的结果,因此在访问视图时不需要对查询进行计算,缓存的一个常见难题是防止缓存为过期的结果提供服务;当其定义查询的基表被修改时,物化视图将过期,即时视图维护(Eager View Maintenance) 是一种一旦更新了物化视图的基表就立即更新视图的技术。
<