SIGMOD-24概览Part2: Industry Session (Query Engines)
👇Apache Arrow DataFusion: A Fast, Embeddable, Modular Analytic Query Engine
🏛机构:Apache
📚摘要:
- 介绍了Apache Arrow DataFusion:一个基于Apache Arrow的查询引擎,强调快速/可嵌入/可扩展
- Apache Arrow:跨平台数据处理工具,提供高效的内存模型
- DataFusion:用Rust编写,具有性能+安全性的优势
👇Unified Query Optimization in the Fabric Data Warehouse
🏛机构:微软
➡️领域:Information systems → Query optimization
📚摘要:
- 背景:微软曾推出了Parallel Data Warehouse,是一种查询大量数据的并行系统
- 本文:介绍了微软最新提出的Fabric DW
- 文章对比了Fabric DW与传统的Parallel Data Warehouse
- 新的优化器考虑了现代环境中的需求,如动态资源分配/计算存储分离等
👇Measures in SQL
🏛机构:Google
➡️领域:
- Information systems → Relational database query languages
- Data analytics
- Online analytical processing
📚摘要:
- 背景:SQL已被广泛采用,但传统的SQL任然缺乏可组合计算的能力
- 本文:提出一种新型的附加列,叫做Measure(度量)
- 如何操作带度量的表:和普通表操作方法一样
- 带度量的SQL的优势:可在保留SQL语义同时,通过调用Measure解决更复杂的查询
- 度量如何计算得到:通过上下文(上下文敏感表达式)得到度量的值
👇ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation
🏛机构:ByteDance
➡️领域:
- Information systems → Data management systems
- Computing methodologies → Machine learning
📚摘要:
背景:
关于ByteHouse:字节公司开发的云原生数据分析引擎,用于处理超大规模数据的复杂分析任务
⚠️云原生数据库:指专门为云环境设计和优化的数据库系统
关于基数估计:预测查询结果的数量(大小),直接影响优化器的决策,是有护额的瓶颈所在
ByteCard的引入:融合最近在基数估计方面的进展,构建了兼顾可靠/实用的基数估计模型
👇Automated Multidimensional Data Layouts in Amazon Redshift
🏛机构:Amazon
➡️领域:
- Information systems → Data layout
- Autonomous database administration
- Online analytical processing engines
📚摘要:
背景:关于数据布局技术,其是DB/DW中优化存储和访问效率的策略,常见为以下几种
种类 概述 示例(T=Tuple/A=Attribute) 行存储 一行数据连续存储 T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An 列存储 一列数据连续存储 T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An 排序键 数据按Key排序后存储 N/A 索引 建立表 ↔ \xleftrightarrow{} 内存位置的索引 B+树,哈希表 本文的工作1:提出了多维数据布局(MDDL)
- 核心方法:传统方法是基于一组列对表进行排序,MDDL是基于一组谓词(查询条件)对表进行排序
- 优点:是的查询高度的定制化
本文的工作2:提出一种自动化学习算法,基于历史工作负载,自动学习每个表最佳的MDDL
👇Automated Clustering Recommendation With Database Zone Maps
🏛机构:Oracle
➡️领域:Theory of computation → Database query processing and optimization (theory)
📚摘要:一言蔽之,主要讲了区间图/自动聚类在数据仓库中的应用
- 背景:关于区间图(Zone Maps)
- 结构:将表划分为Zone,存储每个区域的最大/最小值
- 工作原理:支持查询时,读取区间的最大/最小值,选择跳过/不跳过该区间,从而减少扫描工作量
- 优势:在按某列排序/聚类处理后的数据上表现优越
- 本文的工作:自动分析工作负载→推荐聚类方案(线性聚类和z-order聚类)→建区间图→提高查询性能