当前位置：首页 > news >正文

SIGMOD-24概览Part2: Industry Session (Query Engines)

news 2025/12/20 0:59:15

👇Apache Arrow DataFusion: A Fast, Embeddable, Modular Analytic Query Engine

🏛机构：Apache

📚摘要：

介绍了Apache Arrow DataFusion：一个基于Apache Arrow的查询引擎，强调快速/可嵌入/可扩展
Apache Arrow：跨平台数据处理工具，提供高效的内存模型
DataFusion：用Rust编写，具有性能+安全性的优势

👇Unified Query Optimization in the Fabric Data Warehouse

🏛机构：微软

➡️领域：Information systems → Query optimization

📚摘要：

背景：微软曾推出了Parallel Data Warehouse，是一种查询大量数据的并行系统
本文：介绍了微软最新提出的Fabric DW
文章对比了Fabric DW与传统的Parallel Data Warehouse
新的优化器考虑了现代环境中的需求，如动态资源分配/计算存储分离等

👇Measures in SQL

🏛机构：Google

➡️领域：

Information systems → Relational database query languages
Data analytics
Online analytical processing

📚摘要：

背景：SQL已被广泛采用，但传统的SQL任然缺乏可组合计算的能力
本文：提出一种新型的附加列，叫做Measure(度量)
如何操作带度量的表：和普通表操作方法一样
带度量的SQL的优势：可在保留SQL语义同时，通过调用Measure解决更复杂的查询
度量如何计算得到：通过上下文(上下文敏感表达式)得到度量的值

👇ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation

🏛机构：ByteDance

➡️领域：

Information systems → Data management systems
Computing methodologies → Machine learning

📚摘要：

背景：

关于ByteHouse：字节公司开发的云原生数据分析引擎，用于处理超大规模数据的复杂分析任务

⚠️云原生数据库：指专门为云环境设计和优化的数据库系统

关于基数估计：预测查询结果的数量(大小)，直接影响优化器的决策，是有护额的瓶颈所在

ByteCard的引入：融合最近在基数估计方面的进展，构建了兼顾可靠/实用的基数估计模型

👇Automated Multidimensional Data Layouts in Amazon Redshift

🏛机构：Amazon

➡️领域：

Information systems → Data layout
Autonomous database administration
Online analytical processing engines

📚摘要：

背景：关于数据布局技术，其是DB/DW中优化存储和访问效率的策略，常见为以下几种

种类概述示例(T=Tuple/A=Attribute)
行存储一行数据连续存储 T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An
列存储一列数据连续存储 T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An
排序键数据按Key排序后存储 N/A
索引建立表 $\xleftrightarrow{}$ 内存位置的索引 B+树，哈希表

本文的工作1：提出了多维数据布局(MDDL)

核心方法：传统方法是基于一组列对表进行排序，MDDL是基于一组谓词(查询条件)对表进行排序
优点：是的查询高度的定制化

本文的工作2：提出一种自动化学习算法，基于历史工作负载，自动学习每个表最佳的MDDL

种类	概述	示例(T=Tuple/A=Attribute)
行存储	一行数据连续存储	T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An
列存储	一列数据连续存储	T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An
排序键	数据按Key排序后存储	N/A
索引	建立表 $\xleftrightarrow{}$ 内存位置的索引	B+树，哈希表

👇Automated Clustering Recommendation With Database Zone Maps

🏛机构：Oracle

➡️领域：Theory of computation → Database query processing and optimization (theory)

📚摘要：一言蔽之，主要讲了区间图/自动聚类在数据仓库中的应用

背景：关于区间图(Zone Maps)
结构：将表划分为Zone，存储每个区域的最大/最小值
工作原理：支持查询时，读取区间的最大/最小值，选择跳过/不跳过该区间，从而减少扫描工作量
优势：在按某列排序/聚类处理后的数据上表现优越

本文的工作：自动分析工作负载→推荐聚类方案(线性聚类和z-order聚类)→建区间图→提高查询性能

查看全文

http://www.mrgr.cn/news/21589.html