当前位置: 首页 > news >正文

SIGMOD-24概览Part2: Industry Session (Query Engines)

👇Apache Arrow DataFusion: A Fast, Embeddable, Modular Analytic Query Engine

🏛机构:Apache

📚摘要:

  • 介绍了Apache Arrow DataFusion:一个基于Apache Arrow的查询引擎,强调快速/可嵌入/可扩展
    • Apache Arrow:跨平台数据处理工具,提供高效的内存模型
    • DataFusion:用Rust编写,具有性能+安全性的优势

👇Unified Query Optimization in the Fabric Data Warehouse

🏛机构:微软

➡️领域:Information systems → Query optimization

📚摘要:

  • 背景:微软曾推出了Parallel Data Warehouse,是一种查询大量数据的并行系统
  • 本文:介绍了微软最新提出的Fabric DW
    • 文章对比了Fabric DW与传统的Parallel Data Warehouse
    • 新的优化器考虑了现代环境中的需求,如动态资源分配/计算存储分离等

👇Measures in SQL

🏛机构:Google

➡️领域:

  • Information systems → Relational database query languages
  • Data analytics
  • Online analytical processing

📚摘要:

  • 背景:SQL已被广泛采用,但传统的SQL任然缺乏可组合计算的能力
  • 本文:提出一种新型的附加列,叫做Measure(度量)
    • 如何操作带度量的表:和普通表操作方法一样
    • 带度量的SQL的优势:可在保留SQL语义同时,通过调用Measure解决更复杂的查询
    • 度量如何计算得到:通过上下文(上下文敏感表达式)得到度量的值

👇ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation

🏛机构:ByteDance

➡️领域:

  • Information systems → Data management systems
  • Computing methodologies → Machine learning

📚摘要:​​

  • 背景:

    • 关于ByteHouse:字节公司开发的云原生数据分析引擎,用于处理超大规模数据的复杂分析任务

      ⚠️云原生数据库:指专门为云环境设计和优化的数据库系统

    • 关于基数估计:预测查询结果的数量(大小),直接影响优化器的决策,是有护额的瓶颈所在

  • ByteCard的引入:融合最近在基数估计方面的进展,构建了兼顾可靠/实用的基数估计模型

👇Automated Multidimensional Data Layouts in Amazon Redshift

🏛机构:Amazon

➡️领域:

  • Information systems → Data layout
  • Autonomous database administration
  • Online analytical processing engines

📚摘要:

  • 背景:关于数据布局技术,其是DB/DW中优化存储和访问效率的策略,常见为以下几种

    种类概述示例(T=Tuple/A=Attribute)
    行存储一行数据连续存储T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An
    列存储一列数据连续存储T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An
    排序键数据按Key排序后存储N/A
    索引建立表 ↔ \xleftrightarrow{} 内存位置的索引B+树,哈希表
  • 本文的工作1:提出了多维数据布局(MDDL)

    • 核心方法:传统方法是基于一组列对表进行排序,MDDL是基于一组谓词(查询条件)对表进行排序
    • 优点:是的查询高度的定制化
  • 本文的工作2:提出一种自动化学习算法,基于历史工作负载,自动学习每个表最佳的MDDL

👇Automated Clustering Recommendation With Database Zone Maps

🏛机构:Oracle

➡️领域:Theory of computation → Database query processing and optimization (theory)

📚摘要:一言蔽之,主要讲了区间图/自动聚类在数据仓库中的应用

  • 背景:关于区间图(Zone Maps)
    • 结构:将表划分为Zone,存储每个区域的最大/最小值
    • 工作原理:支持查询时,读取区间的最大/最小值,选择跳过/不跳过该区间,从而减少扫描工作量
    • 优势:在按某列排序/聚类处理后的数据上表现优越
  • 本文的工作:自动分析工作负载→推荐聚类方案(线性聚类和z-order聚类)→建区间图→提高查询性能

http://www.mrgr.cn/news/21589.html

相关文章:

  • Springboot工程配置https访问
  • 英文翻译工具怎么选?这4款值得收藏。
  • gpedit.msc本地组策略编辑器,结果发现竟然打不开了
  • sunxi-fel 的相关命令
  • 文本分类场景下微调BERT
  • 类和对象的概述以及this指针的应用
  • Python基础—Python 中pip的8个必备命令
  • 力扣最热一百题——最大子数组和
  • 最新版 | 深入剖析SpringBoot3源码——分析自动装配原理(面试常考)
  • 超级 密码加密 解密 源码,支持表情,符号,数字,字母,加密
  • SpringBoot登录退出|苍穹外卖登录退出分析
  • yolov8 pt转onnx
  • Java并发:互斥锁,读写锁,Condition,StampedLock
  • 26 线性表 · 顺序表
  • 146. LRU 缓存
  • 11.2.软件系统分析与设计-数据库分析与设计
  • Rust使用之【宏】
  • C# 如何同时Ping多个IP地址
  • STM32 - 笔记4
  • 部落冲突:精通五个流派,部落战传奇杯横着走,但前提是能精通!