KaiwuDB 解析器之语义解析

news/2024/5/19 11:43:39

KaiwuDB 解析器介绍

解析器是数据库系统的重要组成部分之一,主要的功能是将客户端输入的 SQL 语句分解为语法单元,然后将这些语法单元转化成数据库内部可识别的数据结构,最终生成数据库可以执行的计划。

KaiwuDB 的一条 SQL 执行的整个生命周期:

  • 从客户端输入一个 SQL 指令(文本格式),数据库执行器无法直接执行该文本指令,会先通过词法解析和语法解析将文本指令生成数据库能识别的数据结构 AST;
  • 语义解析对 AST 进行有效性校验,生成优化器需要的 Memo 数据结构;
  • 通过优化器(包括 RBO、CBO)优化后选出一个最优的 Memo 结构;
  • 经过逻辑计划构建,生成一个 Plan 数据结构;
  • 通过物理计划构建,生成数据库可执行的数据结构 Physical Plan,最终执行返回结构。

image.png

KaiwuDB 的解析器在整个 SQL 生命周期所处的位置比较靠前,介于客户端和优化器之间,主要功能是将客户端发来的文本指令转化成数据库能识别的数据结构,最后转成优化器需要的数据结构,具体包括三部分:词法解析,语法解析,语义解析。

  • 词法解析:从左到右逐个字符地读入文本,根据构词规则以及空格,将 SQL 文本切成词和符号;
  • 语法解析:在词法分析的基础上将单词序列按照定义好的语法规则组合成各类语法短语,语法分析程序判断源程序在结构上是否正确,并构建出抽象语法树 AST;
  • 语义解析:主要对获得的 AST 进行审查。

KaiwuDB 语义解析原理

在 KaiwuDB 语义解析阶段,会获取到对应 SQL 的 AST,通过解析完 AST 中需要解析的部分,比如下图 AST 中,查询列表的未解析名称、From Clause 中的表名、Where Clause 中未解析名称,最后转化成 Memo 数据结构,供后面优化器优化使用。

对应的,From Clause 转成 Scan Expr,Where Clause 转成 Select Expr,查询列表转成 Project Expr,其中解析完之后表名会用表 ID 表示,列名用列 ID 表示,这就是语义解析主要功能。

image.png
image.png
image.png

表名解析

1、校验前缀:如果没有则直接校验表名,否则,先校验前缀是否存在,如果不存在需要报错,如果存在就继续解析表名。
2、解析表名:校验表名在缓存中是否存在,获取到表的元数据供后续解析使用。

image.png

列名解析

简单列名解析

1、判断是否有前缀,如果没有,直接校验表名;否则,先校验这个表前缀是不是前面解析出来的表,如果都不是,则应报错。
2、检验列名,通过对应表的元数据校验有没有该列,如果没有,则应报错;如果有,则解析成功,获取到列的元数据供后面解析使用。

image.png

函数列解析

1、先解析函数名称,会有一份定义列表,从定义列表查看该函数是否已定义的函数,如果不是应报错。
2、解析函数参数,如果函数的参数存在列,那么就需要校验列的有效性。
3、校验列的类型是否与事先定义好的参数类型一致,如不一致需要报错;如都解析过了,就会获得函数列的信息供后续使用。

image.png图片

复合运算列解析

1、先校验操作符是否被定义过,操作符也有一个定义列表,如在定义列表中没找到则需要报错;如能找到,就会获取该操作符定义的所有表达式。
2、遍历操作符左右表达式,比如 a+5,左表达式是 a 列,右表达式是 5。
3、判断是否是列,如果是就校验列的有效性。
4、根据左表达式类型筛选出部分操作符表达式,后再根据右表达式类型筛选出最终操作符表达式。
5、如操作符最终表达式个数为 0,说明没匹配上,需要报错,操作符最终表达式个数为 1 才是解析成功,最后获得复合运算列的信息,供后续使用。

image.png

点击视频观看完整版回放。


http://www.mrgr.cn/p/04278172

相关文章

全国33个省228189个矿产地位置分布数据,含经纬度坐标/CSV格式

全国矿产地分布(2021版) 数据来源: 全国矿产地数据库2021版 (ngac.org.cn) http://data.ngac.org.cn/mineralresource/index.html 数据获取方法:树谷资料库大全(2024年4月19日更新) 进入网站后&#xf…

线程池核心原理浅析

由于系统资源是有限的,为了降低资源消耗,提高系统的性能和稳定性,引入了线程池对线程进行统一的管理和监控,本文将详细讲解线程池的使用、原理。前言 由于系统资源是有限的,为了降低资源消耗,提高系统的性能和稳定性,引入了线程池对线程进行统一的管理和监控,本文将详细…

04-19 周四 GitHub CI 方案设计

04-19 周四 GitHub CI 方案设计 时间版本修改人描述2024年4月19日14:44:23V0.1宋全恒新建文档2024年4月19日17:22:57V1.0宋全恒完成部署拓扑结构的绘制和文档撰写 简介 需求 由于团队最近把代码托管在GitHub上,为解决推理、应用的自动化CI的需要,调研了…

权益商城系统源码 现支持多种支付方式

简介:权益商城系统源码,支持多种支付方式,后台商品管理,订单管理,串货管理,分站管理,会员列表,分销日志,应用配置。 上传到服务器,修改数据库信息,导入数据库,即可账号密码:123456L 图片: 下载链接-点击

【onnxruntime】【GPU】windows10下onnxruntime-win-x64-gpu-1.15.0 C++版本源码编译教程

【onnxruntime】【GPU】windows10下onnxruntime-win-x64-gpu-1.15.0 C版本源码编译教程 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【onnxruntime】【GPU】windows10下onnxruntime-win-x64-gpu-1.15.0 C版本源码编译教程前言准备工具cuda/…

Ubuntu22.04有线网络连接但是没网,网络图标显示问号

Ubuntu22.04有线网络连接但是没网,网络图标显示问号 问题描述解决方案 问题描述 有线网络连接 但是没网 且网络图标显示问号 解决方案 进入设置->隐私->在 连接情况 中关闭连接检查 关闭后 网络正常

基于Springboot的家具网站

基于SpringbootVue的家具网站设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 商家 家具信息 家居资讯 后台管理 后台首页 用户管理 商家管理 家具类型管理 家具…

ctf_web

ctfshow web13 访问题目链接一看是一道文件上传题,上传文件进行测试 上传php会显示 error suffix 因此推测会检测格式 当文件字数超出一定字数时,显示 error file zise 常规操作就是访问 .php.bak 、.phps 、.swp等文件,看看有没有源码泄露 这道题访问 upload.php.bak 成功获…

音频智能切换器JR-AR42-A

憬锐JR-AR42-A音频自动智能切换器(四切一),具备四路模拟卡侬立体声音频输入,两路模拟卡侬立体声音频输出,其中输入第1路和输出第1路为断电直通通道。具有输入音频信号幅度判别,可设置门限电平和切换延时时间,可以根据需…

顺序表的实现

顺序表的实现/******************************************************************************************************** * * file name: Zqh_顺序表.c * author : keyword2024@163.com * date : 2024/05/05 * function : 顺序表的增删改查 * note : 模板 * * Copy…

Servlet相关知识

什么是servlet? Java Servlet 是运行在 Web 服务器或应用服务器上的程序,它是作为来自 Web 浏览器或其他 HTTP 客户端的请求和 HTTP 服务器上的数据库或应用程序之间的中间层。 使用 Servlet,可以收集来自网页表单的用户输入,呈现来自数据库或者其他源的记录,还可以动态创…

锂电池SOH估计 | Matlab实现基于ALO-SVR模型的锂电池SOH估计

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 锂电池SOH估计 | Matlab实现基于ALO-SVR模型的锂电池SOH估计 蚁狮优化支持向量机锂电池健康状态SOH估计; 具体流程如下; 1、分析锂离子电池老化数据集,从中选取具有代表电池性能衰减…

雷达效果

相位阵雷达效果一个简单思路: 在一个扇形范围内,用多个射线检测来每tick判断点击查看代码 #pragma once#include "CoreMinimal.h" #include "GameFramework/Actor.h" #include "Components/SphereComponent.h" #include "MyActor.generat…

【初中英语提分神器】中考高频词汇大全002-B/C开头单词高频,轻松掌握,考试无忧!速来围观!

PDF格式公众号回复关键字:ZKGCH002B开头单词高频 连词 1 but 然而 I like apples, but I dont like bananas. 我喜欢苹果,但我不喜欢香蕉。 2 because 因为 I didnt go to school today because I was sick. 我今天没去上学,因为我生病了 3 before 在……之前;先于;以前;在…

硬盘遭遇误删分区?这些恢复技巧你必须掌握!

在日常使用电脑的过程中,我们有时会遇到一些棘手的问题,其中误删分区无疑是一个令人头疼的难题。误删分区意味着我们不小心删除了硬盘上的某个分区,导致该分区内的所有数据瞬间消失。对于许多用户来说,这可能会引发极大的恐慌和焦…

字符串Str函数小结

数据结构 字符串Str函数总结 我们学习过很多关于求解字符串相关问题的函数,但是都是每遇到一次算认识了,一定程度上很少进行总结,最近又重新接触到了这类“Str函数”,发现自己还是有点掌握不牢固,以下仅是个人学习总结,有错误之处可指出。如上图所示,在man手册中有许多关…

leetCode68. 文本左右对齐

基本思路&#xff1a; leetCode68. 文本左右对齐 代码 class Solution { public:vector<string> fullJustify(vector<string>& words, int maxWidth) {vector<string> res;for(int i 0; i < words.size(); i){ // 枚举有多少个单词int j i 1; //…

《自动机理论、语言和计算导论》阅读笔记:p428-p525

《自动机理论、语言和计算导论》学习第 14 天,p428-p525总结,总计 98 页。 一、技术总结 1.Kruskals algorithm(克鲁斯克尔算法) 2.NP-Complete Problems p434, We say L is NP-complete if the following statements are true about L: (1)L is in NP。 (2)For every langu…

ComfyUI 基础教程(十四):ComfyUI中4种实现局部重绘方法

在ComfyUI中有多种方式可以实现局部重绘,简单的方式是使用VAE内补编码器进行局部重绘,也可以用Fooocus inpaint进行局部重绘,还可以用controlNet的inpaint模型进行局部重绘,以及使用Clip seg蒙版插件! 本篇介绍使用VAE內补编码器进行局部重绘的方法。 1、VAE内补编码器 局…