Kafk设计篇01(设计动机+持久化)

news/2024/5/20 18:35:47

背景

本篇文章基于最新版本:kafka 3.7,其他版本的设计,请参考官网:

https://kafka.apache.org/documentation/

设计动机

任何组件都有它存在的必要,必然是要解决某一类问题的。我们来看看kafka设计的初衷如何。

kafka定位:一个能够处理所有实时数据的统一平台

注意这里有两个关键词:实时数据、统一的平台。

实时数据:我们可以大致解释为,kafka设计之初是专门针对实时数据流场景的。真实生产环境中也是如此,我们一般利用kafka用来接收实时流数据,而且往往是大数据量的场景,它能轻松的抗住上万的qps,并且具备消息持久化的能力。

统一平台:这里平台的意思,我个人理解是,不仅提供了消息中间件的能力,还提供了一系列配套的功能,来辅助完成消息的认证、接入、加工处理。这里分别指的是:SASL、Connect和Kafka Streaming。

基于以上目标,kafka必须拥有高吞吐,才能支持像实时日志聚合这样的大体量数据流,通常大公司,实时日志数据量会非常多,一天能到亿级别甚至更高。它还需要能够优雅的处理大量的积压数据,来支持离线场景周期的数据加载。这也意味着,这个系统需要能够具备低延迟的发送,来处理更加传统的消息使用场景。

最后,在提供数据流给其他数据系统过程中,我们需要保证机器在出现故障时的容错能力。

综上:kafka这个系统,最少需要具备以下能力:

  • 高吞吐
  • 大数据量场景
  • 低延迟的消息处理
  • 很强的容错能力

持久化

不要害怕文件系统!

Kafka很大程度的依赖文件系统来存储和缓存消息。在目前看来,与固态硬盘、内存等相比,大家总认为磁盘非常慢,这也让大家抱有怀疑,利用磁盘来进行持久化是否能够提供有竞争力的性能。

事实上,磁盘的效率取决于大家怎么用,他会比我们想象中的更快(用得好)或更慢(用的差),并且适当的磁盘结构设计往往能够像网络一样快。

磁盘性能的关键因素是在近十年来硬件驱动器的吞吐量已经和磁盘寻址延迟不同。因此,在具有六个7200转速的SATA RAID-5阵列的JBOD配置上,线性写入的性能约为600MB/秒,但是随机写入的性能只有大约100k/秒,两者之间相差6000倍。这就是为什么上面说的,磁盘用得好比我们想象中的快,用不好比我们想象的慢。这些线性读写是所有使用场景中最容易预测的,操作系统做了很多的优化。一个现代操作系统提供了预读和后写的技术,以大块倍数进行数据预读取并且将较小的写入操作合并为一次较大的物理写入,写入这里可以理解为微批的思路。关于磁盘的一些研究发现,顺序的磁盘访问在一些场景下,能够比随机内存访问更快。

为了弥补性能的差异,现代操作系统积极的使用主存进行磁盘缓存。一个现代的操作系统在回收内存时,会很高兴的将所有可用内存转移到磁盘缓存,而几乎不会对性能造成影响。所有的磁盘读写操作都会通过这个统一的缓存(文件缓存)。这个特性在不使用直接I/O的情况下,不能轻松的被关闭,所以即使一个进程维护了一份数据的进程内的缓存,这份数据也会在操作系统的页缓存中被复制一份,会有效的将数据存储两次。

而且,我们是建立在JVM之上的,并且任何一个花时间使用过java内存的人知道这两件事:

  1. 对象的内存开销非常高,经常使存储的数据的大小翻倍,甚至更大。
  2. 当堆内的数据变大,Java的垃圾回收变得繁琐和缓慢。

由于上述这些因素,使用文件系统以及依赖页缓存更优于保持内存级的缓存或其他结构。通过自动的访问所有可用内存,我们至少能够将可用缓存翻倍,甚至通过存储紧凑的字节结构,而不是独立的对象,还能够再次翻倍。这样做能够在32G的机器上获得28-30G的内存空间,而不会受到GC的影响。

而且这部分缓存即使服务重启也会保持在热状态,然而进程内缓存是需要重建的(10GB缓存数据,可能需要10分钟),或者说需要从一个完全冷缓存中进行预热,这也伴随着很糟糕的性能。这极大地简化了代码,现在所有保持缓存和文件系统一致性的逻辑都在操作系统中,这也意味着比进程内一次性的尝试更加的高效和正确。如果你的磁盘使用场景倾向于线性读取,那么预读机制会在每次磁盘读时更有效的将有效数据填充到缓存中去。

这表明了一种非常简单的设计:并非在内存中保存越多的数据,然后在我们快用完空间时,恐慌的将数据刷入到文件系统中去,我们恰恰相反。所有的数据会被立即写到文件系统中的持久化日志文件中去,即不需要刷入到磁盘了。实际上这只意味着它被转移到内核的页缓存中去。真正刷盘的动作,由操作系统来保证。

下图简单描述了下页缓存和磁盘文件的关系:

在这里插入图片描述

这里简单总结下使用文件系统的好处:

  • 顺序读写场景,比内存随机读更快
  • 页缓存由os维护,一致性也由操作系统保证,对象存储效率更高
  • 能够使用更大的缓存空间32G机器最高能用到30G的缓存,且不会受到gc的影响

因此,后续我们在设计系统时,不一定仅仅考虑数据在内存中保持,可以适当的考虑文件系统,充分利用操作系统的预读 + 批量刷盘机制。

恒定时间保证

消息系统中的持久化数据结构往往使用相关联的B树或其他通用的随机访问数据结构,来保存消息的元数据。B数是最通用的可用数据结构,并且在消息系统中支持多种事务和非事务的语义。但是B树有相当高的代价,对Btree的操作时间复杂度是O(log N)。一般来说O(log N)被认为基本等同于恒定时间,但是在磁盘操作中,这个结论不成立。磁盘寻址一次10ms,且磁盘同一时间只能做一次寻址操作,并行是有限制的。因此即使少量的磁盘寻址操作也会导致很高的代价。由于存储系统混合了非常快的缓存操作和非常慢的物理磁盘操作,树结构的观测性能常常随着混合数据的增长是超线性增长的,即:一倍的数据往往是性能降低一倍以上。

直观来说,持久化队列可以被构建为简单的读和文件追加的方式,这在日志解决方案中很常见。这个结构的优势是所有的操作是O(1)并且读写不会互相阻塞。这有很明显的性能优势,因为性能和数据规模是完全分离的,一个服务器可以使用便宜的、低转速的、1TB以上的 SATA磁盘设备。尽管他们的寻址性能很差,但是他们有着可接受的大数据量读写的性能并且只有1/3的价格以及3倍的容量。

在这里插入图片描述

可以访问几乎无限的磁盘空间而不会有性能衰减意味着我们可以提供一些其他消息系统不常见的功能。例如,在kafka中,当消息被消费后,我们不会尝试去尽快的删除消息,我们可以把消息保留相当一段时间,比如说一周(默认)。这使得消费者可以非常的灵活,比如说可以通过多个消费组,多次消费历史的消息。

随着数据量增大,kafka消息持久化以及读取,始终是恒定的时间:O(1)。

这也是一个亮点。特别是现在磁盘的转速越来越高,价格也始终保持很低,也让kafka越发的有优势。


http://www.mrgr.cn/p/06650412

相关文章

【Matlab-动画-附源码】3分钟教你用Matlab做一个Lorenz动画

lorenz-x-y-z Lorenz三个维度数据 在科研工作中,经常需要将数据可视化以便更好地理解和传达研究成果。 但大家主要放静态图片,而视频或动画通常比静态图片更具吸引力和表现力。AE, Manim太难学,Matlab就可以用来制作动画。 在这篇博客中&…

Golang | Leetcode Golang题解之第69题x的平方根

题目&#xff1a; 题解&#xff1a; func mySqrt(x int) int {if x 0 {return 0}C, x0 : float64(x), float64(x)for {xi : 0.5 * (x0 C/x0)if math.Abs(x0 - xi) < 1e-7 {break}x0 xi}return int(x0) }

QT5带UI的常用控件

目录 新建工程&#xff0c;Qmainwindow带UI UI设计器 常用控件区 Buttons 按钮 containers 容器 控件属性区域 对象监视区 布局工具区 信号与槽区 简单例子1 放置一个按钮控件&#xff0c;改文本为发送&#xff0c;该按键为Button1&#xff1b; 按钮关联信号和…

手动实现简易版RPC(四)

手动实现简易版RPC(四) 往期内容 手动实现简易版RPC&#xff08;一&#xff09;&#xff1a;RPC简介及系统架构 手动实现简易版RPC&#xff08;二&#xff09;&#xff1a;简单RPC框架实现 手动实现简易版RPC(三)&#xff1a;mock数据生成 前言 接上几篇博客我们实现了最…

01-Excel基础操作-学习笔记

01 选择性粘贴一般的复制粘贴,可以直接使用快捷键Ctrl+C 复制,Ctrl+V 粘贴。但是在工作场景中,这样简单的复制粘贴远远不能满足需要。因此,学习了这个选择性粘贴工具。选择性粘贴工具在哪里? 选中单元格区域——复制——鼠标右击——选择性粘贴应用场景一:要求保留原有格…

优化建图

写 \(2-SAT\) 时刷到的,发现好像一点不会,学习下。 1. 线段树优化建图 当一个点与一段区间连边时,暴力连是 \(O(n^2)\) 的。 因为线段树有一个肥肠优秀的性质,一个区间最多被分为 \(O(logn)\) 个节点。 so,我们可以把区间当成放到线段树上,这样是 \(O(nlogn)\) 的。 具体…

[ISITDTU 2019]EasyPHP RCE异或限制

解决一个一直以来的问题,RCE的异或绕过问题。先了解下奇技淫巧吧--> https://www.leavesongs.com/PENETRATION/webshell-without-alphanum.html 接下来说说今天的问题,在做异或问题是发现许多payload都是(xxxxx)^(%ff....),这都是怎么来的呢。 现在说说吧,就比如拿_号来说…

【Python的魅力】:利用Pygame实现游戏坦克大战——含完整源码

文章目录 一、游戏运行效果二、代码实现2.1 项目搭建2.2 加载我方坦克2.3 加载敌方坦克2.4 添加爆炸效果2.5 坦克大战之音效处理 三、完整代码 一、游戏运行效果 二、代码实现 坦克大战游戏 2.1 项目搭建 本游戏主要分为两个对象&#xff0c;分别是我方坦克和敌方坦克。用户可…

三. Django项目之电商购物商城 -- 校验用户名 , 数据入库

Django项目之电商购物商城 – 校验用户名 , 数据入库 需要开发文档和前端资料的可私聊 一. 路由匹配获得用户名 在注册时 , 用户输入用户名 , 通过ajax请求发送到服务器 , 在路由中设置对应url , 响应视图 , 将用户输入的用户名传入视图 , 与数据库进行校验检查用户名是否重…

Linux nohup 命令

Linux nohup 命令 应用场景 使用 PyCharm 连接服务器跑模型虽然很方便,但是如果遇到网络不佳、PyCharm出BUG、急需转移阵地等情况就只能中断训练,前面的全白跑了。 因此可以尝试直接在服务器上使用命令跑模型,这个命令好说,笨一点的方法直接抄用 PyCharm 运行时输出的命令嘛…

读《如何高效学习》[加] 斯科特扬 笔记

收获颇多,优化了个人笔记整理及日程安排的思维体系, 将各个经验之谈提炼为了逻辑性较好的系统框架。提升了个人学习和工作效率。序言第一部分 整体性学习策略 1 获取 (1)简化 (2)容量 (3)速度 2 理解 3 拓展 深度拓展 横向拓展 纵向拓展 4 纠错 5 应用 测试 信息结…

2023 广东省大学生程序设计竞赛(部分题解)

目录 A - Programming Contest B - Base Station Construction C - Trading D - New Houses E - New but Nostalgic Problem I - Path Planning K - Peg Solitaire A - Programming Contest 签到题&#xff1a;直接模拟 直接按照题目意思模拟即可&#xff0c;为了好去…

实现队列 栈 双端队列

以下都是用list来实现的实现Stack# Implement a Stack in Python class Stack(object):def __init__(self):self.items = []def is_empty(self):return self.items == []def push(self, item):self.items.append(item)def pop(self):return self.items.pop()def peek(self):ret…

微信小程序之搜索框样式(带源码)

一、效果图&#xff1a; 点击搜索框&#xff0c;“请输入搜索内容消失”&#xff0c;可输入关键字 二、代码&#xff1a; 2.1、WXML代码&#xff1a; <!--搜索框部分--><view class"search"><view class"search-btn">&#x1f50d;&l…

数据库加密数据模糊匹配查询技术方案

文章目录 前言沙雕方案内存加载解密密文映射表 常规做法实现数据库加密算法参考 分词组合加密&#xff08;推荐&#xff09; 超神方案总结个人简介 前言 在数据安全性和查询效率之间找到平衡是许多数据管理系统所面临的挑战之一。特别是在涉及加密数据的情况下&#xff0c;如何…

IP协议,网络层

一、IP协议报文 在网络层最主要的协议是IP协议&#xff0c;网络层的主要任务是进行&#xff1a;1.地址管理 2.路由选择 地址管理&#xff1a;使用一套地址体系&#xff0c;描述互联网中每个设备所处的位置。 IP地址有两个版本&#xff0c;1.IPV4 2.IPV6 &#xff0c;IP…

uiautomator2使用方法

一.设备连接 1.usb单设备连接d = u2.connect()2.usb多设备连接d = u2.connect("90bf8faf") # 多台设备填写device即可3.wifi连接d = u2.connect("ip:proxy") # wifi连接设备adb使用wifi连接设备:https://www.cnblogs.com/lihongtaoya/p/17553171.html 二…

W801学习笔记二十:宋词学习应用

前三章完成了唐诗的应用&#xff0c;本章将实现宋词的学习应用。 宋词与唐诗的区别不大&#xff0c;马上开始。 1、我们需要参考前面唐诗的方式&#xff0c;把宋词文本下载下来&#xff0c;并进行格式整理。 W801学习笔记十七&#xff1a;古诗学习应用——上 2、在菜单中添加…

查看、删除数据库

#删除和查询数据库 #查看当前数据库服务器中的所有数据库 show databases #查看hsp_db01数据库的定义信息 show create database `hsp_db01` #在创建数据库,表的时候为了规避关键字,可以用``反引号解决 #删除数据库hsp_db01 drop database hsp_db01

element-ui使用el-date-picker日期组件常见场景

开始 最近一直在使用 element-ui中的日期组件。 所以想对日期组件常用的做一个简单的总结; 1.处理日期组件选择的时候面板联动问题 2.限制时间范围解除两个日期面板之间的联动 我们发现2个日期面板之间其实是有联动关系的; 开始时间面板和结束时间面板始终只能相邻; 不能出…