当前位置: 首页 > news >正文

理解Flink并行度

前言

我们先提出一个问题:一个算子操作是不是就是一个任务?那是不是程序中的算子数量,就是最终执行的任务数呢?

什么是并行计算

对于 Spark而言,是把根据程序生成的 DAG 划分阶段(stage)、进而分配任务的。而对于 Flink 这样的流式引擎,其实没有划分 stage 的必要。因为数据是连续不断到来的,我们完全可以按照数据流图建立一个“流水线”,前一个操作处理完成,就发往处理下一步操作的节点。如果说 Spark基于 MapReduce 架构的思想是“数据不动代码动”,那么 Flink 就类似“代码不动数据流动”,原因就在于流式数据本身是连续到来的、我们不会同时传输所有数据,这其实是更符合数据流本身特点的处理方式。

在大数据场景下,我们都是依靠分布式架构做并行计算,从而提高数据吞吐量的。既然处理完一个操作就可以把数据发往别处,那我们就可以将不同的算子操作任务,分配到不同的节点上执行了。这样就对任务做了分摊,实现了并行处理。

但是仔细分析会发现,这种“并行”其实并不彻底。因为算子之间是有执行顺序的,对一条数据来说必须依次执行;而一个算子在同一时刻只能处理一个数据。比如WordCount入门程序,一条数据到来之后,我们必须先用 source 算子读进来、再做 flatMap 转换;一条数据被 source读入的同时,之前的数据可能正在被 flatMap 处理,这样不同的算子任务是并行的。但如果多条数据同时到来,一个算子是没有办法同时处理的,我们还是需要等待一条数据处理完、再处理下一条数据——这并没有真正提高吞吐量。

所以相对于上述的“任务并行”,我们真正关心的,是“数据并


http://www.mrgr.cn/news/3192.html

相关文章:

  • php7.1编译安装
  • 【python】JS逆向中,手把手教会你如何层层突破瑞数加密
  • 【C++】经典爬楼梯问题的不同解法-C++学习资料
  • 数据结构——堆
  • (九)基于 Flink DataStream API 应用案例
  • 前端开发工程师面试整理-ES6+的新特性
  • pcdn闲置带宽被动收入必看教程。第五讲:光猫更换和基础设置
  • 详解线索分层的目的、维度与创新实践
  • 搜维尔科技:使用Geomagic Touch遥操作UR3机器人进行抓取放等操作
  • git命令大全及实操
  • git commit 时发生:fatal: cannot lock HEAD ref
  • Django后端架构开发:后台管理与会话技术详解
  • 安卓查询系统数据库(ContentResolver)带关键字解决方法
  • 数据库学习(进阶)
  • NSI程序打包脚本文件编写教程
  • Git 使用总结
  • 网安加·百家讲坛 | 裴伟伟:蓝牙音箱和耳机安全测评报告
  • Opencv常用函数汇总
  • 网站建设中:高效利用Robots.txt文件的策略与实践
  • 笔记 6 : 彭老师课本第 5 章 ,举例分析 IIC 编程,以及开启虚拟机