Spark运行流程及架构设计

news/2024/5/19 7:57:55
  • spark中一个应用程序application会在任务控制节点上启动一个Driver程序,并且这个Driver程序会创建一个SparkContext对象(类似于mapreduce中的applicationManager)。该对象有三个任务,1是向资源管理器clusterManager注册(类似mapreduce中的resourcemanager),2是向资源管理器clusterManager申请运行资源,3是根据应用程序RDD间的依赖关系构建多个DAG对象(多个作业job,作业是Spark中实际执行的计算任务,而DAG则是表示这些计算任务执行计划的数据结构),通过DAG调度器得到多个阶段(任务集),再通过任务调度器得到多个任务。刚才SparkContex向资源管理器申请了资源,该资源不会直接分给SC,而是会直接分配资源给工作节点上的executor进程并启动该进程,executor进程同样两项任务,1是通过心跳告知资源管理器自己的运行状况(就像mapreduce中nodemanager会向resourcemanager报告自己的运行状况。),2是向sparkcontex申请任务并将执行结果返回给SC。
  • application构成:1个任务控制节点+n个工作job(DAG)
  • 运行架构:任务控制节点Driver、工作节点、进程executor、集群管理器clusterManager
  • 对以上内容总结如下:
  1. Driver程序和SparkContext
    • Spark应用程序确实会在任务控制节点(通常是集群中的某个节点)上启动一个Driver程序。
    • Driver程序会创建一个SparkContext对象,这是Spark应用程序的入口点。
  2. 注册与资源申请
    • SparkContext首先会向资源管理器(如YARN的ResourceManager或Spark Standalone的Master)注册,这样资源管理器就知道这个应用程序已经启动并且需要资源。
    • 接着,SparkContext会向资源管理器申请资源来启动Executor进程。这些资源通常包括CPU核数和内存大小。
  3. DAG(Directed Acyclic Graph)构建与调度
    • 根据应用程序中的RDD操作,Spark会构建一个或多个DAG(有向无环图),这些DAG表示了RDD之间的依赖关系。
    • DAG调度器(DAGScheduler)会将DAG切分成多个阶段(Stages),每个阶段包含一组可以并行执行的任务(Tasks)。
    • 任务调度器(TaskScheduler)会负责将任务分配给Executor进程来执行。
  4. Executor进程
    • Executor进程是在工作节点(Worker Nodes)上启动的,它们负责执行具体的计算任务。
    • Executor进程通过心跳(Heartbeat)机制与Driver程序通信,告知自己的状态,如资源使用情况、任务执行进度等。
    • Executor进程会向Driver程序请求任务,并在完成后将结果返回给Driver程序。

**一个应用程序通过单个SparkContext与集群交互,它向clustermanager申请资源后,资源管理器会启动n个工作结点上的多个executor进程,这些进程向sparkcontext申请任务来执行,这些任务来自不同的job的不同阶段,所以说job之间是并行计算的。


http://www.mrgr.cn/p/81606404

相关文章

开发体育赛事直播平台,研发技术选型与架构设计实现方案

本文将深入探讨“东莞梦幻网络科技”现成体育直播源码的技术实现方案,如何为用户提供流畅、互动、个性化的观赛体验。 一、技术栈选择:强强联合的基石1、后端开发:采用Java与PHP作为主要开发语言。Java以其强大的企业级应用支持,保…

aardio爬虫) 实战篇:逆向有道翻译web接口

前言 之前的文章把js引擎(aardio封装库) 微软开源的js引擎(ChakraCore))写好了,这篇文章整点js代码来测一下bug。测试网站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻译js逆向(MD5加密,AES加密)附完整源码,逆向我就不赘述了。这篇文章说一下怎…

【Mac】graphpad prism for Mac(专业医学绘图工具) v10.2.3安装教程

软件介绍 GraphPad Prism for Mac是一款专业的科学数据分析和绘图软件,广泛用于生物医学和科学研究领域。它具有强大的统计分析功能,可以进行各种数据分析,包括描述性统计、生存分析、回归分析、方差分析等。同时,它还提供了丰富…

“any”类型的参数不可分配给“never”类型的参数。ts(2345)

问题引入在进行项目开发时,用到了 el-tree 标签,就是组织树状数据渲染页面,类似菜单,然后父级菜单下会有多个子菜单。本次总共就两层。这里遇到的问题是,后端返回的数据就是一个list,属于叶子节点,父级节点是固定的,需要前端写死,但就在写死了父级节点,并将叶子节点加…

ubuntu 桥接模式无法上网解决

ubuntu安装,根据个人的选择来配置网络信息,以下是vmare配置桥接模式时ubuntu无法上网的处理方式: 1. vmare-》虚拟机-》设置, 选中桥接模式(复制物理状态可以不勾选)2. vmare-》编辑-》虚拟网络编辑器, 选中更改设置 2. 选中VMnet0网卡,该网卡选中电脑目前在用的网卡名…

【iOS】KVO

文章目录 前言一、KVO使用1.基本使用2.context使用3.移除KVO通知的必要性4.KVO观察可变数组 二、代码调试探索1.KVO对属性观察2.中间类3.中间类的方法3.dealloc中移除观察者后,isa指向是谁,以及中间类是否会销毁?总结 三、KVO本质GNUStep窥探…

用php找出字符串中连续重复次数最多的字符,你有方法吗?

找出字符串中连续重复次数最多的字符,这里总结了几种方法,不管是在开发中,还是在面试中都会遇到。 方法一<?php $arr = str_split($str); //字符串分隔到数组中$arr = array_count_values($arr); //用于统计数组中所有值出现的次数,返回一个数组//键名为原数组的键值,…

WEB安全~X-Frame-Options

X-Frame-Options 是一个HTTP响应头,用于控制网页是否可以嵌套在 <frame>, <iframe>, <embed> 或者 <applet> 中。通过设置 X-Frame-Options 头部,网站管理员可以防止网页被嵌套到其他网站的框架中,从而有效防范点击劫持等安全风险。下面是关于 X-Fr…

微服务 - 作业调度 Hangfire集成式 仪表盘 DolphinScheduler分布式 定义流程

Hangfire,Client,Storage,Server,Dashboard,一次性作业任务,延迟作业,周期性定时作业,触发型作业任务,删除作业任务,作业队列,异常重试机制,原理机制与适用场景,DolphinScheduler,自定义业务流程,流程节点类型,串行并行逻辑节点,流程节点参数,数据源,流程实…

RK3568笔记二十四:基于Flask的网页监控系统

若该文为原创文章&#xff0c;转载请注明原文出处。 此实验参考 《鲁班猫监控检测》&#xff0c;原代码有点BUG&#xff0c;已经下载不了。2. 鲁班猫监控检测 — [野火]嵌入式AI应用开发实战指南—基于LubanCat-RK系列板卡 文档 (embedfire.com) 一、简介 记录简单的摄像头监…

flutter 编译环境部署

一. 编译环境安装 1. 安装ubuntu20.04,详细的教程请看以下链接 VMware虚拟机下安装Ubuntu20.04(保姆级教程)_ubuntu 20.04 虚拟机-CSDN博客 2. 部署flutter环境,详细教程请参照以下链接 构建 flutter 应用程序 sony/flutter-elinux 维基 GitHub上 注意:在进行docker映射时…

智能决策新时代:可视化大屏是否能够超越传统白板?

前言 2015年,国务院提出了中国制造2025制造强国“三步走”规划,旨在推动中国制造业成为全球制造强国:第一个十年规划,2015-2025:中国制造业迈入制造强国行列,实现技术创新和产业升级。 第二个十年规划,2025-2035:中国制造业整体达到世界强国中等水平,推动产业智能化和…

【汇编语言】中断及外部设备操作

【汇编语言】中断及外部设备操作 文章目录 【汇编语言】中断及外部设备操作前言一、中断及其处理中断的概念8086内中断中断处理程序案例&#xff1a;系统中的0号中断中断过程 二、编制中断处理程序中断处理程序及其结构编制中断处理程序——以除法错误中断为例do0子程序应该放在…

day31-jQuery

1、jQuery介绍jQuery是什么jQuery是一个快速、简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScript代码库(或JavaScript框架)。jQuery设计的宗旨是“write Less,Do More”,即倡导写更少的代码,做更多的事情。它封装JavaScript常用的功能代码,提供一种简便的J…

物联网小demo

机智云生成代码 具体参考之前的文章 初始化 ADC用来使用光敏电阻 连续采样开启 采样的周期调高 定时器 定时器1用来实现延时 为了只用温湿度模块DHT11 定时器4用来和51进行交互 实现定时的发送和检测心跳信号 IIC 用来使用oled屏幕 USART 串口1和串口2是机智云自己…

VMware ESXi 7.0U3p macOS Unlocker Dell (戴尔) OEM 定制版自定义镜像 A20

VMware ESXi 7.0U3p macOS Unlocker Dell (戴尔) OEM 定制版自定义镜像 A20VMware ESXi 7.0U3p macOS Unlocker Dell (戴尔) OEM 定制版自定义镜像 A20 ESXi 7.0U3 标准版,Dell (戴尔)、HPE (慧与)、Lenovo (联想)、Inspur (浪潮)、Cisco (思科)、Hitachi (日立)、Fujitsu (富…

毕设求助

毕业答辩一辩没过,老师说我的系统没什么用。说让我换个题目加两个功能,有没有大佬指导一下应该怎么做,往哪个方向去想大概界面就是这样,求大佬指点,有偿

程序设计——前后端分离实现简单表白墙

文章目录 一、前端页面样式代码二、前后端衔接1. 后端创建 maven 项目2. 针对前后端交互的解释以及后端代码的实现针对 post 请求解释前后端衔接针对 Get 请求解释前后端衔接 3.后端与数据库的联系以及对数据的存取单独封装数据库连接代码解释后端存储 save 数据的代码解释后端…

用Golang做一个永久阻塞,有哪些小技巧 ?

用Golang做一个永久阻塞,有哪些小技巧 ? 磊丰 Go语言圈 2024-05-06 08:30 广东 听全文Go语言圈 Go语言开发者的学习好助手,分享Go语言知识,技术技巧,学习与交流Go语言开发经验,互动才有助于技术的提升,每天5分钟,助你GO语言技术快乐成长 159篇原创内容公众号学习与交流:…

vue3早已具备抛弃虚拟DOM的能力了

前言 jquery时代更新视图是直接对DOM进行操作,缺点是频繁操作真实 DOM,性能差。react和vue时代引入了虚拟DOM,更新视图是对新旧虚拟DOM树进行一层层的遍历比较,然后找出需要更新的DOM节点进行更新。这样做的缺点就是如果DOM树很复杂,在进行新旧DOM树比较的时候性能就比较差…