皮皮网
皮皮网

【solrj源码】【竞赛官网源码】【直播源码行业分析】yarn源码组件

时间:2025-01-07 23:14:11 来源:标杆源码

1.Spark源码解析2-YarnCluster模式启动
2.yarn的安装
3.深入浅出 Yarn 架构与实现4-1 ResourceManager 功能概述
4.Hadoop最全八股
5.YARN源码剖析:NM启动过程
6.Vue3核心源码解析 (一) : 源码目录结构

yarn源码组件

Spark源码解析2-YarnCluster模式启动

       YARN 模式运行机制主要体现在Yarn Cluster 模式和Yarn Client 模式上。源码在Yarn Cluster模式下,组件SparkSubmit、源码ApplicationMaster 和 CoarseGrainedExecutorBackend 是组件独立的进程,而Driver 是源码独立的线程;Executor 和 YarnClusterApplication 是对象。在Yarn Client模式下,组件solrj源码SparkSubmit、源码ApplicationMaster 和 YarnCoarseGrainedExecutorBackend 也是组件独立的进程,而Executor和Driver是源码对象。

       在源码中,组件SparkSubmit阶段首先执行Spark提交命令,源码底层执行的组件是开启SparkSubmit进程的命令。代码中,源码SparkSubmit从main()开始,组件根据运行模式获取后续要反射调用的源码类名赋给元组中的ChildMainClass。如果是Yarn Cluster模式,则为YarnClusterApplication;如果是Yarn Client模式,则为主类用户自定义的类。接下来,获取ChildMainClass后,通过反射调用main方法的过程,反射获取类然后通过构造器获取一个示例并多态为SparkApplication,再调用它的start方法。随后调用YarnClusterApplication的start方法。在YarnClient中,new一个Client对象,其中包含了yarnClient = YarnClient.createYarnClient属性,这是Yarn在SparkSubmit中的客户端,yarnClient在第行初始化和开始,即连接Yarn集群或RM。之后就可以通过这个客户端与Yarn的RM进行通信和提交应用,即调用run方法。

       ApplicationMaster阶段主要涉及开启一个Driver新线程、竞赛官网源码AM向RM注册、AM向RM申请资源并处理、封装ExecutorBackend启动命令以及AM向NM通信提交命令由NM启动ExecutorBackend。在ApplicationMaster进程中,首先开启Driver线程,开始运行用户自定义代码,创建Spark程序入口SparkContext,接着创建RDD,生成job,划分阶段提交Task等操作。

       在申请资源之前,AM主线程创建了Driver的终端引用,作为参数传入createAllocator(),因为Executor启动后需要向Driver反向注册,所以启动过程必须封装Driver的EndpointRef。AM主线程向RM申请获取可用资源Container,并处理这些资源。ExecutorBackend阶段尚未完成,后续内容待补充。

yarn的安装

       è¿™æ®µæ—¶é—´æŠ vue3的源码,在开始时,就碰到了yarn的安装问题

        拿到源码:npm install,很好,报错:

        接下来安装yarn:

        在vscode里面安装yarn的时候,npm install -g yarn 执行成功,

        但是在查看版本yarn -version的时候报错,如下:

        最后是需要在环境变量里面配置系统变量,地址就是npm install -g yarn的时候返回的路径,我的如下:

        下图是其他人一次执行成功的截图圈出来的是环境变量配置地址

深入浅出 Yarn 架构与实现4-1 ResourceManager 功能概述

       深入浅出 Yarn 架构与实现,本文将重点介绍 ResourceManager(RM)的功能概述与架构解析。

一、RM 基本职能

       RM 主要承担集群管理、任务调度、状态机管理等功能,通过与各 Client 的 RPC 通信实现「Pull 模型」,定期接收 Client 心跳并下达指令。

二、RM 内部架构

       RM 内部包含用户交互、NM 管理、AM 管理、Application 管理、直播源码行业分析状态机管理、安全管理与资源分配等多个模块。架构设计采用事件驱动机制,通过中央异步调度器整合不同组件。

三、RM 事件与事件处理器

       Yarn 的事件驱动机制中,RM 作为核心组件,通过事件交互实现高效并行系统。组件间通过事件通信协同工作。

四、小结

       ResourceManager 在 YARN 中扮演核心角色,负责资源统一管理和分配。本文对 RM 的职能、架构、事件处理进行了概述,后续文章将深入源码,对各个部分进行更详细的解析。

Hadoop最全八股

       分布式系统基础架构,主要解决海量数据存储与分析计算问题。

       Hadoop特点:1.x版本MapReduce功能与资源调度耦合性较高,2.x版本引入Yarn,专责资源调度。

       Hadoop运行模式包括:HDFS客户端、NameNode(Master)、DataNode(Slave)和Secondary NameNode(备NN)。

       Block概念:磁盘读写最小单位,文件系统块为磁盘块整数倍,HDFS同样采用此概念,分解文件为块存储。

       HDFS组件详解:包括HDFS客户端、NameNode、DataNode和Secondary NameNode。三追踪指标源码

       HDFS的Block块大小默认在2.7.2版本前为M,版本2.7.3及以上调整为M。

       HDFS写流程:文件传输至NameNode,分配Block,DataNode存储Block。

       HDFS读流程:从DataNode读取Block,组装成文件。

       DN节点数据完整性:通过Secondary NameNode监控和备份。

       HDFS HA实现:集群同时运行两个NN,实时同步,故障切换。

       HDFS数据一致性:JN节点确保数据同步,避免脑裂。

       MapReduce区域:分布式运算框架,整合用户代码和默认组件,实现并行计算。

       MapReduce优缺点:高效并行处理数据,但复杂度高,资源管理复杂。

       MapReduce进程:包括InputFormat数据输入、切片与并行度机制、Job提交流程、源码详解、切片机制、FileInputFormat、CombineTextInputFormat。

       MapReduce工作流程:数据切片、Map处理、Shuffle、Reduce处理、数据输出。

       Shuffle机制:数据从MapTask传输至ReduceTask,资源加载源码公式包括分区、排序、合并。

       OutputFormat数据输出:默认格式TextOutputFormat,实现MapReduce输出。

       MapTask与ReduceTask:MapTask执行Map阶段,ReduceTask执行Reduce阶段。

       MapReduce数据倾斜:数据分布不均,影响计算效率,解决方案包括数据均衡、调整切片策略等。

       Yarn区域:资源调度平台,为运算程序提供运算资源。

       Yarn组件:包含ResourceManager(RM)、NodeManager(NM)、ApplicationMaster和Container模块。

       Yarn工作机制:调度资源,运行MapReduce等运算程序。

       Yarn调度器:FIFO、容量(Capacity Scheduler)、公平(Fair Scheduler),默认设置。

       Yarn生产环境核心参数:监控与日志聚合,确保系统高效稳定运行。

       总结:Hadoop与Yarn是大数据处理的核心技术,涉及分布式存储、计算、资源调度等关键环节,通过优化配置与策略,可实现高效、稳定的数据处理能力。

YARN源码剖析:NM启动过程

       NodeManager初始化和启动过程主要涉及配置文件读取,资源信息配置,以及服务启动等步骤。重点在于初始化阶段,配置文件读取完成,包括关于节点资源信息的配置。

       启动NodeManager(NM)时,遵循与ResourceManager(RM)类似的逻辑,启动各个服务。关键在于nodeStatusUpdater模块。其中两个重要方法为registerWithRM()和startStatusUpdater()。这两个方法通过RPC远程调用ResourceManager中的两个接口:registerNodeManager()和nodeHeartbeat()。

       NM启动过程中添加的服务列表构成其核心功能描述。例如,NodeHealthCheckerService提供节点健康检查功能,包含两个子service:NodeHealthScriptRunner(使用配置的脚本进行健康检查)和LocalDirsHandlerService(检查磁盘健康状况)。此服务包含getHealthReport()方法,用于获取健康检查结果。

       NM中的关键类之一为NMContext,它作为组件间信息共享的接口。

       NM与RM之间的心跳通信是整个过程中不可或缺的部分,确保了资源管理系统的实时状态监控与资源分配协调。

       综上所述,NodeManager的启动过程涉及初始化配置、启动关键服务以及与ResourceManager的交互,实现资源管理和节点健康监控等功能。这一过程为YARN框架提供了稳定、高效的基础结构。

Vue3核心源码解析 (一) : 源码目录结构

       通过软件框架源码阅读,深入理解框架运行机制,API设计、原理及流程成为开发者进阶的关键。Vue 3源码相较于Vue 2版本的改进明显,采用Monorepo目录结构,引入TypeScript作为开发语言,新增特性和优化显著。

       启动Vue3源码,最新版本为V3.3.0-alpha.5。下载后进入core文件夹,使用Yarn进行构建。安装依赖后,执行npm run dev启动调试模式,可直观查看完整的源代码目录结构。

       核心模块包括compiler-core、compiler-dom、runtime-core、runtime-dom。compiler模块在编译阶段负责将.vue文件转译成浏览器可识别的.js文件,runtime模块则负责程序运行时的处理。reactivity目录内是响应式机制的源码,遵循Monorepo规范,每个子模块独立编译打包,通过require引入。

       构建Vue 3版本可使用命令,构建结果保存在core\packages\vue\dist目录下。选择性构建可通过命令实现,具体参数配置在core/rollup.config.js中查看。对于客户端编译模板,需构建完整版本,而使用Webpack的vue-loader时,.vue文件中的模板在构建时预编译,无需额外编译器。浏览器直接打开页面时采用完整版本,构建工具如Webpack引入运行时版本。Vue的构建脚本源码位于core/scripts下。

深入理解 Hadoop (七)YARN资源管理和调度详解

       Hadoop最初为批处理设计,其资源管理与调度仅支持FIFO机制。然而,随着Hadoop的普及与用户量的增加,单个集群内的应用程序类型与数量激增,FIFO调度机制难以高效利用资源,也无法满足不同应用的服务质量需求,故需设计适用于多用户的资源调度系统。

       YARN采用双层资源调度模型:ResourceManager中的资源调度器分配资源给ApplicationMaster,由YARN决定;ApplicationMaster再将资源分配给内部任务Task,用户自定。YARN作为统一调度系统,满足调度规范的分布式应用皆可在其中运行,调度规范包括定义ApplicationMaster向RM申请资源,AM自行完成Container至Task分配。YARN采用拉模型实现异步资源分配,RM分配资源后暂存缓冲区,等待AM通过心跳获取。

       Hadoop-2.x版本中YARN提供三种资源调度器,分别为...

       YARN的队列管理机制包括用户权限管理与系统资源管理两部分。CapacityScheduler的核心特点包括...

       YARN的更多理解请参考官方文档:...

       在分布式资源调度系统中,资源分配保证机制常见有...

       YARN采用增量资源分配,避免浪费但不会出现资源饿死现象。YARN默认资源分配算法为DefaultResourceCalculator,专注于内存调度。DRF算法将最大最小公平算法应用于主资源上,解决多维资源调度问题。实例分析中,系统中有9个CPU和GB RAM,两个用户分别运行两种任务,所需资源分别为...

       资源抢占模型允许每个队列设定最小与最大资源量,以确保资源紧缺与极端情况下的需求。资源调度器在负载轻队列空闲时会暂时分配资源给负载重队列,仅在队列突然收到新提交应用程序时,调度器将资源归还给该队列,避免长时间等待。

       YARN最初采用平级队列资源管理,新版本改用层级队列管理,优点包括...

       CapacityScheduler配置文件capacity-scheduler.xml包含资源最低保证、使用上限与用户资源限制等参数。管理员修改配置文件后需运行"yarn rmadmin -refreshQueues"。

       ResourceScheduler作为ResourceManager中的关键组件,负责资源管理和调度,采用可插拔策略设计。初始化、接收应用和资源调度等关键功能实现,RM收到NodeManager心跳信息后,向CapacityScheduler发送事件,调度器执行一系列操作。

       CapacityScheduler源码解读涉及树型结构与深度优先遍历算法,以保证队列优先级。其核心方法包括...

       在资源分配逻辑中,用户提交应用后,AM申请资源,资源表示为Container,包含优先级、资源量、容器数目等信息。YARN采用三级资源分配策略,按队列、应用与容器顺序分配空闲资源。

       对比FairScheduler,二者均以队列为单位划分资源,支持资源最低保证、上限与用户限制。最大最小公平算法用于资源分配,确保资源公平性。

       最大最小公平算法分配示意图展示了资源分配过程与公平性保证。

yarn源码分析(四)AppMaster启动

       在容器分配完成之后,启动容器的代码主要在ContainerImpl.java中进行。通过状态机转换,container从NEW状态向其他状态转移时,会调用RequestResourceTransition对象。RequestResourceTransition负责将所需的资源进行本地化,或者避免资源本地化。若需本地化,还需过渡到LOCALIZING状态。为简化理解,此处仅关注是否进行资源本地化的情况。

       为了将LAUNCH_CONTAINER事件加入事件处理队列,调用了sendLaunchEvent方法。该事件由ContainersLauncher负责处理。ContainersLauncher的handle方法中,使用一个ExecutorService(线程池)容器Launcher。ContainerLaunch实现了Callable接口,其call方法生成并执行launch_container脚本。以MapReduce框架为例,该脚本在hadoop.tmp.dir/application name/container name目录下生成,其主要作用是启动MRAppMaster进程,即MapReduce的ApplicationMaster。

更多内容请点击【探索】专栏