小西瓜


  • 首页

  • 归档

  • 分类

  • 关于

【Hadoop23】:NameNode核心功能

发表于 2019-03-31 | 分类于 Hadoop | | 阅读次数:

前言

到目前为止,我们已经对HDFS、MapReduce和YARN有了一定的认识,能够使用HDFS客户端与HDFS集群进行交互,例如上传、下载、追加文件,并且了解了HDFS中NameNode、DataNode的基本作用;也能够编写一些常见的MapReduce程序,提交到YARN上运行,并根据实际情况进行一些调优。可以这样说,我们已经达到了基本能够熟练使用框架的阶段了,但是这远远不够。要掌握一个框架,不仅仅是会用,还需要了解其底层的运行原理。在接下来的一些文章中,我们将会从底层对HDFS框架进行深入学习,掌握其底层运行机制,并在必要时进行源码剖析。

阅读全文 »

【Hadoop22】:MapReduce与YARN常用配置

发表于 2019-03-28 | 分类于 Hadoop | | 阅读次数:

前言

在前几章中,我们已经对MapReduce以及YARN有了初步的认识,并能够编写一些常见的MapReduce程序。此外,还学习了MapReduce任务的执行流程(任务提交、任务执行、容错、Shuffle等)等。在实际场景中,我们往往希望任务运行的更快一些,效率更高一些,这时候就需要对框架或作业进行一些配置优化了。

阅读全文 »

【Hadoop21】:MapReduce任务提交到YARN

发表于 2019-03-26 | 分类于 Hadoop | | 阅读次数:

前言

前几章学习了YARN的基本概念与调度器,本章我们来学习MapReduce任务在提交时的流程,在提交时如何与YARN进行交互,并且讨论在任务运行过程中,各个组件如何进行故障恢复。

阅读全文 »

【Hadoop20】:YARN调度器

发表于 2019-03-24 | 分类于 Hadoop | | 阅读次数:

前言

理想情况下,YARN应用发出的资源请求应该立即给予满足。然而现实中资源时有限的,在一个繁忙的集群上,一个应用经常需要等待才能得到所需的资源。YARN调度器的工作就是根据既定的策略为应用分配资源。调度通常是一个难题,并且没有一个所谓”最好”的策略,这也是为什么YARN提供了多种调度器和可配置策略供我们选择的原因。

阅读全文 »

【Hadoop19】YARN介绍

发表于 2019-03-24 | 分类于 Hadoop | | 阅读次数:

前言

到目前为止,我们已经对Hadoop中HDFS、MapReduce有了一定的认识。在接下来几个章节,我们来学习另外一个框架YARN。

阅读全文 »

【Hadoop18】:MapReduce案例-TopN

发表于 2019-03-24 | 分类于 Hadoop | | 阅读次数:

前言

在很多场景下,我们要对数据集进行排序,并获取排序后的TopN。例如,找出某个用户订单中消费金额最高的前三个。下面我们使用MapReduce来实现这一需求。

阅读全文 »

【Hadoop17】:MapReduce案例-共同好友

发表于 2019-03-24 | 分类于 Hadoop | | 阅读次数:

前言

本章来学习一个相对复杂一些的案例:共同好友。想必大家都用过QQ、微信之类的聊天工具吧,A是B的好友,而B和C是好友,那么A和C的共同好友就是B。下面我们使用MapReduce的方式实现计算共同好友。

阅读全文 »

【Hadoop15】:MapReduce案例-数据连接

发表于 2019-03-18 | 分类于 Hadoop | | 阅读次数:

前言

在关系型数据中,我们经常会使用连接(join)操作,进行相关的数据查询。例如,查询用户的订单信息、查询商品的分类信息等。在MapReduce程序中,有时我们也需要进行类似的操作,例如订单的信息存储在某些数据文件中,用户的信息存储在另外的数据文件中。下面我们使用MapReduce程序完成连接相关的操作。

阅读全文 »

【Hadoop15】:MapReduce案例-流量统计

发表于 2019-03-17 | 分类于 Hadoop | | 阅读次数:

前言

在前面的章节中,我们已经学习了MapReduce程序的基本模式以及一些场景的组件,如Combiner、Partitioner等。本章将会编写一个流量统计的案例,尽量将前面学到的知识点串联起来。

阅读全文 »

【Hadoop14】:MapReduce计数器

发表于 2019-03-17 | 分类于 Hadoop | | 阅读次数:

前言

MapReduce中的计数器时收集作业统计信息的有效手段之一,用于质量控制或应用级统计。例如,统计任务处理过程中异常数据的数量。虽然我们可以将异常数据输出到日志,但是更多时候,仅仅需要知道异常数据的占比就可以了,此时使用计数器就会非常方便。

阅读全文 »
123
XiaoXiGua

XiaoXiGua

25 日志
2 分类
© 2019 XiaoXiGua
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4