前言
HDFS的全称是Hadoop Distributed File System
,翻译过来就是Hadoop分布式文件系统,是hadoop的核心组件之一,提供了分布式存储服务。HDFS的解决了大数据领域的数据存储问题。通过HDFS,可以将数据存储在集群中的各个节点上,当存储规模达到一定程度时,只需要增加节点,就可以实现扩容。对于客户端而言,访问HDFS就像是访问普通的文件系统一样,不需要关心背后的实现。
俗话说,工欲善其事必先利其器。我们要学习Hadoop,首先得把环境装好。学习一门技术,一定要实践、实践、再实践。千万不要光看不练,否则过几天你就忘了。本章我们先把环境搭好,运行一些基本的示例程序。
Hadoop集群可以在三种模式下运行:
本地模式
,所有的组件运行在一个JVM进程中,主要用于调试伪分布式模式
,在一个节点上启动所有的组件,一般用于学习环境完全分布式模式
,在多个节点上启动相应的组件,通常用于生产环境那么我们在学习阶段应该采用哪种模式呢?如果你的机器环境允许的话,建议还是直接使用完全分布式模式
来学习,能够更好的模拟生产环境。此外,一些故障问题只会在该模式下出现,在学习阶段出现的问题越多,对于你后续的成长进步就越大。不过在此我们对这三种模式都会进行演示。