小西瓜

【Hadoop03】：HDFS基础

发表于 2019-03-06 | 分类于 Hadoop | | 阅读次数:

前言

HDFS的全称是Hadoop Distributed File System，翻译过来就是Hadoop分布式文件系统，是hadoop的核心组件之一，提供了分布式存储服务。HDFS的解决了大数据领域的数据存储问题。通过HDFS，可以将数据存储在集群中的各个节点上，当存储规模达到一定程度时，只需要增加节点，就可以实现扩容。对于客户端而言，访问HDFS就像是访问普通的文件系统一样，不需要关心背后的实现。

阅读全文 »

【Hadoop02】：安装Hadoop集群

发表于 2019-03-03 | 分类于 Hadoop | | 阅读次数:

前言

俗话说，工欲善其事必先利其器。我们要学习Hadoop，首先得把环境装好。学习一门技术，一定要实践、实践、再实践。千万不要光看不练，否则过几天你就忘了。本章我们先把环境搭好，运行一些基本的示例程序。

Hadoop集群可以在三种模式下运行：

本地模式，所有的组件运行在一个JVM进程中，主要用于调试
伪分布式模式，在一个节点上启动所有的组件，一般用于学习环境
完全分布式模式，在多个节点上启动相应的组件，通常用于生产环境

那么我们在学习阶段应该采用哪种模式呢？如果你的机器环境允许的话，建议还是直接使用完全分布式模式来学习，能够更好的模拟生产环境。此外，一些故障问题只会在该模式下出现，在学习阶段出现的问题越多，对于你后续的成长进步就越大。不过在此我们对这三种模式都会进行演示。

阅读全文 »

【Hadoop01】：Hadoop介绍

发表于 2019-03-03 | 分类于 Hadoop | | 阅读次数:

介绍

从今天起我们正式进入Hadoop框架的学习，首先，我们要对Hadoop有一个基本认识。

Hadoop是Apache软件基金会的顶级项目，用于可靠、可扩展、分布式计算的开源软件。Hadoop可以让我们在服务器集群上，根据自定义的业务逻辑，对存储的海量数据进行分布式处理。

阅读全文 »

聊聊大数据

发表于 2019-03-03 | 分类于 Hadoop | | 阅读次数:

前言

很多人在学习大数据相关的知识时，接触的第一个框架就是Hadoop，而Hadoop生态圈也是大数据领域的基石。

在正式开始学习Hadoop之前，我们简单来探讨下大数据的一些基本概念以及应用场景，希望使大家对”大数据”有一个基本的概念，激发学习它的兴趣。

阅读全文 »

博客介绍

发表于 2019-03-03 | 分类于随便聊聊 | | 阅读次数:

已经工作好几年了，从刚开始做JavaEE开发，转向做大数据应用开发，到现在的大数据平台研发。知识越来越多，学到的技术也越来越多。以前是自己做笔记，写各种各样的文档，不过都没有公开，只是自己偶尔会去翻看，或者放到公司的Wiki上。自从到了新公司后，每周都有技术分享环节，自己也分享了很多次。在分享的过程中，慢慢发现通过这个环节，能够更好的加强自己对于技术点、架构设计的理解，而且将自己的所学与大家分享，也是一件很快乐的事情。所以，决定将自己在工作中或学习中的经验分享出来，希望自己和大家都有收获，也希望能够结识更多的朋友。