聊聊大数据

前言

很多人在学习大数据相关的知识时,接触的第一个框架就是Hadoop,而Hadoop生态圈也是大数据领域的基石。

在正式开始学习Hadoop之前,我们简单来探讨下大数据的一些基本概念以及应用场景,希望使大家对”大数据”有一个基本的概念,激发学习它的兴趣。

什么是大数据

从字面意思上来看,”大数据”可以分为两个方面来看。首先是”大”,是指数据的规模非常庞大,远远超出了普通存储介质或单机的存储量。其次是”数据”,数据可以是任意类型的,无论是结构化数据还是非结构化数据,无论是日志、聊天记录、上网记录还是交易信息和各种传感器的信息等。我们要学习的技术,就是针对这些不同种类的海量数据进行收集、存储、分析等。

网上对于大数据的定义更为详细,基本上可以分为四个方面,也就是所谓的大数据的4V:

  • 海量(Volume)
  • 多样(Variety)
  • 速度(Velocity)
  • 价值(Value)

其中海量和多样,就是我们刚才介绍的数据类型繁多,数据量巨大。速度是指对于海量数据的处理或计算性能的要求,举个例子来说,我们在淘宝、京东进行购物,系统会根据我们的商品浏览记录实时进行商品推荐;大型游戏的服务器会对玩家的操作进行实时监控,以判断玩家是否使用了外挂。价值是指如何从海量价值密度低的数据中提取我们所需更加有意义的数据,并不是所有的数据都是有价值的,我们需要对数据进行进一步的清洗、提纯,加之特定的挖掘,才能够得到符合需求的有价值的数据。

我们无时无刻不在生产着各种数据,无论是网页浏览、微信QQ聊天,或者网络购物、买票,或者出行、住宿,甚至是出入任何公共场合、驾车、水电。同时我们也在消费着其他人生产的数据,我们使用的各种电子产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析。无论我们愿意还是不愿意,或者有没有意识到,我们现在已经处于大数据的时代了。

大数据应用场景

现在的企业,如果没有使用到大数据,似乎就不好意思出门。尤其是到年底时,各种APP的年度大数据报告都会炒的沸沸扬扬。

支付宝使用大数据技术对账单进行分析,将用户的收入支出进行分类。

春节出行数据。

电商行业的双十一的大屏统计。

大数据在网络安全行业的应用。

大数据的应用场景还有很多,已经覆盖了我们日常生活中的绝大多数场景,这里就不一一举例说明了。

如何学习

无论是学习大数据还是其他任何技术,我们都要遵循一定的步骤,一步步的进行学习,不能概括的简单看看,也不能太钻牛角尖。我在学习一门新技术的时候,一般都会从下面几个方面开始入手:

  • 基本认识;无论看官网也好,看网上的一些资料也罢,首先要对这门技术或框架有一个基本的认识,要明白该技术是做什么的,用于哪个方面,解决了什么样的问题。
  • 开始使用;有了基本的认识后,我们就可以使用客户端API对其进行一系列的操作了,这里我们暂且不用考虑背后的实现原理,如果遇到一些不太明白的配置项也无所谓,先上手使用。
  • 实现原理;能够熟练上手使用后,我们就需要探求其背后的实现原理了,这时通常会先看看它的架构设计,一些核心组件的功能作用,背后的实现细节,结合经验分析出其优势以及不足之处。
  • 源码剖析;首先说明,并不是所有的框架我们就要深入到其源码中,当然如果你有精力,多看看肯定是没有坏处的。一般来说挑几个比较重要自己也感兴趣的框架深入进去,剖析源码,看看优秀的代码是如何编写的,不仅对其底层有了更深的掌握,也可以学习框架的实现细节,对我们在参数配置,调优以及故障排查时有非常大的帮助,最后,我们也可以根据自己的实际需要,进行源码级别的二次开发,提升逼格。

学习的过程是枯燥的,有时乏味的想放弃,当你有这样的感受时,不妨休息一下,缓口气,放松两天,再回过头继续学习。

如果您觉得不错,请赞赏一下!