|
第13章 大数据
2 |( [' c! Y, h3 U3 }& o1 w随着云时代的来临,大数据(Big Data)也吸引了越来越多的关注。2012年7! w4 y9 D! P" c
月,阿里巴巴数据公司成立并设立了一个全新的岗位:首席数据官(Chief Data( j2 N7 `% V3 t( C9 ?$ M+ n$ [
Officer,CDO),由此可见数据在未来的价值。这也意味着与“大数据存储、计算和价8 t0 i, K! J" k2 c; z# p% i
值提取”相关的技术岗位将会得更加重要。
* S% J% o$ T; H3 l7 C0 j ]8 Y; ^为了从大数据中提取有价值的信息,首先需要将大数据存储并沉淀下来,除此
& @! c# T' j/ m* t: U之外,还需要使用合适的大数据计算框架和大数据处理算法来理解数据的价值。提) e" I( W/ E4 J
到大数据,首先想到的就是MapReduce,很多人甚至将大数据与MapReduce画等号。
' A# h. \( h4 `* q" k+ e1 z! S2 e然而,MapReduce并不是大数据的全部。虽然MapReduce解决了海量数据离线分析问8 }, _8 U9 w& R" i. c0 o2 C
题,但是,随着应用对数据的实时性要求越来越高,流式计算系统和实时分析系统
' g% @2 Y/ a2 V8 `: a7 a; `/ N得到越来越广泛的应用。
3 v- {, L, n1 T2 {4 F+ T% d3 R本章首先介绍大数据的概念以及大数据计算平台,接着介绍MapReduce离线处理
6 ^) R* a$ Z, X9 I% t系统,最后,介绍流式计算系统和实时分析系统。# r4 H1 j) ]0 x% V
13.1 大数据的概念
* a/ t, j0 a' i大数据本身产生的背景是什么?主要有几点:一、数据的爆发式的增长,有一个
) |3 P: z1 } z" S, ], A7 ~% o趋势叫新摩尔定律。根据IDC作出的预测,数据一直都在以每年50%的速度增长,也
/ O9 B4 t( A+ M4 @就是说每两年增加一倍,这意味着人类在最近两年产生的数据量相当于之前产生的8 K9 [; H: i, H9 K( |4 ?
全部数据量。二、大数据表现为社会化趋势。社交网络兴起,大量的UGC内容$ J8 [3 `+ V1 C/ z2 b) l: U
(User Generated Content,即用户生成内容)、音频、文本信息、视频、图片等非结' B3 _2 S! j% i1 ~
构化数据出现了。三、物联网的数据量更大,加上移动互联网能更准确、更快地收
. |/ y: B- y% x6 S5 g集用户信息,比如位置、生活信息等数据。
1 ^% L7 t) ~" q3 \3 T, }以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现/ c1 ]9 O0 a8 v' u- x
在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面
9 ~# A T3 O+ X+ c面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的% ^4 q+ }; f, w9 o$ L/ Q1 H
商业模式。简而言之,从各种各样类型的数据,包括非结构化数据、半结构化数据7 @. f- z2 d* I( ^
以及结构化数据中,快速获取有价值信息的能力,就是大数据技术。
$ {5 J3 g \/ J* B4 B虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,
6 j, n5 X- V/ x1 n- G4 o* E5 q$ N手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于4 \2 f, G5 X* C" R. N5 c, o) |
数据挖掘会有很多商业模式诞生。比如侧重数据分析,帮企业做内部数据挖掘;或 F. m3 X% l% L$ Y
者侧重优化,帮企业更精准找到用户,降低营销成本。未来,数据可能成为最大的1 F- F' n- u2 ]: h8 G) c# K% N: V
交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类
! O" g k$ ?' ^& p, Z& z6 L9 U多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用! A5 X! S' V8 |
后获取最大的数据价值。# S- v7 z- `' I" l# [8 Y
大数据的特点可以用4个V来描述:9 v$ z, _' n @- _/ k$ v- U
●Volume,传统的数据仓库技术处理GB到TB级别的数据,大数据技术处理的数$ f z7 S$ R( Q4 O% s9 d" @& ]
据量往往超过PB。数据容量增长的速度大大超过了硬件技术的发展速度,以至于引9 c4 i# c6 ?' p$ E7 \' l" t
发了数据存储和处理的危机。; B" |2 P6 k$ G0 w$ d
●Variety,数据类型多。原来的数据都可以用二维表结构存储在数据库中,如常4 P6 g* @ U( C, i
用的Excel软件所处理的数据,称为结构化数据。但是现在更多互联网多媒体应用的
# x8 j; {/ Z3 [+ S, K出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。$ s S: X2 w/ i0 Y |0 A
●Velocity,数据增长迅速。如果说大数据的特点是海量和非结构化,那也是不
) K' t% G7 R2 G0 t1 W- N全面的。大数据带来的挑战还在于它的实时处理。+ J$ Q( |1 _( L- ~2 c) g
●Value,价值密度低。以连续不间断的监控视频为例,可能有用的数据仅仅有
* {: o+ {5 t# B5 L( u一两秒钟。/ I4 _' g0 U! [2 ^
(1)大数据管理6 w& m2 L) b; A9 _/ `, e
一提到大数据,大部分人首先想到的就是Hadoop。Hadoop是Google GFS以及9 V# u5 C9 h0 F' d9 j8 }$ k
MapReduce系统的开源实现,用户可以在不了解分布式底层细节的情况下开发分布式
/ j% F9 K6 s- Y/ [; P9 U6 h+ T程序。然而,大数据就是Hadoop么?Hadoop只是大数据技术的一部分,它虽然提供
4 D8 ], a: V8 A6 v) k2 I: @$ U! R了离线处理功能,但无法做到动态和实时的分析。为了解决实时性问题,流计算和
" Q+ T1 j/ _. x. V* V3 G实时分析系统应运而生。其中,流计算系统能够处理实时的数据流,实时分析系统
. p2 q4 [% @* {6 A$ j: r主要采用传统的MPP技术(Massively Parallel Processing,大规模并行处理)从海量
F; r$ m" | z数据中实时提取有价值的汇总信息。
( Y6 z7 y2 D% ]* \2 x! P(2)大数据理解
3 ~$ Q6 K& G3 b" c# L大数据内部以及数据和数据之间关系的理解涉及数据挖掘、机器学习、多媒体
" j1 ?( p1 N2 l* S+ j理解等多个前沿领域的技术,例如相似项以及频繁项挖掘,分类与聚类,协同过! ]" F2 n- \* k# w: {7 Q# L
滤,语音识别与图像处理等。这一块目前做得还不够深入,目前主要从体系结构、' J/ w" j" A3 b5 l
分布式处理、NOSQL等思路出发解决性能问题,如何设计合理的算法、规则或者自8 f' h' v) ~' @# s
动进化的系统理解大数据、对大数据去伪存真将会是今后大数据领域主要的挑战。
$ r5 t) {- c. J7 ~2 G3 |(3)大数据应用
- Q& O8 |& v# u1 y2 }大数据技术应用在互联网营销将产生直接的商业价值。大数据技术告诉广告商
R/ _4 R+ u0 m& Z什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切合7 i+ ]9 G( {: b6 W! ~* c
了广告商的需求。另外,社交网络与移动互联网的兴起将大数据带入新的征程,社/ u" M1 E1 M* S& H' h
交网络产生了海量用户以及实时和完整的数据,移动互联网带来了地理位置以及更% q. ?: m% n" ^! r7 W( f5 C
多个性化信息。互联网营销将在行为分析的基础上向个性化时代过渡,通过大数据+ q4 N1 Z7 ^7 f/ a: b
技术深入挖掘每个用户,然后将这些分析后的数据推送给需要的品牌商家。
+ I) ^6 ], b: s( }: I大数据技术还能应用在搜索引擎、推荐系统等用户类产品以改进用户体验。互
; k3 A( R; q- w) W3 l联网技术归根结底就是云计算和大数据技术,云计算提供海量数据的存储和计算能
2 \) o- G |9 [, a力,并最大程度地降低分布式处理的成本,大数据技术进一步从海量数据中抽取数; h7 a: ^+ T$ \; q
据的价值,从而诞生Google搜索引擎、Amazon商品推荐系统这样的杀手级应用,形
: U) Z: V2 S6 n$ s' \( G. a1 S成一条大数据采集、处理、反馈的数据处理闭环。+ O ]3 }& \2 b1 C
) u. w6 s4 ~$ y- U1 ]8 b/ i p" k3 d+ n- J, S* V. x
|
|