一、Hadoop大数据分析技术:1、大数据概论
大数据概论 1.1 大数据概论 任务目的 了解大数据的概念及其特征 熟悉大数据的典型应用场景 了解大数据部门的业务流程 任务清单 任务1:大数据概念 任务2:大数据特点 任务3:大数据应用场景 任务4:大数据发展前景 任务5:业务流程分析 任务步骤 任务1:大数据概念 何谓“大数据”(Big Data),如果从字面意思看来,“大数据”指的是巨量数据。那么可能有人会问,多大量级的数据才叫“大数据”?不同的学者有着不同的理解,难以有一个非常定量的定义,只能说,“大数据”计量单位已经超过TB级别发展到PB、EB、ZB、YB甚至是BB级别。 就其定义而言,“大数据”是一个较为抽象的概念,至今尚无确切、统一的定义,各方对“大数据”给出了10余种不同的定义,比较典型的是: 最早提出“大数据”这一概念的全球知名咨询公司麦肯锡的定义:“大数据”是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。 研究机构Gartner是这样定义“大数据”的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 若从技术角度来看,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 任务2:大数据特点 一般认为,大数据主要具有以下5个方面的典型特征,即规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)、以及真实性(Veracity),即所谓的5V,接下来,通过一张图来具体描述。 图1 接下来针对图中的 5V 特征进行简要介绍,具体如下。 1. 规模性(Volume) 大数据的特征首先就是数据规模大。 从前MP3时代,一个小小的MB级别的MP3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。 淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。 数据相关计量单位的换算关系下表所示: 单位 换算公式 单位 换算公式 Byte 1Byte=8bit TB 1TB=1024GB KB 1KB=1024Byte PB 1PB=1024TB MB 1MB=1024KB EB 1EB=1024PB GB 1GB=1024MB ZB 1ZB=1024EB 2. […]