大数据导论
数据
是指对客观事件进行记录并可以鉴别的符号
,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。- 它不仅指狭义上的
数字
,还可以是具有一定意义的文字
、字母
、数字符号的组合
、图形
、图像
、视频
、音频
等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如 ,“0、1、2..”、“阴、雨、下降”、“学生的档案记录、货物的运输情况”等都是数据。
例如某场比赛的几点几分,某人通过什么手段获取得分。数据不会主动来到我们面前,而是 通过某种方式对客观事物计量和记录下来产生
例如古代的结绳计数法、纸和笔等记录,再到微信步数的监测等
企业数据分析方向
- 把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策
- 数据分析在
企业日常经营
分析中主要有三大方向:现状分析
->原因分析
->预测分析
现状分析
(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动原因分析
(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化预测分析
(结合数据预测未来):结合已有数据预测未来发展趋势
原因分析:离线分析(Batch Processing)
面向过去、面向历史,分析已有的数据
从数据产生到开始进行数据分析,已经过去一段时间了(时间间隔长)
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
现状分析:实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据
从数据产生到开始进行数据分析,时间间隔很短
所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
实时分析还有个名字叫做 流式处理
。如果将数据想象为是一个水滴,离线分析(批处理)可能就是一个比较大的水滴,而实时分析就是陆续很多的水滴所组成的水流
预测分析:机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;
侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析基本流程步骤
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
明确分析目的和思路
- 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
- 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性分析结果的有效性以及正确性,需要
数据分析方法论
进行支撑; - 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等
分析法相关博客:
数据收集
数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
数据传输搬运的过程:比如采集数据库数据到数据分析平台
常见的数据收集渠道:
业务数据
在RDBMS中获取;日志数据
在服务器、应用日志中获取;爬虫数据
在爬虫数据库中获取;互联网公开数据
在行业、政府网站中获取
数据处理
- 准确来说,应该称之为
数据预处理
。 - 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算;
数据清洗
:把脏数据过滤排除掉数据转换
:把单位、字段编码等格式进行统一数据提取
:大量的数据中存在不需要的数据,或者只需要数据中的某些属性,对这些需要的内容进行提取
- 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的
结构化数据
。- 企业中用于分析的数据,更侧重于文本数据多一些,而非图片、音视频数据
- 干净规整的结构化数据指的是二维表数据,行与列对应,例如Excel或是MySQL那样。通俗来说就是格式清晰,利于解读的数据
- 准确来说,应该称之为
数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;
对数据分析完之后会产生一定的结果,接下来就用到了数据展现
数据展现
- 数据展现又称之为
数据可视化
,指的是分析结果图表展示,因为人类更喜欢看到结果; - 数据可视化(Data Visualization)属于数据应用的一种
- 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等
- 数据展现又称之为
报告撰写
数据分析报告
是对整个数据分析过程的一个总结与呈现- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
直接在网络上搜索数据分析报告,可以看到各种五花八门的报告:报考志愿分析报告、家电行业数据分析报告等。这些里面都会得出一个结论,而且还会说明基于什么原因开展数据分析的,以及最后的建议方案是什么等。
这些内容都可以拿去卖钱、给各个行业及公司领导再或者是各个管理部门提供一些数据支撑,然后他们再基于这些报告做一些决策判断
如上所有,一切都是围绕着数据来开展的,数据从哪里来、数据到哪里去。通俗的说就是数据从数据源来,经过采集、收集、处理、分析,再到应用数据的地方去
大数据时代
最早提出 “大数据”时代 到来的是全球知名咨询公司麦肯锡,其称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
2019年,央视推出了国内首部大数据产业题材纪录片《大数据时代》,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。
大数据的定义
- 大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
- 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
大数据5V特征
Volume
:数据体量大。采集数据量大;存储数据量大;计算数据量大;TB、PB级起步Variety
:种类、来源多样化。- 种类:结构化、半结构化、非结构化
- 来源:日志文本、图片、音频、视频
Value
:低价值密度。海量的信息但是价值密度低;深度复杂的挖掘分析需要机器学习参与Velocity
:速度快。数据增长速度快;获取数据速度快;数据处理速度快Veracity
:数据的质量。数据的准确性;数据的可依赖度(数据来源一定是真实有效的,如果是假的数据就没有意义了)
应用场景
- 传媒领域:精准营销、猜你喜欢、交互推荐
- 电商领域:精准广告位、个性化推荐、大数据杀熟。
- 例如小明同学一直在某电商平台买买买,那么平台就掌握了他的消费习惯,基于这些消费习惯的数据就可以给小明同学做“亿些”推荐。
- 比如小强同学今天买了纸尿裤、明天买了点奶粉,那么大数据就会认为他是个奶爸,专业的话来说就是给用户打上一个
用户画像
或是打上一些标签,然后推荐相关产品。 - 甚至是大数据发现小强同学经常在一家店铺买东西,就有可能会将对应的店铺价格调高,然后杀熟宰客。
- 金融方面:理财投资,通过对个人的信用评估、风险承担能力评估,集合众多理财产品、推荐相应的投资理财产品。
- 交通领域:拥堵预测、智能信号灯、导航最优规划。例如某个十字路口的东西方向车道的车流量加大,就可以将南北方向的红绿灯时间缩短。类似于这种潮汐现象,就可以动态的进行调整
- 电信领域:基站选址优化、舆情监控、客户用户画像
- 安防领域:犯罪预防、天网监控
- 医疗领域:智慧医疗、疾病预防、病原追踪。例如某个城市的疾病发病率增加,就可能会对该城市人群推送一些预防手段。再例如追踪疾病的原因,是否可以避免做一个基因工程去查找原因
分布式与集群
分布式和集群是两个不同的概念、但口语中经常混淆二者
分布式
:多台机器,每台机器上部署不同的组件
集群
:多台机器,每台机器上部署相同的组件
应用于大数据方面
数据大爆炸,海量数据处理场景面临问题
存储方面:单机存储有瓶颈,多台机器分布式存储
计算方面:单机算力有瓶颈,多台机器分布式计算