一张图带你了解数据分析完整流程
最近,老李已经陆陆续续给大家分享了一些数据分析的干货,包括数据分析方法和模型。
但也有人跟我说,跟着我学这些分析方法和模型一段时间了,是感觉到自己学了挺多,但总感觉自己缺少一套方法论,也就是从0-1的数据分析流程。
的确,现在我们在网上学习到的知识都是碎片化,不成体系的,很容易今天学了,明天就忘了。而且常常还会把很多知识点记混,没法把他们串在一起。
所以,今天老李就用一张图来带你梳理清楚数据分析的完整流程。先了解整个流程,再去了解每个流程需要学哪些知识,做到从面到点地去学习,学习后再以点带面地总结归纳。
建议收藏这张图,跟着图去一步步学。
这不仅适合新手小白也适合那些刚当上数据部门管理层的小组长,因为你们之前可能只从事数据流程的某一个环节,而不清楚流程中各个环节的具体工作。
1、数据采集
数据采集,也就是对各种来源的结构化和非结构化海量数据进行采集。
而不同企业实际经营过程中,会有不同的方式去进行数据的采集。例如,
生产车间可以通过传感器等设备收集生产环节的数据。
库存仓库可用过扫码等手段来收集,以及后续物流运输数据。
销售中心可以通过改进业务流程,设置数据采集环节来收集数据。
营销部门可以通过网站的埋点来收集用户的行为数据。但通常来说,数据采集可分为以下三类。
数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。
网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。
文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。
2、数据处理
数据处理指的是在进行数据分析之前,先对采集到的原始数据进行像数据清洗、填补、合并、规格化、一致性检验等一系列操作,目的是为了提高数据质量,为后期数据分析工作奠定好基础。
而常见的数据处理方法包括去除重复值、处理缺失数据、检查数据逻辑错误、数据转换、数据分组、异常数据备份等。
3、数据分析
在数据分析这个环节,有两个要点需要在进行数据分析前确定好。
第一点:选取合适的方法去分析数据
PEST、4P营销理论、5W2H、用户行为理论、逻辑树分析论等。
第二点:选取合适的分析方法
杜邦分析法、对比分析法、结构分析法、漏斗图分析法、交叉分析法、平均分析法等。
这两点的具体方法内容,我在之前的文章里都有过详细的介绍。
4、数据展现
数据展现通俗来说,就是要把你分析好的数据结果用正确的图表展现出来。因此,要做好数据展现的前提,就是要先确定好用哪种图表来表现数据,让图表结果最为直观。
那么如何确定用哪种图表是正确的?
需要反复思考以下4个问题
明确自己需要分析的内容,选择合适的数据了吗?深入理解业务和业务需求,定义出需要分析的问题了吗?在具体分析后选择关键问题,思考选择合适的可视化方法了吗?根据图表中表达和分析的观点和洞察,重新检视数据和业务问题了吗?在实际数据分析过程中,最常用的图表就是柱状图、折线图、漏斗图、金字塔图、矩阵图等。
5、数据可视化
数据可视化,一般来说就是数据分析师要把数据观点展示给领导或业务人员的过程。
通常情况下,像我们公司在开月度、季度会议的时候,我都会把用FineBI或PowerBI做的可视化大屏放到ppt里,当领导问到我相关数据时,我就可以直接调出来,省了不少时间,也能够让领导一目了然。
老李我用多年经验证明,领导就是喜欢这种简单粗暴的展示方法,即能直观看到数据变化趋势,又能迅速调出所需数据。
FineBI数据分析工具制作的可视化大屏
6、数据分析报告
当我们采集、处理、分析、展现完数据后,并不是仅仅把数据罗列出来,然后直接扔给业务人员或领导就可以了。
一定要清楚明白,数据分析师的使命在于通过数据给出有价值的分析结论。因此,前面做了那么多,都只是为数据报告做铺垫,有价值的数据报告才是关键。
数据分析报告具体怎么写,我这里就不赘述了,在之前这篇文章里已经写的很明白了。
最后分享一些BI建设、数据分析相关的优质资料:
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com