喵呢呢

备注:
https://www.lukou.com/user/747690
学习开源大法💰路口节流呀,搞💰ing

怎么培养数据分析能力?

原链接:知乎李明殊,侵删~
🌴
在我来看,所谓的数据分析能力,不应该只是,获取数据,清洗数据,数据建模,数据统计等操作方法。 而是,通过“数据处理”的方式,解决问题或者指导决策的能力。

因为对于大多数人来说,他们并没有直接获取/整理/建模数据的需求,而绝对有解决问题或指导决策的需求

🌝正文开始

如何发现问题,如何将问题量化为相关数据

这个步骤是我认为整个数据分析过程最重要的一步,甚至有可能会占到你整个流程70%的精力。

那么,第一步,如何发现问题?

💡这里提供一个思路,以问题的方式呈现:

问题/项目由哪些相关元素构成
每个组成元素部分是怎么运行的
每个元素之间是怎么交互的
第一性的原理/原则是什么
能够用什么知识体系去描述



例一,麻辣烫的选址

举几个现实的中的例子,比如还是我表嫂想开麻辣烫店,不知道在哪里选址


依次回答上边五个问题就好了

1. 问题/项目由哪些相关元素构成

与店铺选址的元素包括不限于以下:人流量,地段位置,租金,交通,人群类别,周边环境,后续发展,城市管理……

2. 每个组成元素部分是怎么运行的 人流量如何衡量,峰值和峰谷分别是什么时候 ,地段位置依据那些因素去判断,租金的趋势等等等

3. 每个元素之间是怎么交互的

人流量和地段有可能决定了租金,城市管理有可能制约着后续发展,人群类别有可能影响着周边环境,后续发展有可能影响着租金……

4. 第一性的原理/原则是什么 通过选址,尽量扩大投入产出比,赚更多的钱

5. 能够用什么知识体系去描述 ROI

当前想明白了这些问题之后,就要想着将相关数据量化,你想到了一下数据类别,和相关的数据获取方式(此处例子详见 业余时间如何学数据分析? - 知乎)


在获取这些数据过程中,你遇
获取这些数据过程中,你遇到这些实际的问题

招生计划怎么获得,学校官网还是相关报道?
如何通过在线地图分析学校面积及相关建筑分布的合理性,最小路径还是顺路路径?
如何获学校食堂评价,爬取微博数据,获得地理位置,并且对提及“食堂”的微博进行词义褒贬分析?或者直接拦路问询?
人流量怎么获得,实地考察的时候,用本子画正字吗?
有可能你设计这样一条公式,来做为判断依据:


建议推荐开店系数=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

所以,在这个过程中,你必须要学会以下数据分析的操作来支持:

Excel加减乘除,基础函数;
爬虫的基本原理,及操作方式;
正则表达式与数据清洗;
语义分析的一般实现方式;
在线地图API可以获取的数据有哪些;



💡例二,个人的社交管理

在日常的社交生活中,单单以微信来举例,也许你会遇到以下问题:

1. 工作和生活不能很好的分开,经常有各种人多种渠道找到了你,加你为好友,比如我

时间一长,你根本不知道自己加过多少人,又有多少的有效好友?

2. 由于没有随手备注的习惯,经常有很多换了头像的好友,突然跟你说了一句话,十分钟过去了,你还在翻这个人的朋友圈,想这个人是谁?

3. 自我社交数据是什么,怎么评价,流动率又是多少,是否为有效社交,怎么判断?

4. 似乎认识很多人,但是需要寻求帮助的时候,却一个人都找不到?

5. 自己是否真的需要微信去维持社交?

6. 在微信上的的ROI是多少?


针对于以上问题,你想到了通过以下的数据,调研自己的社交水平数据

好友管理,包括不限于以下数据:

总量及周期增减趋势
性别分布
年龄分布
地区分布
职业分布
标签分布
亲密程度
问题来了,微信联系人的数据如何获取?打开微信和Excel,看一条手动输入一条嘛?

这时候,你想到我应该采取数据挖掘的方式获得这个数据,你想到了以下方式:

微信支持网页版登录,是否可以通过在网页上获取相关的联系人列表?
微信支持电脑备份,是否可以从电脑中的备份文件中读取到联系人列表?

这时候,你会发现:

1.从网页上获取相关数据,这时候你登录了微信网页版,并且你还知道Chrome有审查元素的功能
你惊奇的发现:

user.getDisplayName()就是用户名 {'web_wechat_women': user.Sex == 2, 'web_wechat_men': user.Sex == 1}代表了性别 Region:就是用户所在的区域 avatar后边的图片地址,就是用户的头像

你想着可以用Python 爬虫的方式,将所有的数据爬下来,所以你有可能就学会了以下数据获取的



技能

网页结构,HTML,CSS,JS
Python ,以及常用的库,比如 ,Scrapy,A Fast and Powerful Scraping and Web Crawling Framework
正则表达式,因为你爬出来的数据肯定是需要整理的,不然看着多晃眼啊
相关表格的库,整理出来一份Excel,看起来多清爽啊,还能给别人分享,所以,你又学会了xlrd和xlwt
或者,你想通过读取备份文件的方式获取联系人列表,这块你不太懂,所以你动用了搜索大法:

哇塞,最大同性交友平台(Github,Build software better, together)上边已经有好多支持微信导出的项目了,真是站在巨人的肩膀上。
💡OK,做一个透视,就能知道相关的性别比例和,地区等相关比例,心情好的话,你还可以画个图,比如

发现这个数据中,并没有包含,年龄职业,工作单位等信息,这可如何是好?想到,手机通讯录和微信好友往往有很大的重叠关系,刚好,你还有很好的手机联系人管理习惯,所以,你把手机通讯录导出了,真好,Google联系人支持导处csv,(实际上,安卓手机,IPhone都是支持联系人导出的)
怎么格式乱成这样
之前学了数据清洗吗,这个对你来说还不是小事一桩?

分分钟你就把这个表格整理的美观又整齐了。


下来就是如何把这两个表联立起来分析,所以,你又学会了
表关系,表关系指南 - Access(SQL或者其他数据库是类似的原理)


然后你发现,这些数据并不能解决,用户增减趋势的相关数据的问题?

怎么获得,这个当做作业留给你解决。


所有的数据都出来了,如何优化?

每个人对于自己的期许都是不一样的,这个,也肯定是留给你要去回答的问题

那么现在,做了如上的工作,

你还对自己的社交圈一无所知么?


💡总结,所以,培养数据分析的能力的方法,

就是亲手试着,用数据分析的方式,去解决一个自己实实在在遇到的问题。

Ta的路标

  • 受欢迎
  • 纵横四海
  • 爱转发
  • 如鱼得水

下载路口APP

手机扫描二维码
把路口装进口袋
相关话题
路口有个树洞
关注
680048内容 | 97415人关注
话题内容推荐

首页精选栏目

浙公网安备 33010602004343号

增值电信业务经营许可证: 浙B2-20230111 ICP备案号:浙ICP备2022033973号-2

证照信息