可乐瓶的小辣椒

爱跳舞的小姑凉。

数据人的必备技能

今天的文章主要给大家分享从底层到应用,数据人需要掌握的技能,很多是个人经验,希望能对需要的人有所启发。

根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。

1、大数据平台

目前很火,数据源头,各种炫酷新技术,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平台都是用Java开发的。

很多企业都把数据采集下来了,对于传统的业务数据,用传统的数据是完全够用的,可是对于用户行为和点击行为这些数据或者很多非结构化的数据,文本、图像和文本类的,由于数据量太大,很多公司都不知道怎么进行存储。

这里面要解决的是实时、近实时和离线的大数据框架如何搭建,各数据流之间如何耦合和解耦,如何进行容灾、平台稳定、可用是需要重点考虑的。

最近两三年中,这块人才还是很稀缺的,因为大数据概念炒作的这么厉害,很多企业都被忽悠说,我们也来开始进入大数据行业吧。进入的前提之一就是需要把数据存储下来,特别是很多用户行为方面的数据,对于业务的提升比较明显的,如果你能很好的刻画用户,那么对你的产品设计、市场营销、开发市场都是有帮助的。现阶段,很多公司都要做第一步:存储更多的数据。这也是这块人员流动性比较高的原因,都被高薪挖走了。

和传统的SQL不同的是,针对大数据量的非结构式数据,我们所想的就是:用最廉价的成本存储数据同时能够达到容灾、扩展性高、高性能、跨域,从目前来看,分布式已经被证明是个很好的一个方式。

另外,云端会是个很好的方向,不是每个公司都养得起这么多这么贵的大数据平台开发人员和运维人员OPS,从事这个行业的我们要有很好的危机意识,及时贡献出自己的价值,积极主动的学习新技术、否则就可能被淘汰了。

此外,花点钱把数据托管给云服务提供商是对于创业公司或者一些传统的企业来说是个很好的思路,这样能够最快速的确定数据对你的价值是什么,而不用采购这么多的服务器、雇佣这么多的运维人员和网站开发人员。

说了以上这些,主要是想给未来会从事这块的人或者想存储数据的公司一点方向。我自己不做这块,体会不深,大家看看就行。

这块工作最被吐槽的一点就是:Hive速度好慢,SQL查询好慢,集群怎么又挂掉了,hadoop版本升级后,怎么数据跑出来不对了等等。

因此,在这个领域内工作,需要有强大的攻坚能力,并且还需要有快速定位和解决bug的能力,因为有很多工具都是开源的。因为是开源的,所以你们懂得,各种坑爹,甚至出现无法向下兼容的情况,所以需要强大的Java开发能力。

如果想在这块做的很好,还需要有整个系统架构的设计能力、比较的强的抗压能力和解决问题的能力、资源收集的能力,可以打入开源社区,这样就可以随时follow最新的潮流和技术。

2、数据仓库-ETL

确实做仓库的人很辛苦,单单Oncall就会让人望而却步。有很多数据库工程师,晚上睡觉的时候经常被Oncall电话吵醒,因为数据流程出问题,需要第一时间去排查,是哪个数据源出问题,并且要立即解决,否则整个数据流程都会受到影响。

如果数据流程受到了影响,你就可能会被大领导一言不合叫到办公室说:我要的数据怎么还没有准备好,我的业务报表今天怎么没有发出来。

通过上面这个情景,我们可以知道:这是个很重要的岗位,因为数据流程很重要,决定了数据从源头杂乱无章的状况,通过ETL之后变成了整齐的数据,这些整齐一致性的数据可以让你很方便地把各业务的统计结果计算出来,并且能够统一口径。要不然就会变成有几个部门,就有几种统计结果,到时候A部门说业务增长了5%,B部门说业务涨了10%,OMG,到底信谁。

至少在以下几点上,我觉得数据仓库人员应该要做好:

  • 数据字典的完整性,用的人都希望能够清晰的知道这个字段的逻辑是什么。字段要保持很好的一致性,不要同样一个字段在不同表里有不同的定义。

  • 核心流程的稳定性,不要让每天订单主表能够使用的时间很不稳定,有的时候很早,有的时候要中午才出来,如果不稳定就会导致使用数据的人对你很没有信心。

  • 仓库版本迭代不要过于频繁,要保持不同版本之间的兼容性。不要做好了仓库1.0,很快就把原来的推倒重来,变成了2.0。在数据仓库中需要考虑到延续性,主表的变动不要太频繁,否则使用的人会非常痛苦,好不容易才用习惯了1.0的表结构,没办法这么快进行切换。简单地说,要能向下兼容。

  • 保持各业务逻辑的统一性,不要出现同样的业务逻辑,同一个组别的人统计出来的结果不同。原因在于共同的逻辑没有落地成通用的东西,所以导致每个人写法不同。这点其实需要特别注意。

针对以上,这个岗位的技能要求是:不要成为仅仅会写SQL的人,现在工具都很发达,如果你的技能很单一的话,那么可替代指数是非常高的,并且你自身也没有什么成就感。这里并不是说会写SQL的人很low,只是说应该多学一些技能,否则会很危险。

仓库人员应该要常常思考,如何进行架构设计是最合理的,你要考虑是否需要字段冗余、行存储还是列存储、字段如何扩展最有效,热数据和冷数据如何拆分等,所以需要有架构思维。

技能上,除了SQL熟练之外,还需要知道如何写Transform,MapReduce,因为有很多业务逻辑用SQL实现起来非常复杂,但是如果你会其他脚本语言,那么就能给你提供便利,让你的效率提升很多。另外好的仓库人员需要写Java或者Scala,通过写UDTF或者UDAF来提升你的效率是很有必要的。

数据仓库人员也应该常常考虑自动化和工具化方面的事情,需要很好的工具或者模块的抽象能力,动手实现自动化的工具来提高整个组织效能。针对经常碰到的数据倾斜问题,需要很快定位问题并进行优化。

说完了数据存储这块,接下来是数据应用的几个关键职位,在此之前,我想说数据应用的一个最关键的前提是:数据质量、数据质量、数据质量!!在每次阐述你的观点、分析结论或者用算法的时候,都需要先检查,源头数据正确性,否则任何结论都是伪命题。

3、数据可视化

这是个很炫的工作,最好是能懂点前端,比如js。数据可视化人员需要有很好的分析思维,不能为了炫技而忽视对业务的帮助程度。因为我对这个岗位客串的不多,所以没有特别深入的感悟,不过我觉得这个岗位需要有分析的能力,才能把可视化做好。

另外一方面来说,做数据应用的人都应该懂点数据可视化,要知道观点表达的素材顺序是:图片>表格>文字,一个能够用图片来阐述的机会千万别用文字来描述,因为这样更易于让别人理解。要知道,给大领导讲解事情的时候,需要把大领导设想成是个“数据白痴”,这样才能把一件事情说的比较生动。

数据可视化也可以考虑自动化和工具化方面的事情,比如用tableau、FineBI之类的BI工具替代,两者都能支持大数据和数据分析。

4、数据分析师

现在对数据分析的需求是很大的,因为大家都想着说:数据有了,但是能做些什么呢?这就需要有数据分析师,对数据进行分析和挖掘,然后做数据应用。

对数据分析师吐槽最多的是:你分析出来的不就是正常的业务逻辑吗,还需要你分析什么?或者是你分析的结论不对,跟我们的业务逻辑不符合。特别是:ABTest的结果和当初设定的预期不相符合的时候,分析师会常常被拉过去说:分析一下,为什么我的AB实验结果不显著,里面肯定有原因的。

很多时候,宝宝的心里苦啊,你说这个转化率下降了,从数据上可以看出哪个细分渠道下降了,至于为什么客户不下单,我们得问用户,很多时候,数据上也体现不出来为什么,只能告诉你现状是什么。

如果你一直在写分析报告,给结论中,持续周而复始,没有直接在业务中体现成绩的时候,数据分析师们该醒醒了,你该想想这个是你要的岗位吗?

对于数据分析师的定位:个人认为,成为优秀的数据分析师是非常难的,现在市面上也没有多少优秀的分析师。数据分析师的技能要求,除了会数据分析、提炼结论、洞察数据背后的原因之外,还需要了解业务,懂算法。

只有这样,当面对一个业务问题时,数据分析师们才可以针对问题抽丝剥茧,层层递进去解决问题,再根据定位的问题进行策略的应对,比如是先做上策略进行测试还是应用算法进行优化,用算法用在哪个场景上,能不能用算法来解决问题。

一个优秀的数据分析师,是个精通业务和算法的全能数据科学家,不是那个只会听从业务的需求而进行拉数据、做报表、只做分析的闲杂人等。我们都说分析要给出结论,优秀分析师的结论就是一个能解决问题的一揽子策略和应对措施,同时很多需求是分析师去主动发现并通过数据来挖掘出来的。

大部分不落地的分析都是伪分析,有一些探索性的可行性研究可以不考虑落地,但是其他的特定业务需求的分析都需要考虑落地,然后通过实践来反推你的作用,如此反复,才能慢慢的给你价值的肯定,同时提升你的分析技能,也只有这样才能证明你作为分析师、数据落地者的价值。

5、数据挖掘算法

这块的话,经过这三年的摸爬滚打,感触蛮多的。体会比较深的吐槽主要有以下几点:

  • 一个规则搞定了,还用什么算法。

  • 你的准确率怎么这么低?!

  • 你的准确率可以到99%吗?

  • 你的推荐有价值吗?你不推荐客人也会下那个产品的订单的。

  • 帮我做个大数据预测他想要什么?

很多时候,不同的场景对准确率的要求是不同的,所以在一定合理的场景下和业务进行据理力争是必要,不要害怕让业务吐槽,更多的时候管理好他们的预期。

有些场景下,推荐的价值在于『长期复购率』,所以不要每次都盯着ABTest的转化率来说事,让客人的费力度降低也是很有前途和前景的。一个智能的产品会让客人用起来爱不释手,虽然在这一次的转化中没有明显的差别,但是观察长期复购率才能体现价值。特别是要区分:高频和低频产品。频次比较低的产品就特别难体现出短期价值。

对于这个岗位的技能要求来说,没有要求你一定要从零开始实现所有的算法,现在有很多现成的算法包进行调用。最基本的要求是,你要知道每个场景会用到哪个算法,比如分类场景,常用的分类算法就有LR/RF/Xgboost/ET等等,此外,你还要知道每个算法的有效优化参数是什么、模型效果不好的时候怎么优化。还需要有算法的实现能力,语言方面可以用Scala/python/R/Java等。我们常说:工具不重要,重要的是你玩工具,不是工具玩你。

另外针对有监督式学习算法,算法工程师最好有很好的业务sense,这样在feature设计的时候才能更有针对性,设计的feature才有可能有很好的先验性。

6、深度学习(NLP、CNN、语言识别)

这块我没具体商用过,只是动手实践过。个人感觉商业化是重点吧,特别是大家都在观望说你的chatbot很有用啊,可是siri做了这么久,最后反响也一般。

现在客服机器人又很火,大家又在一通吐槽说,这个上下文理解的太差了,机器人的语义识别做的怎么这么差。谁做谁知道,对于中文的语义识别,难度比国外的难多了,因为中文的一种否定说法有太多种变体,你不知道我们会说哪种。

另外,常常有人吐槽说,你这个CNN这么复杂,我线上需要满足100ms内返回,搞的这么复杂,实时调用怎么整,肯定来不及了,最后只能考虑offline预测了。常常说这话的人,是不会自己写底层代码的,很多时候我觉得:不是你没有解决问题的办法,而是你没有去思考怎么解决问题,心智决定了你的产出。

整体来说,这块对个人的综合素质要求是很高的。如果你只是想简单利用现成的Model,提取中间层的特征,然后再套用其他的机器学习模型进行预测的话,倒也能很好的解决一些现实中的公司应用,比如yelp的图片分类。

不过,严格来说,这个不算是做深度学习的人,因为真正玩DL的人,是需要自己动手建模型,调参数,改symbol的,所以他们的编程能力是很强的,这点上,我一直都高山仰止。特别是一些创业公司,对于这个岗位的编程能力要求很高。如果你面试创业公司后没有下文了那就表示:你很优秀,但是不一定适合我们公司,因为我们要找的编程能力很强的人。

个人认为,在这块上需要有比较强的算法改造和优化能力,尽量的提高算法预测的速度,同时不断的提高算法的外延性提高精度,目前整个行业也都是朝着好的方向在发展。如果有很多人看到这块行业开出来的高工资,记得和招聘上的要求核对一下,自己哪块技能需要补充。这样你才能成为人中之凤。

总结

以上说了这么多,唠叨了这么多,其实核心就是:如何用数据创造价值,如果你没有用数据创造价值的能力,那么就只能等着被数据淹没,被数据拍死在职场上,早早到达职业的天花板。

体现数据价值的层面上,越往数据应用层靠拢,对数据产生价值的要求就越高,从事这块领域的人要常常自省是否有好的商业Sense,毕竟在工业界,没人关心你是否比传统的baseline提高了一个百分点,他们关心的是你提高了一个百分点之后,对公司的价值是什么。

而越往底层那块,倒也没有强制要求和业绩绑定在一起,更多的是从流程上进行约定,对于这块的价值体现,主要从技术层面上的创新为主,你如果解决了现存架构的问题,那么你就可以成为一个大牛,所以多学学编程吧,别太约束自己,故步自封。

本文转自:开源技术社区

阅读原文


如何高效率采集并分析数据

本文将围绕数据采集的三大要点、如何让分析更有价值、以及数据分析思维三部分展开,感兴趣的朋友一起来了解一下。

一、数据采集的三大要点

1、全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

2、多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

3、高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

基于以上三点,我们看如何让数据采集更准确、分析更有用以及团队内部更高效。

二、数据分析价值性和高效性

1、明确数据驱动目标

数据采集切忌大而全,数据分析需求也是随着产品不断迭代的,明确长远和当前阶段的分析需求,让分析更有目的性,技术执行更高效。

2、按需采集数据

带着需求和分析目标去采数据,不仅避免了数据冗余带来的无从下手,也避免了全量采集之后却不知道要分析什么的尴尬。

图示为埋点范例:

图示文档可由数据分析需求人员整理,表格梳理让需求人员和技术人员协同更高效,也大大提升了后续的分析价值和效率。

3、多维交叉定位问题

对数据的应用可分为一般分析和探索性分析。一般分析包括对日常数据如新增、活跃、留存、核心漏斗的监测分析,也包括对各部门日常业务的数据监测。监测每日增长,分析异常情况,比如对注册失败、支付失败事件的监控和及时优化。

探索性分析是对数据的高级应用。对核心事件的相关性分析、挖掘产品改进关键点等,如促进用户购买的相关性分析、找到促进留存的Ahamoment等。

4、优化产品、优化运营策略

基于数据反映的问题,做到实时监控和及时解决,基于分析得到的增长启发,去做A/B测试、灰度测试、去MVP实践。

5、衡量

衡量是数据分析到实践的最后一步,当然,也可能是第一步。有时候我们看似找到了增长点,但实验发现,事实并不如预期,不要灰心,不要丧气,更不要不吃饭,分析过程中对用户的理解、对业务的深度挖掘可能会让下一次优化产生累计价值。

三、数据分析思维

数据采集固然重要,数据分析的方法论也很重要,但不要迷信数据,因为更重要的,可能是人的创造力和想象力!数据分析也从来不是一劳永逸的,产品在不断迭代,业务在不断更新,从认知到决策,数据更多的是起到了辅助的作用,从梳理需求、到采集、到分析、到实践、再到衡量,它是始终循环在企业增长的整个过程中的。

最后,那些改变世界的程序猿,他们始终希望能用自己的技术创造更多的价值,很多时候,他们要的可能是明确的数据需求、明确的分析目标,以及一套高效协同的方法,毕竟,谁都认为:能准确解决问题、能驱动业务增长更重要!

推荐阅读


五个未来最吃香的技能 数据分析排第一

在2020年,专业技术知识将不再是IT部门的唯一领域了。整个公司/组织的员工应当要理解如何把IT技术运用到他们的工作之中。但未来学家和IT专家说,最吃香的IT相关技术包括:挖掘海量数据、保护系统免遭安全威胁、管理新系统下日益复杂的风险以及如何利用技术提高生产率。虽然IT知识将更加普及,但雇主们将更加青睐如下5种专用技能。

1.数据分析

据IDC市场研究人员估计,到2020年全球每年产生的数据量将达到35ZB,也就是3500万亿GB。(注:1ZB=1,048,576PB;1PB=1,048,576GB;这个数据很抽象。)IDC的首席研究员JohnGantz说:“用普通的DVD一张一张地摞起来,可以从地球摞两个堆到月球。”

有了这样庞大的数据,这就不仅要求IT从业人员有能力分析海量数据,并且要和业务部门合作,确认哪些数据是可用的,从哪里获取这些有用的数据。

这些混合型的从业人员将同时具备IT专长和业务流程与运作的知识背景。IT人力研究机构FootePartners公司的董事长兼CEODavidFoote说:“他们是那些了解客户需求的,并且知道如何把信息转换为赢利的人。如果你有更多这样的理解整个数据‘供应链’的雇员,你的获利也更多。”

2.风险管理

未来学家DavidPearceSnyder说:“风险管理技能的高需求将会持续到2020年,尤其当(各种)业务和IT之间关系愈发紧密。比如,前段时间英国石油在墨西哥湾的油井泄漏中所涉及的IT技术,还有丰田公司处理‘加速门’事件。”(编者注:丰田承认汽车黑匣子阅读器存在软件缺陷。)

Snyder还说:“当我们处于快速创新的时代(这一趋势将持续到2020年),我们会碰到意想不到法律问题;当我们想在这错综复杂的世界搞点创新,很可能就要碰到这样或那样的问题。”(所以,)企业将寻求具备有风险管理能力的IT从业人员,以预测和应对挑战。

3.机器人技术

据华盛顿的未来咨询学家JosephCoates说,机器人将在2020年之前“接管”更多的工作。所以,具备机器人技术的IT从业人员将不愁没有饭吃。

Coates说:“我们可以把机器人看成类人设备,但我们还需扩大到所有自动化的设备。”机器人技术工作包括:研发、维护和修理。专家将在垂直市场探索相关技术的使用。比如:一些机器人专家可能专注健康护理和研发康复中心的设施,另一些专家肯能为残疾人发明设备或为儿童发明学习工具。

4.信息安全

根据PricewaterhouseCoopers的报告:因为我们上网所花的时间将越来越多,面对面的交互将越来越少,更多的个人信息将在网上曝光,可以轻易冒充他人的新技术也很多,所以在2020年之前,认证用户身份和保护隐私将成重大挑战。远程工作人员也将成为劳动大军的主力,这也就带来更多的信息安全隐患。

编者注:“远程工作人员”也称“居家工作人员”,即那些可以在家通过网络即可上班的人员。

Foote解释说:“我们处于一个危险的环境,虽然很多雇员都精通技术,但他们却并不理解信息安全是最重要的。”Foote预测这个状况将在2020年有改善,因为很多公司将信息安全方面投入更多,包括数据中心、网络连接和远程访问。

5.网络技术

Snyder回应美国劳工统计局的预测说,“网络系统和数据通信管理在2020年仍将是头等大事,但是因为很多公司将想方设法避免增员,所以他们向顾问咨询如何提高产能和效率。”

“如果已经尽量裁员了,那么现在只能提高生产率了。应当有人来告诉我们如何更好地使用现有的网络技术。”

作者:bspyanfakesina;转自:中国统计网;


4个用于数据分析和可视化的 JavaScript 库

今天的文章将给大家介绍4个有用的JavaScript 库,主要用于数据分析和数据可视化。

1. Data-Driven-Documents (D3.js)

我们在这里谈论的是基于JavaScript的数据分析,而不会提及数据驱动文档(D3),就像讨论操作系统,没有提到微软一样。

数据驱动文档,通常称为D3.js,是一个使用DOM对象操纵数据的JavaScript库。 它能够将任意数据绑定到文档对象模型(DOM),并使用HTML,SVG和CSS渲染将它们转换为有意义的信息。

D3对网络标准的限制提供了很大的灵活性,它可以进行基于网络的数据分析和可视化,利用现代浏览器的全部功能,而不必将自己绑定到专有框架。它能将数据驱动的DOM操作方法与强大的可视化功能无缝集成。

优势

强大的数据可视化是D3的最显着的特点。 它不是一个单一的框架,事实上,它不会把你绑定到一个严格的框架中,而是允许你自由地在HTML画布上从头开始实现创意,复杂和交互式可视化元素。 它可以处理多种输入数据格式,包括XML,CSV和JSON。

2. Aperture JS

Aperture JS是一个强大的可扩展JavaScript库,旨在为数据分析的目的创建可扩展的可视化。 它带来了一种独特和统一的基于图层的可视化方法。 它是非常小巧的,但却在同一时间加载了几个伟大的功能。

Aperture的API提供了适应任何类型的数据源。视觉映射使得它把原始数据转换为交互式视觉形式变得简单明了,输出可以呈现为Web浏览器支持的SVG格式。除了能与所有现代浏览程序兼容,Aperture还可以通过VML呈现支持旧版本的Internet Explorer(IE 7/8)。

优势

Aperture vizlets(可视化表单)本质上是一个不错的移动浏览器,它可以轻松地嵌入基于Web的客户端框架中。具有基于设备宽度重新缩放的能力,它提供了完全响应的用户体验。

3. InfoVis

JavaScript InfoVis Toolkit(更常称为InfoVis)是用于创建交互式数据可视化的主要JavaScript库之一。 它是一个基于DOM的操作库,它支持丰富的图表/图表类型,还包括一些很酷的动画效果。它还支持基于JSON的数据源,用来加载并在HTML canvas元素上显示输出。

优势

InfoVis最特别的功能是它的可视化类型的广泛收集——超出了标准选项,如条形图,面积图和饼图。最重要的是,不需要拥有高级脚本知识或JavaScript认证来使用InfoVis处理和转换数据。通过预先集成的可视化元素,我们可以实现许多信息可视化的高级功能,例如TreeMaps,HyperTree,RGraph,ForceRedirect和Sunburst,且无需编写单行代码。

4. Cytoscape.js

如果你需要建模关系数据并将它们转换成交互式图形,那么Cytoscope.js就是很好的选择,无论您是新手还是经过认证的JavaScript专业人员,您都会发现,借助这个脚本库,您可以非常轻松地生成交互式可视化。

Cytoscape是一个强大的JavaScript库,被广泛用于图形数据分析和可视化。它是一个用纯JavaScript编写的轻量级库,它允许我们以丰富的图形格式显示和操作数据。在许可开源许可证(MIT)下,库包含许多与图论理论算法相关的有用函数 - 从BFS到PageRank。

优势

除了从关系数据呈现交互式图形之外,Cytoscape可以轻松地在Node.js上实现,以执行服务器端数据分析,从而使其成为数据分析和可视化的完整包。

更多JavaScript库知识请点击原文查看


数据可视化的10个关键术语

数据可视化的需求已经广泛分布在各行各业,今天为大家介绍数据可视化的10个关键术语,有兴趣的一起了解一下。

Format 交互方式

交互式可视化允许您修改,操作和探索计算机显示的数据。绝大多数交互式可视化系统在计算机网络上,但越来越多出现在平板电脑和智能手机上。相比之下,静态可视化只显示单一的、非交互数据,它通常是为了打印和在屏幕上显示。

Chart type 图表类型

图表是数据视觉化表示的特殊方式。表示数据的方法有很多,如使用不同的符号、形状和排列,我们把这些称之为图表的类型。一些图表类型你比较熟悉,如条形图、饼图、折线图,但其他类型你可能就很少见了,如桑基图、树图、等值线图的地图。

Dataset 数据集合

数据集合是需要可视化处理的数据集合。你可以简单认为数据集合就是很多行和列的数据,这些数据通常在电子表格或数据库中。行代表一个记录,也就是一个事务的实例;列是变量,代表事务的具体信息。数据集合的大小、形式和关系是可以看到的,否则我们就很难观察。

Data source 数据源

当数据可视图的作者想告诉你展示的数据或信息的来源时,这些来源信息也会显示出来。通常会显示在标题附近或页面的底部。如果数据可视图有文章资料,你可以在文章中找到来源信息。

Axis 轴

许多类型的图表有轴。轴分为垂直的Y轴(向上或向下)和水平X轴(向左或向右),目的是为阅读数值的高度或位置提供一个参考。轴的位置通常会有刻度(见下文),刻度为阅读图标提供一个固定的参考点。

Scale 度量

度量表示数值的规模和范围。度量通常以间隔表示(10、20、30等等),代表度数字的单位,如价格、距离、年,或百分比。

Legend 图例

许多图表使用不同的视觉样式来表示不同的数据,如颜色、形状或大小。一个图例或样例告诉你这些样式是什么意思,从而帮助你阅读图表。

Variables 变量

我们可以用变量描述不同的人或事,例如,它可能是名字,出生日期,性别和工资。变量有不同类型,包括数量(如工资)、类别(如性别),还包括属性或文本信息(如名字)。图表可以表示不同变量之间的关系。例如,右边的条形图可以显示不同部门(不同的组)的员工的数量(柱的高度)和性别组成(不同的颜色)。

Outliers 离群值

离群值是那些数值超出了正常数值范围的数据。我们知道图表常常可以帮助识别数据模式,在右边的例子中,x轴上的数量越大,在y轴上数量就越大,这就是一种数据模式。有时候有些特殊的数据不符合图表中数据模式,如图中橙色点,它们就是离群值。

Input area 输入区

输入区允许你在图表中输入信息,或是寻找特定名字或位置,或为了输入你自己的信息。

转自:中国统计网;http://itongji.cn/cms/article/articledetails?articleid=638;



干货:数据分析师的能力和工具体系

数据分析师和圣骑士职业很相似,都需要“门门通”。今天的文章对数据分析师的能力和工具体系进行了梳理,感兴趣的朋友可以作为参考。

一.数据分析师的能力体系

1.数学知识

数学知识是数据分析师的基础知识。

对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。

对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。

而对于数据挖掘工程师,除了统计学以外,各类算法也需要熟练使用,对数学的要求是最高的。

2.分析工具

对于初级数据分析师,玩转Excel是必须的,数据透视表和公式使用必须熟练,VBA是加分。另外,还要学会一个统计分析工具,SPSS作为入门是比较好的。

对于高级数据分析师,使用分析工具是核心能力,VBA基本必备,SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。

对于数据挖掘工程师……嗯,会用用Excel就行了,主要工作要靠写代码来解决呢。

3.编程语言

对于初级数据分析师,会写SQL查询,有需要的话写写Hadoop和Hive查询,基本就OK了。

对于高级数据分析师,除了SQL以外,学习Python是很有必要的,用来获取和处理数据都是事半功倍。当然其他编程语言也是可以的。

对于数据挖掘工程师,Hadoop得熟悉,Python/Java/C++至少得熟悉一门,Shell得会用……总之编程语言绝对是数据挖掘工程师的最核心能力了。

4.业务理解

业务理解说是数据分析师所有工作的基础也不为过,数据的获取方案、指标的选取、乃至最终结论的洞察,都依赖于数据分析师对业务本身的理解。

对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。

对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。

对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。

5.逻辑思维

对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。

对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。

对于数据挖掘工程师,逻辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的

6.数据可视化

数据可视化说起来很高大上,其实包括的范围很广,做个PPT里边放上数据图表也可以算是数据可视化,所以我认为这是一项普遍需要的能力。

对于初级数据分析师,能用Excel和PPT做出基本的图表和报告,能清楚的展示数据,就达到目标了。

对于高级数据分析师,需要探寻更好的数据可视化方法,使用更有效的数据可视化工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。

对于数据挖掘工程师,了解一些数据可视化工具是有必要的,也要根据需求做一些复杂的可视化图表,但通常不需要考虑太多美化的问题。

7.协调沟通

对于初级数据分析师,了解业务、寻找数据、讲解报告,都需要和不同部门的人打交道,因此沟通能力很重要。

对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。

对于数据挖掘工程师,和人沟通技术方面内容偏多,业务方面相对少一些,对沟通协调的要求也相对低一些。

8.快速学习

无论做数据分析的哪个方向,初级还是高级,都需要有快速学习的能力,学业务逻辑、学行业知识、学技术工具、学分析框架……数据分析领域中有学不完的内容,需要大家有一颗时刻不忘学习的心。

二.数据分析师的工具体系

可以从图上看到,Python在数据分析中的泛用性相当之高,流程中的各个阶段都可以使用Python。所以作为数据分析师的你如果需要学习一门编程语言,那么强力推荐Python~

写好一份数据分析报告的13个要点

先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。

一份好的分析报告,有以下一些要点:

首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去的欲望;

第二,每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了他本身的意义,因为你本来就是要去寻找或者印证一个结论才会去做分析的,所以千万不要忘本舍果;

第三,分析结论不要太多要精,如果可以的话一个分析一个最重要的结论就好了,很多时候分析就是发现问题,如果一个一个分析能发现一个重大问题,就达到目的 了,不要事事求多,宁要仙桃一口,不要烂杏一筐,精简的结论也容易让阅者接受,减少重要阅者(通常是事务繁多的领导,没有太多时间看那么多)的阅读心理门槛,如果别人看到问题太多,结论太繁,不读下去,一百个结论也等于0;

第四、分析结论一定要基于紧密严禁的数据分析推导过程,不要有猜测性的结论,太主观的东西会没有说服力,如果一个结论连你自己都没有肯定的把握就不要拿出来误导别人了;

第五,好的分析要有很强的可读性,这里是指易读度,每个人都有自己的阅读习惯和思维方式,写东西你总会按照自己的思维逻辑来写,你自己觉得很明白,那是因 为整个分析过程是你做的,别人不一定如此了解,要知道阅者往往只会花10分钟以内的时间来阅读,所以要考虑你的分析阅读者是谁?他们最关心什么?你必须站 在读者的角度去写分析邮件;

第六,数据分析报告尽量图表化,这其实是第四点的补充,用图表代替大量堆砌的数字会有助于人们更形象更直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从;

第七、好的分析报告一定要有逻辑性,通常要遵照:1、发现问题--2、总结问题原因--3、解决问题,这样一个流程,逻辑性强的分析报告也容易让人接受;

第八、好的分析一定是出自于了解产品的基础上的,做数据分析的产品经理本身一定要非常了解你所分析的产品的,如果你连分析的对象基本特性都不了解,分析出来的结论肯定是空中楼阁了,无根之木如何叫人信服?!

第九、好的分析一定要基于可靠的数据源,其实很多时候收集数据会占据更多的时间,包括规划定义数据、协调数据上报、让开发人员 提取正确的数据或者建立良好的数据体系平台,最后才在收集的正确数据基础上做分析,既然一切都是为了找到正确的结论,那么就要保证收集到的数据的正确性, 否则一切都将变成为了误导别人的努力;

第十、好的分析报告一定要有解决方案和建议方案,你既然很努力地去了解了产品并在了解的基础上做了深入的分析,那么这个过程就决定了你可能比别人都更清楚 第发现了问题及问题产生的原因,那么在这个基础之上基于你的知识和了解,做出的建议和结论想必也会更有意义,而且你的老板也肯定不希望你只是个会发现问题 的人,请你的那份工资更多的是为了让你解决问题的;

十一、不要害怕或回避“不良结论”,分析就是为了发现问题,并为解决问题提供决策依据的,发现产品问题也是你的价值所在,相信你的老板请你来,不是光让你 来唱赞歌的,他要的也不是一个粉饰太平的工具,发现产品问题,在产品缺陷和问题造成重大失误前解决它就是你的分析的价值所在了;

十二、不要创造太多难懂的名词,如果你的老板在看你的分析花10分钟要叫你三次过去来解释名词,那么你写出来的价值又在哪里呢,还不如你直接过去说算了,当然如果无可避免地要写一些名词,最好要有让人易懂的“名词解释”;

十三、最后,要感谢那些为你的这份分析报告付出努力做出贡献的人,包括那些为你上报或提取数据的人,那些为产品作出支 持和帮助的人(如果分析的是你自己负责的产品),肯定和尊重伙伴们的工作才会赢得更多的支持和帮助,而且我想你也不是只做一锤子买卖,懂得感谢和分享成果 的人才能成为一个有素养和受人尊敬的产品经理。

珍藏版|史上最全的大数据分析和制作工具

以下是一些用于大数据分析的“必备神器”,其中很多功能非常强大的,希望大家能从中找到对自己有帮助的工具。全选地址,拷贝到浏览器中,即可。

1.微信大数据分析工具

新媒体指数:http://www.gsdata.cn/

2.数据可视化工具

百度ECharts:http://echarts.baidu.com/

Cytoscape:http://www.cytoscape.org/

图表秀:http://www.tubiaoxiu.com/

数据观:http://shujuguan.cn/

微博足迹可视化:http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html

BDP个人版:https://me.bdp.cn/home.html

ICHarts:http://www.icharts.in/

魔镜:http://www.moojnn.com/

3.词频分析工具

Rost:http://www.cncrk.com/downinfo/54638.html

图悦:http://www.picdata.cn/

语义分析系统:http://ictclas.nlpir.org/nlpir/

Tagul:https://tagul.com/

腾讯文智:http://nlp.qq.com/semantic.cgi

Tagxedo词云:http://www.tagxedo.com/

4.舆情分析工具

清博舆情系统:http://yuqing.gsdata.cn/

云相:http://www.weidata.cn/

5.PPT模板工具

我图网:http://so.ooopic.com/

51PPT模板:http://www.51pptmoban.com/ppt/

无忧PPT:http://www.51ppt.com.cn/

第1PPT:http://www.1ppt.com/

站长之家:http://sc.chinaz.com/ppt/

设计师网址导航:http://www.userinterface.com.cn/

6.互联网趋势分析工具

微博指数:http://data.weibo.com/index

百度指数:http://index.baidu.com/

好搜指数:http://index.so.com/#index

搜狗指数:http://zhishu.sogou.com/

百度预测:http://trends.baidu.com/

7.在线调查工具

腾讯问卷调查:http://wj.qq.com/

麦客:http://www.mikecrm.com/

ICTR:http://cn2.ictr.cn/

问道网:http://www.askform.cn/

问卷星:http://www.sojump.com/

调查派:http://www.diaochapai.com/

问卷网:http://www.wenjuan.com/

SurveyMonkey:https://zh.surveymonkey.com/

8.网站分析监测工具

H5传播分析工具:http://chuanbo.datastory.com.cn/

百度统计:http://tongji.baidu.com/web/welcome/login

腾讯云分析:http://mta.qq.com/

51.la:http://www.51.la/

9.社交媒体监测工具

孔明社会化媒体管理:http://www.kmsocial.cn/

企业微博管理中心:http://e.weibo.com/

知乎用户深度分析:http://www.kanzhihu.com/useranalysis

10.其他数据网站

媒体微博排行榜:http://v6.bang.weibo.com/xmt

友盟:http://www.umeng.com/

中国新闻地图:http://vis.360.cn/open/cnnews/

中国票房榜:http://www.cbooo.cn/

收视率排行:http://www.tvtv.hk/archives/category/tv

农业大数据云平台:http://www.dataagri.com/agriculture/gis.action

房价指数:http://industry.fang.com/data/datacenter.aspx

中国统计局:http://data.stats.gov.cn/

中国主要城市拥堵排名:http://report.amap.com/traffic/

中国综合社会调查:http://www.chinagss.org/

中国P2P网贷指数:http://www.p2p001.com/wdzs/wdzs_p2pline.html

Alexa:http://www.alexa.com/

易车汽车指数:http://index.bitauto.com/

旅游预测:http://trends.baidu.com/tour/

以上就是给大家推荐的一些用于数据分析的“必备神器”,其中很多工具是亲测过认为非常强大的,希望大家能从中找到对自己有帮助的工具。

更多大数据内容请点击查看原文

常用的数据可视化图表锦集

“数据可视化”可以帮助用户理解数据,一直是热门方向。图表是”数据可视化”的常用手段,其中又以基本图表——柱状图、折线图、饼图等等最为常用。

很多用户都非常熟悉这些图表,但如果被问到,它们的特点是什么,最适用怎样的场合(数据集)?恐怕答得上来的人就不多了。有人觉得,基本图表太简单、太原始,不高端,不大气,因此追求更复杂的图表。但是,越简单的图表,越容易理解,而快速易懂地理解数据,不正是”数据可视化”的最重要目的和最高追求吗?

一、柱状图(Bar Chart)

柱状图是最常见的图表,也最容易解读。

它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。年销售额就是二维数据,”年份”和”销售额”就是它的两个维度,但只需要比较”销售额”这一个维度。

柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。

通常来说,柱状图的X轴是时间维,用户习惯性认为存在时间趋势。如果遇到X轴不是时间维的情况,建议用颜色区分每根柱子,改变用户对时间趋势的关注。

上图是英国足球联赛某个年度各队的赢球场数,X轴代表不同球队,Y轴代表赢球数。

二、折线图(Line Chart)数据

折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。

同时它还适合多个二维数据集的比较。

上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。

  

三、饼图(Pie Chart)

饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。

上图中,上侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。

一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。

四、散点图(Scatter Chart)

散点图适用于三维数据集,但其中只有两维需要比较。

上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。

为了识别第三维,可以为每个点加上文字标示,或者不同颜色。

五、气泡图(Bubble Chart)

气泡图是散点图的一种变体,通过每个点的面积大小,反映第三维。

上图是卡特里娜飓风的路径,三个维度分别为经度、纬度、强度。点的面积越大,就代表强度越大。因为用户不善于判断面积大小,所以气泡图只适用不要求精确辨识第三维的场合。

如果为气泡加上不同颜色(或文字标签),气泡图就可用来表达四维数据。比如下图就是通过颜色,表示每个点的风力等级。

六、雷达图(Radar Chart)

雷达图适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。

下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。

画成雷达图,就是下面这样。

面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。

需要注意的时候,用户不熟悉雷达图,解读有困难。使用时尽量加上说明,减轻解读负担。

总结

更多数据可视化内容请点击查看原文