现在的位置: 首页 > 互联网 > 正文
特征识别——我的数据分析心得
2012年02月22日 互联网 ⁄ 共 939字 特征识别——我的数据分析心得已关闭评论 ⁄ 被围观 2,201 views+

我这人比较懒,就说吃水果,如果你问我橙子为什么比苹果好吃?我会告诉你因为橙子剥皮就能吃,至于为什么香蕉会比橙子好吃?当然是因为剥过橙子皮还需要洗手……说到博客,也就是,建起来了懒得写,实在要写也尽量放到周末,所以说今天这文章写得意外嘛!主要是早上想起要写三篇文章,晚上下班回来就只记得两篇了……

言归正传,做过一些数据分析的工作,略有心得,短载如下,欢迎指正:

1.一般而言,我的数据分析模型是如下结构:

确定分析目标(分析的目的是?)->设定分析方法->分析验证->输出结论。

其中,分析方法->分析验证是一个迭代的过程,方法不对就换嘛~同样,最后输出的结论不能达成分析的目标时,那也得闭环反馈,得迭代,杯具有时是难免的。

当然,本文的重点不在于上面的分析模型,虽然那也能算重点,毕竟这种抽象的结构下,才会有基于各种工具的分析手段。

2.贯穿这个模型的,是我自己称作的“特征识别”,就如同区分男女一样,从确定分析目标开始,就要去辨别,去寻找目标的特征,完成对目标的识别,基于此,如何确定分析的方法也就有迹可循,后面的工作也是水到渠成的事情。例如:分析某件商品在新老用户人群中的受欢迎程度,问题虽然简单,但是如果新老用户群没有任何可区分的特征,细分就无从谈起,想起线性代数中矩阵的特征向量/值,呵呵~这不就是某个矩阵的特征吗?通过对它的识别,才能将该矩阵与其他的区分开。

3.特征因具体对象而异,但通常至少有三个条件:A.特征应该足够简洁;B.特征应该足够容易获取。C.特征应该紧扣目标。

4.通过以上的抽象模型,在具体的行业中,比如网站的流量分析,结合专用的各种工具,就可以实现很多组合分析。由于水平所限,我所看到的网站分析其实并不高深,即便是Avinash在他的书/博文中提到对于网页交互度的分析方法(将一个网页中的链接赋予不同权重,然后累加各链接×权重的PV值,事实上,权重即概率),也没有达到让人难以想象或理解的程度,一般的分析人员基于自身分析的需要,想出这种方法几乎是意料之中的,当然,Avinash的价值远不止如此,只是想说明,从方法上的学习和掌握,结合不断积累的经验,应付一般的网站分析还是够用的。

抱歉!评论已关闭.

×