谢邀。您好,我是一名专注研究电商图表、软件、算法的商业智能数据分析师。之前在大型企业做过5年电商运营,因此对运营还是有一定了解的。
电商运营,每天的工作内容,其实也是看具体团队规模的,规模越大做的事情就越少越精越有重点,反之则做的越杂。可以对比自己平时做的事情是否足够杂来判断自己的团队规模到哪里去了。
对于电商运营来说,真正要掌控的就两个方面,其一视觉优化,其二数据分析。我先说清楚,类似于自然搜索、直通车之类的,其本质应该是给推广人员负责的,要不然要推广人员来干嘛。
视觉优化,是电商运营的命脉。视觉优化如果做错了,那么也就意味着相对应的人群会被过滤。举个例子,高客单价的用户和低客单价的用户,对待同个页面是两种截然不同的看法。例如一件连衣裙,高客单价用户考虑的是穿着场景,在什么场合、自己的妆容是怎样的,是在高端会所与名媛聊天,还是在外头商超购物,是不一样的。而对于低客单价用户来说,衣服的质量、以及买家秀才是关键的。
数据分析,是电商运营的眼睛。运营,负责团队的管理,以及对项目的规划。如果没有数据分析的能力,自然无法对市场进行一个准确的预测,以及对团队各岗位在执行具体方案时出现的问题及时找到突破口。
希望我的回答能对您有所帮助,谢谢!
关于数据
我现在转型做电商数据分析师,平日里会写一些电商数据文章,趁今天刚好有时间分享一点内容进来观看。如果您不喜欢。可直接忽略!
前言
前天,有位同学想要把一份关键词的市场数据进行分析。问题在于这并非简单通过给搜索指数排序,从高到低进行选择;也不是通过构造新字段,引用搜索指数和全网商品数进行相除来得到搜索竞争度。
如果数据都是真实数据的话,这么写也未尝不可。但搜索指数毕竟是指数化的数据,在一堆并不明确真实值的情况下就贸然进行加减乘除,未免有点太儿戏了。当然,有同学也会说,把指数化数据转换过来不就好了吗?确实,这也是一种可行的办法。但我们今天就偏偏要在指数化数据上进行直接处理。
于是,花老师结合这位同学的思路,利用统计学上的离散化原理,将所有指数化数据进行降维处理,最终将所有指数化数据,以及真实值数据,都纳入区间[0,1]里头。再根据中位数原理,将所有数据转变成“小”“冷”“温”“热”4种不同的标签里头。最终,通过统计各个标签的数量,来衡量关键词是否优质。
这种操作的好处在于,筛选出来的关键词会更加靠谱,因为离散化处理,可以将不同单位、不同量级,都转变成相同单位、相同量级的数据。我相信,这堂课应该可以给到许多同学思维上的启发,关键词原来还可以这样分析。
正文
所谓离散化,很多同学都不了解,我先把公式写出来:离散化 = (实际值-最小值)/(最大值-最小值)。
这里以搜索指数为例,虽然搜索指数是指数化后的数据,但肯定是使用同一种算法,不可能每个数据的指数算法都不一样。因此,就搜索指数来说,他们的数据即使被改变过,实际上数据之间的距离占比是没什么变化的。
从公式来看,最大值和最小值都很好理解,以前在Excel当中是用max()函数求最大值,min()函数求最小值。最大值-最小值=极差。如果我们把最大值和最小值放在一个直角坐标系上去看的时候,就可以发现所谓的极差,其实就是两者之间的直线距离。
当然,前提就是要给这堆搜索指数进行降序排序或者升序排序。让数据沿着同一条直线上进行分布。那么离散化的公式分母就是数据的总长度,也就是红色框框的长度。而分子,就是实际值与最小值之间的总长度,也就是绿色框框的长度。那么,最终的离散值,其实就是这2个框框的面积占比。因为这里的分子最大只能等于分母,最小为零,所以最终的离散值最大值是1,最小值是0,但一般都是落入这个区间里头的。
假如这里的每个数据都加入算法,比如乘以10,那么所有的数据都会同时往上走10倍距离。请问数据之间的距离,有变化吗?这个有点类似于爱因斯坦的相对论,人坐在车里头没有感觉到速度有什么变化,但车窗外的行人会看到一辆车飞奔而去!
通过上面的这个分析,我们可以知道即使数据被指数化得很严重,只要是尊循同一套算法的话,那么数据之间的相对距离其实是不变的。
结合PowerQuery和PowerPivot,在数据模型当中直接计算出“搜索指数”“搜索点击指数”“点击率”“成交金额指数”“成交转化率”,就可以轻松计算出各自的离散值是多少。这里要跟大家强调一下,每个指标的离散值只能内部对比,不能跨指标对比。
比如,我们不能拿“搜索指数”和“点击率”的离散值进行对比,却可以拿“搜索指数”内部的离散值之间进行对比。
有了每个指标的离散值之后,我们就要将这些离散值进行升序排序或者降序排序,先把每一列指标的离散值依据“1/4中位数”“2/4中位数”“3/4中位数”进行切割。
之后通过离散值和各自的中位数进行比较,判断离散值是否大于中位数。例如,离散值如果小于1/4中位数,那么就显示为“小”;如果小于2/4中位数,就显示为“冷”;如果小于3/4中位数,就显示为“温”;如果大于3/4中位数,就显示为“热”。
最终,离散值就转变成人脑能够看得懂的文字。这里有个问题,为什么要选择中位数来对离散值进行切分,而不是用平均值。
很简单,因为平均值会受到最大值和最小值的影响,如果存在异常值特别大或者特别小的,那么整体均值就失去意义。而中位数,在统计学上来说,是依据数据在升序或者降序后所在的位置来进行判断的,不会受到最大值和最小值的影响。
使用中位数,很好的将离散值切分成多个区间。很明显,当离散值大于3/4中位数的时候,说明这个离散值的数据占比已经很大了,就说明其真实值应该是很大的才对。
就以搜索指数为例,离散值最大,是不是就意味着该关键词的真实搜索指数是最大的。所以,我们将数据显示为“热”就是这个意思。
之后,使用替换法,将所有非“热”的数据都转变成0,将“热”转变成1,将结合PowerQuery的自定义列进行相加,就可以算出“热”的数量一共有多少个。
那么,如果关键词的“热”的数量越多,是不是意味着相对应的指标的真实数据都是比较大的。那么当一个关键词的各个指标的数据都是大的时候,是不是意味着这个关键词就越优质。
同理,我们也可以算出“温”字出现多少次,来作为“较优质”的判断。
最后,将数据自动化导出,给数据进行格式处理之后,以后只需要不断更新数据就可以自动显示了,无需重复操作这些繁琐的步骤!!!掌握数据处理自动化,节省的不仅仅是时间,还有精力、机会成本。
这里有个注意事项就是,数据在开始做之前要进行关键词去重,每个关键词只能留下一个,除非给其添加索引列,否则在数据匹配过程当中会出现合并问题。
希望我今天的分享能对大家有所帮助,谢谢!不废话,关注知乎专栏花随花心,送数据分析工具箱! |