一、平台视角
1. 起因
看了几年的人人都是产品经理(以下本文中简称人人),从来只是个看客和学习者。最近因为比较闲,也在总结这几年来的工作心得。近一个月前终于有了第一次投稿,如何通过小程序和微信社群来构建产品运营体系? 。上过人人的微信头条,每天都能有几个新的订阅用户,这些都在告诉在我这一点付出还是能够帮助到其他人的。但我一直很好奇它具体在人人的过往文章中到底是个什么水平,我心里没有底。所以出于好奇,就有了这次数据分析的探索之旅。
2. 内容安排
学过数据分析的同学肯定在最开始都有这样的体会,手中有了锤子,看什么都像钉子。所以好久没做数据分析,手痒一下子抓取并分析了一大堆数据,远远超过了最初的目的。所以开始构思如何写这篇文章的时候,做了如下思考:
- 人人是由哪些角色构成?
- 这些角色都想知道些什么?
- 能否通过现有的数据给出这些答案?
综合考虑以上问题和文章篇幅后,大致拟出如下图所示框架:
woshipmSt
- 左边为人人官方平台角度。换位思考,如果我是运营,首先会比较关系平台的内容循环体系是否正常,其次内容是否带来足够的收益;
- 右边为用户角度,就是普通的网站访问者,同时根据身份又分为读者和作者,读者想的是能够找到自己想要的内容,作者是想的是自己的作品是否受到大家的关注;
这是两个角度,三种角色的基本思考,而本篇则会由左边开始,下篇会讲右边。
3. 数据介绍
3.1. 开发环境
基本的数据分析工具就如下图所示:
项目 | 详情 |
---|---|
操作系统 | Mac OS |
分析语言 | python3.6.6 |
分析框架 | pandas, numpy, seaborn, matplotlib, XGBoost |
开发环境 | jupyter notebook |
数据格式 | json, csv |
服务支持 | 腾讯AI开放平台情感分析、基础文本分析, 哈工大云语言API的语义依存分析 |
3.2. 数据获取
因为不是写教程,而且过程也很简单,这里只是简单的提一下。使用Python写一个For循环请求网站的一个分页加载接口就能够获得所有的网站文章数据(Json格式),再将所有的Json数据合并整理成相应的列表。
其中接口返回的原始数据项比较丰富,选取其中比较有价值和便于分析的,如下表示:
原始数据属性 | 名称 | 说明 |
---|---|---|
id | 文章唯一编号 | 应该从1开始的整数,随着发表时间单调增加,不连续 |
date | 文章发布时间 | 这里只有日期,没有具体时间 |
permalink | 文章链接 | 主站+文章分类代码+id的路径组合 便于一些结果输出就保留了 |
title | 文章标题 | 会有麻烦的特殊编码需要处理 |
category | 文章分类 | 纯文本,部分文章未分类 |
view | 浏览次数 | 为了前端显示方便,上万后并没有返回具体数值 仅有字符串【X万】,需要做舍入处理 |
like | 点赞量 | 整数,似乎有负数的情况 |
comment | 评论量 | 有删除的评论数量未必和点击进入后的文章显示量一致 |
bookmark | 收藏量 | 整数,似乎有负数的情况 |
authorID | 用户编号 | 从1开始自然数,单调增加,但并不连续 |
authorName | 用户昵称 | 字符串,不为空 |
authorRole | 用户在站内身份 | 字符串,普通用户没有身份,所以会赋值普通用户 |
3.3. 数据总览
在获得数据后,第一时间就先看看整体的数据情况。时间有限就不去做些漂亮可视画展示啦,总览数据就如下表所示:
运营项目 | 总量 | 均值 | 标准差 |
---|---|---|---|
网站运营时长 | 2287天 | 略 |
略 |
文章数量 | 45213篇 | 19.7篇/日 | 47.9 |
同上 |
同上 |
7215.9篇/年 | 1718.0 |
作者数量 | 4138名 | 11.9篇/人 | 91.7 |
阅读 | 5100万次 | 11377.8次/篇 | 19669.4 |
点赞 | 62万 | 14次/篇 | 36 |
收藏 | 245.6万 | 54次/篇 | 116 |
评论 | 14.5万 | 3次/篇 | 11.0 |
文章分类 | 23个 | 详见后文 | |
作者分类 | 23个 | 详见后文 | - |
只看以上数据,我上一篇的数据无论是5K的阅读量还是收藏点赞都还没有达到平均值,离好文章都还有一些距离,这组数据能解决我的基本困惑。但对于整体的运营情况和前文提出的一些分析目标来说还远远不够,所以还需要后文的深入分析。
3.4. 正式开始分析前对数据的一点说明
- 数据仅采集自首页文章列表展示数据,仅用于学习和投稿人人的写作,不做何商业用途;
- 本文数据采集自2018年8月16号,一切记录数据以当天为准;
- 文章数据并不能保证严格正确和全面,比如9月2号再次采集时,文章数量比8月16号的还少,应该是下架了一些文章,但对于本次分析人人的网站大体情况应该是没有问题的。
- 为了不给人人主站造成不必要的网络负担,如果有需要原始数据的同学可以在后面留言邮箱,或者在我的个人网站中寻找。
4. 平台运营分析
初步分析人人主站的主要业务逻辑如下图所示。①由作者发表文章,②吸引用户产生流量,⓷部分读者会转化成作者、生产独家内容,以此来构成一个能够长期
、稳定
的内容发布体系。在此之后的,通过流量发布广告,读者带来的口碑换取第三方合作、课程转化等,都是在这之上的业务逻辑,分支太多,不可能面面俱到,所以点到即止。
Artboard 2
再根据实际的数据情况,并没有直接的读者UV数据,所以仅对以下两条业务线进行分析:
- 业务线1. 多少作者产生了多少投稿
- 业务线2. 投稿的文章带来了多少阅读量进行分析
5. 投稿作者
相信大家在看数据总览中能看到,投稿作者的身份多达23种,依次是:站长、运营小编、官方、专栏作家、运营小哥、运营小妹、普通用户、设计小妹、运营、合作媒体、编辑、作者、萌妹子、主编、女神、男神2、临时工、特邀作者、运营哥、美少女、CV工程师、合作出版社、小编妹妹。
是不是眼花缭乱,群魔乱舞?这里我根据后面的实际情况对相应的身份进行了些合并。
原角色名称 | 合并 | 理由 |
---|---|---|
站长 | 站长 | 站长牛逼 |
运营小编、官方、运营哥、运营小哥、运营小妹、设计小妹 运营、编辑、作者、主编、 萌妹子、女神、男神2、临时工、美少女、 CV工程师、小编妹妹 |
平台运营 | 乱 |
Nan | 普通用户 | 数据上返回为空,为了便于分析加了个title |
专栏作家 | 专栏作家 | 加了V的普通用户 |
合作媒体、特邀作者、合作出版社 | 第三方合作 | 只将人人做为文章的发布渠道之一 |
所以这里需要吐槽和需要改进的自然就是平台运营小编们对自己的角色定位了,只从命名上看得出来应该是后台的管理有些混乱,最初来一个新人就想当然的给了自己一个title。或者说人人当初有自己的培养明细写手的打算,所以预留了一些特殊的职位和身份?
5.1. Q1.各阶段的投稿主力是谁?
OK,吐槽完作者身份后,进入到第一个问题。那就是人人上面的文章都是从哪儿来的,或者说是谁投的稿?在对作者身份进行合并后,如下图所示的是2012~2018年,投稿数量分布热力图:
download-1
这里不仅对各时期的投稿主力看得很清楚,甚至可以清晰看到人人的主业务搭建过程:
- 最初是由站长在2012年完成了大量的投稿(转载),构建了网站的基本内容(可能是有一些网站的改版,因为人人实际从2010年就开始运营了);
- 在2013年开始,大量团队成员的加入后,转为团队运营的方式,而站长由此开始退居隐退,并且在网站上投稿的用户明显增多;
- 之后一年团队应该过得挺辛苦的,平均每天团队成员需要投稿15.3篇,只算工作日251天的话,大约27篇,虽然不知道团队成员多少,但至少在2014.11月拿到融资之前团队成员应该不会太多。即便转载,也会有相当的二次编辑工作量;
- 2015年大约是通过对普通作者的发掘,将部分投稿用户转为了专栏作家,激发了用户的投稿积极性,使专栏作家的投稿量有了质的飞跃。当然,这里有个问题可能在于用户在最初投稿时为普通用户,但在之后转为专栏作者,将部分原应该归到普通作者的数据分到了专栏作家中;
- 之后的两年就相当平衡了,更多的普通用户投稿说明对平台的品牌认可,且源源不断的提供更多的专栏作者,以维持稳定的内容输出;
整体来看,之前说的主业务体系目前应该是比较稳定且完整的。2018年的数据目前还不好说,但专栏作家的流失的趋势有点明显,可能需要一些激励计划。
5.2. Q2. 用户的投稿次数分布
从内容生产的角度来说,普通用户和专栏作家投稿属于UGC内容,平台运营内容属于PGC内容。PGC内容可以根据团队运营的情况来调整,而UGC内容则需要通过适当的激励手段来保持。而且之前在数据总览中能看到这样一组数据:
- 作者总数4138名
- 人均投递11.9篇/人
- 投递偏差值为91.7
如此大的偏差值,能够多次投稿的用户数量并不多,而实际的情况也如下图所示(仅普通用户和专栏作家):
download-2
那么在普通的吃瓜群从中,加了V的专栏作家是否真的有做出比普通用户更多的投稿呢?为了接下来的分析和数据展示,将对用户的投稿数量做了出以下分组:
标签 | L1 | L2 | L6 | L20 |
---|---|---|---|---|
投稿数量 | n=1 | n=[2,6) | n=[6,20) | n=[20,+∞) |
- 绝大部分的的专栏作家完成了至少5篇以上的投稿,且L20的专家用户完成了相当的投稿量;
- 从普通用户L20中可以看到人人确实把相当一部分用户转成了专栏作家,而且通过具体数据查看,此类剩余未转化的用户大部分只是转载;
- 普通用户L2到L6之间有道坎,这个我现在自己写作也深有体会,对于用户来说一时兴起写一两篇没有问题,但难的是如何坚持;
- 从此数据中无法直接得出普通作者转成专栏作家后,能够持续投稿,缺乏用户身份转变的时间,故不再做进一步分析。
5.3. Q3.用户的投稿偏好
最后我们来看一看用户喜欢投哪些类型的稿件。普通用户的投稿一般是兴趣始然,或者是来自自己的工作内容的总结、经验分享。所以这个分析将将可能得出产品经理们的能力变化和工作变化。
从左往右按年份来看:
- 2012~2015可能还是产品经理在行业内刚开始冒头的时候,所以产品经理的主要工作:
产品设计
、产品运营
、产品经理
大家都还不太敢写,或者说能写的人还很少。主要就是分析行业和转载报道当前的行业趋势; - 2016开始才品类丰富起来,应该算是产品经理行业开始变得成熟的一个分界点;在这之后,
产品设计
、产品运营
、产品经理
的投稿才变得丰富起来,毕竟有经验的开始多了起来; 营销推广
、文案策划
、新零售
、AI人工智能
直到今年才有投稿,应该是最初没有分类造成的,也应该是相应的内容开始集中出现的结果。
不过这个分类是人人运营自己做的,很明显还是有些问题。分类来得有些晚,至少热点已经过了,或者因为没有分类可以选就在一些大项里凑合一下,将会造成文章索引困难,值得优化一下。
6. 投稿收益
网站上有了内容,那就需要看看这些内容所能够带来的收益。与很多实时类的新闻不同点在于,人人是个比较专业又垂直的网站,里面的内容是会沉淀的,即使是几年前的文章也会被用户找出来进行查阅,而且有相当多的引导和内容聚合,可以将新用户直接导入到有价值的老文章上来。
所以需要注意,在接下来的文章收益里的几个数据:阅读、点赞、收藏和评论都是一个累积量,不能当做PV和UV来进行参考。
6.1. Q4. 各时期的文章对用户吸引力
有了之前对数据的说明和理解,这里将要计算的是各时间点下,不同分类的文章对阅读量的收益是如何分布的。对于网站来说,历史内容也是可以增加点击量的。而不时间的最终阅读量均值如下图所示:
download-3
- 2018年,除了招聘信息,所有类型的文章的阅读量都比之前低,有以下几种可能:
- 有经验的产品经理越来越多,所以大家挑着看;
- 产品经理的人数和热度在减少;
- 产品经理的岗位也在也在减少;
- 优质的内容不如之前的多,所以新用户会导入到老文章上来,新文章反而快速的沉没;
具体是哪种,可能还需要直接从管理后台查看日活,月活比较说明问题。
- 对于平台来说,只要能吸引到用户和点击量就是好内容,从上图中显而易见的:
干货下载
和原型设计
这两个入门级的分类文章始终是最能吸引用户点击的,这种历史内容实际只能通过搜索来反馈,可以更突出一点; AI人工智能
,区块链
这些新技术的阅读量都出现了大量的下滑,说明大家对这些新领域并不看好。而还有很多新的发展趋势却没有体现出来,有点可惜,这一点之前已经提过了。
6.2. Q5. 各时期的投稿质量如何
刚刚Q4的分析中,仅是从阅读量均值来查看。但有经验的同学肯定知道,很多标题党也可以直接收获不错的点击。所以接下来这里我们需要更严格一点,将
阅读
、点赞
、收藏
、评论
都放在一起进行考量。这里再具体看一下相关的统计数据:
屏幕快照 2018-09-13 下午5.44.47
数值上的差距还是相当大。所以这里我们为了统计和展示方便,做了以下数据处理:将四项属性按低于25%的值评定为Low,高于75%的评定为High,其余为Mid进行分组。反过来说,如果一篇文章的某一项属性评定为High,意味着它的这一项属性是超过75%的文章的;
- 然后逐月计算将相应月份里,分别计算四个属性中为High的比例,比如2017年1月份投稿100篇,得出有20篇阅读量为High,10篇点赞量为High,那么只记录相应的
高阅读
和高点赞
比例分别为0.2和0.1。
结果如下图所示,其中四条线是取值为[0,1]之间的比例,为了不与下方的投稿量过于干扰进行了放大处理。下面的bars则是当月的投稿数量。需要解释一下的是因为高质量的文章并没有统一标准,所以这里并没有对数据进行合并,而采取的是人工观察和感性分析:
- 最左边的一条并不是数据出错了,而是早期站长批量导入。然后之前一直没提的就是整体投稿量一直呈现上升趋势;
- 高阅读量却没有相应的点赞和收藏,所以这里从2015年3月和4月取几个标题,大家感受一下:
- 从汪涵救场看产品经理的危机处理
- 滴滴拉屎App,估值100亿美金!
- 快滴拉屎PK滴滴拉屎,拉屎App的爱恨情仇
- 在网易实习是种什么体验?
- 2016年1~3月则是有大量读者需要的部分,大致逻辑为首页或者近期没有用户需要的,特别是新入门的产品经理,会比较急于想要找到自己想要的,所以会使用到搜索功能,然后小白的大量相似需求会推高相应的结果,而且为了之后的阅读查找,优先点击收藏;
- 2016年10月的投稿量不多,但似乎文章质量普遍很好,如果是取四个值的均值来看也是全期最高的;
之后新文章的数据会受到时间的影响,但整体文章质量趋于稳定,高阅读量的文章会带来高赞和收藏,而新读者从评论的角度上来说更活跃一些。
6.3. Q6. 作者带来的收益
根据之前的两条业务线的分析,1由作者与投稿,2投稿与收益之间还能建立一条分析,就是3.作者与收益。这里限于篇幅就只做一下整体的统计,来查看核心业务逻辑是否稳定。与之前图上的单位不同的是,下方的热力图的单位是万。
首先,可以看到,到现在2018年的时候,UGC内容带来的用户点击已经远远超过PGC内容,而且历年所有的UGC内容也已经超过PGC内容,这对内容生产的稳定发展有了基础;
其次,虽然此页面上的内容并不能直接代表网站流量,但根据2016~2018年的整体数据,可以给出以下两种解释:2018年,相比于用户水平的普遍上升,文章质量是相对下降了。或者是大家想看的内容都已经在之前都写完了。但如果结合Q4表中的
业务动态
也下降了,这种每个人都可能看一看的情况来说,可能性不大;- 2018年用户访问量下降。根据我自己一篇的投稿经验,文章发出去之后七天内阅读量的增长就会衰减至一个极小值。所以这里我假定得更严格一点,目前的新文章在发表30天之后就不会增长。 我之后的一些筛选和统计也是选择超过30天的文章来进行评判。这里可以初步得出如此解释。
7. 总结
7.1. 结论
结论1:最初假设的人人内容体系是存在且正常运行的,而且带流量的主体已经由平台运营方在向用户内容生产的方向转化;
结论2:如果只看今年的数据来说,文章的质量对比往年在下降,对读者的吸引力也在下降;
结论3:产品经理没有过去两年那么热门了,平台可能需要寻找一些新的业务和内容进行填充。7.2. 建议
文章编辑推荐:首先这是对投稿用户最直接的反馈和正面鼓励,其次被编辑推荐的文章可以让读者过滤掉大量标题党内容,提升内容品质。现在经常在首页翻了一圈并没有什么好内容,所谓的热门推荐,有些比较慢热,内容比较长容易扫一眼就直接关掉了,这个时候需要有编辑帮助引导一下;
用户投稿等级:可以看到用户的投稿数量和质量还是有很大的差距的,应该还是需要更复杂一点的体系和等级,而不仅仅只有一个title。另外成为专栏作者后,完成投稿目标是否有什么奖励呢?
文章可以打标签:就目前来看,这个文章分类是不够细致的,而且文章分类开得会比较不及时。比较好的流程是,作者在上传时可以自己选择多个文章标签,管理员再可以根据某一些标签快速的增长再将期转为分类。这样不仅对新趋势能够有所把握,而且之后建立索引也会更方便。
二、读者视角
以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。当然一千读者有一千个哈姆雷特,每个人对文章的价值都有着自己的判断,而本文将从数据统计的角度来分析那些对大多数读者能够有帮助的文章。解决的问题如下:
Q1. 阅读量
、收藏量
、点赞量
和评论量
分别的Top10是哪些文章
Q2. 有哪些文章值得收藏?
Q3. 有哪些作者值得关注?
2. Q1 各种Top10
在Youtube的各种节目中,各种盘点Top10节目很受观众欢迎。所以这里也按俗套剧情先偷个懒,直接把上一期整理好的数据排排坐,分别按照阅读量
、收藏量
、点赞量
和评论量
来进行排个序,看看各种Top的文章是哪些。还没有学习的同学也可以对本篇点击一波收藏,之后可以导航深入学习。
2.1. 阅读量
- 99.2万阅读量,《小白产品经理看产品:什么是互联网产品》,发表:2016-01-29,作者:华章图书,分类:产品经理
- 70.9万阅读量,《推荐几个H5页面制作工具,自己选一下吧》,发表:2015-12-22,作者:刘子丰,分类:产品运营
- 60.1万阅读量,《如何绘制业务流程图》,发表:2012-06-27,作者:老曹,分类:产品设计
- 56.8万阅读量,《产品需求文档(PRD)模板下载(附完整案例)》,发表:2012-06-21,作者:老曹,分类:干货下载
- 53.1万阅读量,《Axure教程 axure新手入门基础(2)》,发表:2013-08-19,作者:Nairo,分类:原型设计
- 52.5万阅读量,《产品经理岗位职责》,发表:2012-08-06,作者:老曹,分类:业界动态
- 52.1万阅读量,《产品需求文档的写作(四) – 撰写文档(PRD文档)》,发表:2014-04-18,作者:阿航,分类:产品设计
- 52.0万阅读量,《[干货]如何构建用户画像》,发表:2014-09-23,作者:小核桃,分类:产品经理
- 51.5万阅读量,《【干货下载】Axure 元件库- 常用元素1056枚下载》,发表:2014-10-13,作者:人人都是产品经理,分类:产品设计
51.0万阅读量,《【干货】H5页面制作免费工具大集合》,发表:2015-05-26,作者:盼盼姐,分类:产品设计
2.2. 收藏量
4274收藏量,《Word产品需求文档,已经过时了》,发表:2015-09-29,作者:臻龙,分类:原型设计
- 2407收藏量,《在面试时候,如何简明扼要简述产品流程(附思维导图下载)》,发表:2016-04-06,作者:Anne,分类:产品设计
- 2407收藏量,《如何去做一份竞品分析报告》,发表:2016-02-18,作者:梁嘉琪JackieLiang,分类:分析评测
- 2298收藏量,《你会写报告?产品体验报告的思路应该是这样的!》,发表:2016-01-14,作者:休言万事转头空,分类:分析评测
- 2237收藏量,《产品经理面试习题大汇总》,发表:2016-11-25,作者:留言,分类:职场攻略
- 2120收藏量,《绝密原型档案:看看专业产品经理的原型是什麽样》,发表:2015-04-20,作者:GaraC,分类:原型设计
- 1932收藏量,《三个步骤教你如何做好后台产品设计》,发表:2015-11-16,作者:点融黑帮,分类:产品经理
- 1832收藏量,《如何优雅的用Axure装逼?高保真原型心得分享》,发表:2016-02-14,作者:ygg,分类:原型设计
- 1779收藏量,《干货流出|腾讯内部几近满分的项目管理课程PPT》,发表:2015-12-26,作者:米可,分类:产品经理
1774收藏量,《全面解读流程图|附共享单车摩拜ofo案例分析》,发表:2017-10-18,作者:臻龙,分类:产品设计
2.3. 点赞量
2181次点赞,《Word产品需求文档,已经过时了》,发表:2015-09-29,作者:臻龙,分类:原型设计
- 1886次点赞,《绝密原型档案:看看专业产品经理的原型是什麽样》,发表:2015-04-20,作者:GaraC,分类:原型设计
- 1730次点赞,《产品需求文档(PRD)模板下载(附完整案例)》,发表:2012-06-21,作者:老曹,分类:干货下载
- 1556次点赞,《Axure 7.0 汉化版下载》,发表:2013-07-07,作者:Nairo,分类:干货下载
- 1406次点赞,《交互设计初体验(iUED)》,发表:2014-11-24,作者:朱帝,分类:交互体验
- 1330次点赞,《axure 7.0正式版发布(附下载地址和汉化包)》,发表:2013-12-19,作者:欧阳俊杰,分类:干货下载
- 1328次点赞,《放大你的格局,你的人生将不可思议》,发表:2014-11-18,作者:大城小蛙,分类:产品经理
- 1111次点赞,《Axure 8.0中文版下载(支持windows和Mac)》,发表:2015-08-14,作者:欧阳俊杰,分类:干货下载
- 1026次点赞,《#woshiPM训练营#深圳站总结入口页:对怀孕妈妈的关怀》,发表:2014-07-02,作者:游某,分类:人人专栏
1002次点赞,《支付风控系统设计:支付风控场景分析(一)》,发表:2016-12-12,作者:凤凰牌老熊,分类:产品设计
2.4. 评论量
1014次评论,《Word产品需求文档,已经过时了》,发表:2015-09-29,作者:臻龙,分类:原型设计
- 848次评论,《绝密原型档案:看看专业产品经理的原型是什麽样》,发表:2015-04-20,作者:GaraC,分类:原型设计
- 723次评论,《一套出自设计师之手的Axure组件库,让你的原型不再LOW》,发表:2016-05-30,作者:原型不low,分类:干货下载
- 456次评论,《我的从0到1产品路》,发表:2016-12-08,作者:luyao93,分类:产品经理
- 373次评论,《万字干货|产品经理知识体系之需求管理(二)》,发表:2017-01-09,作者:记小忆,分类:产品经理
- 319次评论,《豆瓣APP产品体验报告》,发表:2015-11-30,作者:天天向辉,分类:分析评测
- 307次评论,《分享PRD:「我是红人」产品需求文档》,发表:2017-01-13,作者:Bass小南,分类:分析评测
- 236次评论,《系列文章|产品经理知识体系之idea管理(一)》,发表:2017-01-04,作者:记小忆,分类:产品经理
- 234次评论,《Axure 8.0中文版下载(支持windows和Mac)》,发表:2015-08-14,作者:欧阳俊杰,分类:干货下载
- 233次评论,《从需求与业务流程来聊一聊,产品经理刚接手TO B产品时该怎么做?》,发表:2017-02-27,作者:记小忆,分类:产品经理
3. Q2 筛选优质文章
对我来说一年收藏个几百篇文章到我的材料库中是非常正常的,之前的这点Top10根本不够看,但如果拉长相应的名单又会有很多投机取巧的文章混在其中。人人经过这么多年的发展,已经沉淀了不少佳作。所以,作为一个有点贪婪的人,如何把这些优质内容一网打尽,是我接下来想要考虑的事情。3.1. 四个属性分布
还是之前的数据,我们先再次看一下所有文章属性中,有价值的数据总览:
屏幕快照 2018-09-18 上午3.09.57
评论这一项相比于其它属性来说,因为值分布得比较极端,比较适合按类型进行区分,大于25%的文章评论数量为0,大于25%的文章数量评论数大于3,评论数1~2的小于50%。依次可以将其由数值型属性转化为分类类型。因为代码上的处理,这里由低到高的命名为Low
,Mid
,High
。这样我们可以将原本需要XYZ三个轴再加上空间上点大小的三维散点图转化为二维。
根据上面的View(浏览量),like(点赞),bookmark(收藏数),comment(点评数)分别做为散点图的点取值,x轴,y轴,及点的类型,绘制如下:
rrdscpjlsjfx23.2. 属性分析
- 从上图中,凭肉眼观察就能发现约95%以上的文章都集中在左下角的紫色方块区域内;
- 虽然紫色方块区域都是以
High
为主的蓝色居多,但这是将4万篇文章堆叠在一起的结果,展示上效果有些问题,但从整体比例来说High,Mid,Low也都应该主要集中在这块区域; - 实际对四个属性的相关性求解也是两两之间基本都在0.5以下。虽然是正相关,但属于比较弱的相关,所以并不能以某一个属性做为单一的换算比例来“消元”;
- 四万多条数据挤在紫色小方块里,可以在一定程度上将他们在此区间看成是均匀分布的;可以暂时不考虑四个属性之间的加权问题。
3.3. 评分计算公式
所以综上所叙,大致的计算流程如下:
- 为了四个属性的值能够相加起来比较方便,所有值都需要按照[0,1]之间进行等比换算,让他们能够保持在一个维度;
- 为了避免某些文章的属性因为值过大产生干扰,需要进行一定的修饰。当文章属性中的值已经大于其它95%的文章时,则只取1。排除掉此部分的值之后,再根据第1条进行换算;
经过上述处理之后,四个值相加则为此篇文章的打分,取值范围一定是[0~4]。
3.4. 结果一览
经过上面如此一番折腾,还能够打4分的文章还有438篇之多。但对比于全站45000+篇文章来说,1%左右的筛选结果还是可以让我满意的。
因为筛选结果有400多篇,所以下面是按时间节选截图。大家也可以一起来验证一下我的筛选成果,是不是一些精华中的精华。
屏幕快照 2018-09-18 上午6.18.554. Q3 哪些作者值得关注?
相信大家也能看到在人人的官网和手机APP中是有作者推荐的。但这个推荐的模型和依据并没有告诉读者他们是如何筛选出来的。所以在这里我们利用手上现有的资源做完这点分析,来看看人人上有哪些优秀的作者。
首先他应该有一定的产量,因为如果作品数量太少,可能会导致较大偏差值,而产生较高的个人分数。所以先排除掉投稿数量低于5篇的作者;
其次自然就是文章的质量了,结合前文的打分,取当前作者所有作品的平均值即可。下表中为了展示各作者的区别,把分项目的打分也显示出来。
如此这些作者就已经有了极大的区分度,而且根据各自的分数,其实在一定稳定上是可以分辨得出此作者的投稿偏好和类型的。如果还没有关注他们,就赶紧关注一波吧~
屏幕快照 2018-09-18 上午6.38.18
补充一点在于,作者的水平描述在人人的体系下,还有打赏、订阅量和关注量这些纬度可以让这个打分模型更具有说服力。但限于篇幅觉得已经够说明问题就不再追加数据了。三、作者视角
从作者关心的角度来分析,一篇文章发表后是否能够变成爆款。这是由之前的读者变成作者后获得的一些新体会。以前是读者的时候只有看客心态,网络上的文章繁多,随便看看就好。只有那些特别好的可能会转发,可能会收藏,但看完后网页一关就还是与我无关了。
现在作为一名业余的内容创作者,每篇文章从构思准备到下笔完成可能要花半个月以上时间,期间会想象准备什么样的内容能够得到用户喜欢,反复的思考和推敲总结,酝酿写下来的文字否能将思想得到准确传递。最后当稿子提交审核的时候,将会有更多的牵挂。每天都会上客户端看一看,今天新增了多少阅读和收藏,是不是有读者给我留言了,有没有上热门文章等等。
虽然会有一些困扰,但这种乐趣是和平时做产品、发布产品的心情是一样的。如何让自己的心血能够得到多一点点的回报将是每个作者的心愿,而其中最直接和最具体的表现则是文章的阅读量。本篇为了能够更快的得出结论,这里再把本篇的问题和目标确定一下:
作为一名作者,投稿的文章是否会在人人都是产品经理网站(以下简称人人网)上成为爆款
2. 观察和分析
2.1. 从阅读量到爆款
其实作者关心的问题最初是有如下几个选择的:
如何提高文章的阅读量?
- 投稿文章的阅读量是多少?
- 文章是否会成为爆款?
第一种,讨论提高文章的阅读量。你需要将一篇文章用两种不同的写法、在同一个平台、同一个时间分别投稿,也就是AB Test才能得到的结果。做产品可以这样测试,但写文章度不现实。而且讨论起来将会是个相当复杂的过程,甚至可以开一个辅导班。
第二种,讨论文章的阅读是多少是一个回归问题,但对比于第三种来说意义略小,比如预测了一篇文章的阅读量为10000,请问它在人人网上是多还是少?看过上篇的同学可以回答,10000阅读量的文章在人人网上连文章的均值都不到。
第三种,有了以上简单分析,根据前篇的数据分析,将阅读量最多的10%文章定义为爆款即可。这也建立了从阅读量到爆款之间的联系,即设定阅读量在足够多的情况下会成为爆款。
2.2. 影响阅读量的主要因素
这里根据我多年的互联网经验,在各种内容平台上,有以下几个因素会直接影响到一篇文章(内容)的阅读量,当前排名不分先后:
- 文章出现的频率(位置)。出现的位置越多则频率越高,举个极端点的例子:如果大家进入到人人网站的时候,有个弹窗要求大家必须访问某篇文章后,才能继续浏览网站内容,请问这篇文章的阅读量是否会爆增?虽然现实情况下一般不会发生,但文章出现频率是可以受平台控制的。无论是运营的置顶、新文章的首页推荐、搜索结果的返回顺序等等,都会直接影响到文章的阅读量。
- 文章的质量。优质的文章本身并不能直接吸用户来提高阅读量,但质量将直接影响文章的二次传播。比如微信中的爆款文章并不是因为大家都关注了发布者的公众号,而是因为爆款文章它的内容受到读者的认可,被传播得到处都是,让吃瓜群众不得不看。
- 文章对用户的匹配程度。仅从点击量来说,文章的介绍信息将直接影响用户是否点击查看,介绍信息包括但不限于标题,图片,描述,文章来源等等。更进一步的说,随着用户数量的增加,每种类型的文章都有固定的观看比例,比如求聘文章的标题10个人中就有8个人会点击查看,而数据分析的文章可能10个人就只有4个,这就是匹配度的不同导致的点击量不同。
- 文章的发布时长。互联网的长尾访问特性,内容发布得越早则次数越多,毕竟这是一个累加不可逆的过程。
2.3. 在人人网上的实际情况
刚刚讨论的是普遍情况,这里我们需要结合目标网站自身的实际情况做进一步分析。在人人上投稿几次之后,综合长时间在人人网的学习和观察,大约一篇文章的阅读量走势会如下图所示(其中色块的划分代表各因素在不同阶段的影响力大小):
阶段 | 情况 |
---|---|
1 | 所有的文章刚发布的时候,都在人人的首页上可见,创造了用户点击的可能性; 其次是用户第一眼看到文章后的感兴趣(匹配)程度。 |
2 | 优质内容可能会上推荐位置,提高搜索结果的权重,或者会被用户转发收藏 优质文章会在这个阶段发力 |
3 | 最后就是发布时间,发布的越久,累计的阅读量越多 |
2.4. 心智模型的建立
现实世界非常复杂,影响一篇的文章阅读量的因素,我们还可以有很多的猜想。但我们不是全知全能的神,对任何事物的认知总是有限的。心智模型则是将这些认知串联起来,以便我们在做判断的时候可以的时候得出结论。越是经验、学识丰富,就会离真相越近,相对的,则会显得愚昧无知。而鬼这样一个凭空出现的事物,则是几千年以来,人类对未知事物感到恐惧所产生的一个集合。
本章节花大篇幅描写的就是这样一个心智模型的构建过程。回到本文梳理之前的经验与思路,可以建立一篇文章到是否能够爆款的脉络:
$ 爆款 \approx 阅读量> 90\%文章 \ $
$ 阅读量 \approx 匹配度 + 频率 + 内容质量 + 发布时长 + …… $
这是我目前能够想到的有关因素。也许还不是很精准,甚至有可能错误,但数据分析就是一个不断的假设、验证、得出结论,再修正、再重复的过程。这样,我们的心智模型和对这个世界的认知才会越来越完善,得出结论和应对新事物时会更得心应手。
但如果大家要是觉得还有什么关键影响因素的也可以在评论中留下自己的看法。
3. 机器学习
机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。当你遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。
回到本文的讨论,文章是否会成为爆款,这是一个比较典型的,分类监督学习。而最近正好也在研究XGBoost算法,可以拿来练手。所以本章节将会按照应用机器学习的开发步骤展开:
第1步,数据收集。获取对建立算法和数据模型有关的数据;
第2步,特征选择。一般原始数据都会有大量的无关项,而筛选的标准则是有助于构建之前建立的心智模型;
第3步,特征工程。指的是将原始数据转换为特征矢量,比如字符串转成数值、残缺数据的补全等;
第4步,训练算法。选择一部分数据,使用合适的机器学习算法推导出特征之间的权重;
第5步,测试算法。之前没有用于训练的数据当做测试数据,代入到推导出来的算法中,计算也推导结果,由推导结果和实际结果进行对比,可以得到我们关系式预测的正确率。当正确率满足要求可以进入到第6步,如果不满足要求则需要进入到第7步;
第6步,修正算法。一般初次结果的正确率都不会太好,可以经过各种优化,包括我们对前面心智模型的都可能会要做修改,修正后需要重新从第1步开始;
第7步,使用算法。如果验证的结果可以满足要求,则可以对新发表的文章进行预测。
3.1. 选择收集
虽然我们有4万多条原始数据,但不是所有的数据都有效的。而且为了能够促进我们得到最后的算法模型,也要做一些适当的取舍。这里我做了两个处理:
- 文章需要发表30天以上;
- 仅选择阅读量最高的10%和最低的10%;
文章发表30天以上,是为了保证数据选择的公平性。我们的目标是将人人网上所有文章的阅读量前10%设定为爆款,那么对发表时间较短的文章肯定是不公平的,而且新发表的文章阅读量会在短时间之内急剧增长。这一点我们之前也讨论过了,具体的变化就如下图所示:
Artboard
不难发现文章的平均阅读量大约在发布20天之后的才开始趋于平稳,随后还会有小幅度的上升。我们这里录入的数据都是所有的时间段的文章,所以为了公平和保险起见,只选择文章发表30天以上的文章。
而下图标识出了按以千为单位的阅读量分布,为了展示方便已将大于3万阅读量的做了归并处理。可以发现从最低的几千阅读量到最高的几万阅读量之间并没有一条比较明显界限。特别是从10千
开始到30千
这一段。
而我们将要处理的问题则是一个分类问题,需要分类的结果有比较明显的特征,或者说要区分的对象差别越大越好。比如做图像识别时,识别照片是猫是狗的难度,就要比区分是飞机是狗的难度大很多。所以我们这里为了减轻训练难度,只取阅读最高的10%和最低的10%,即保留了文章数量,也保证了两者之间有足够的区分度。
3.2. 特征选择
再把前文中的原始数据属性搬出来,用于与前文分析的影响点击的认知模型关联起来,如下表所示:
数据属性 | 名称 | 说明 | 是否影响文章阅读量 |
---|---|---|---|
id | 文章编号 | 应该从1开始的整数,随着发表时间单调增加,不连续 | 不影响(用户不可见) |
date | 发布时间 | 这里只有日期,没有具体时间 | 影响 |
permalink | 文章链接 | 主站+文章分类代码+id的路径组合 便于一些结果输出就保留了 | 不影响(用户不关心) |
title | 文章标题 | 会有麻烦的特殊编码需要处理 | 影响 |
category | 文章分类 | 纯文本,部分文章未分类 | 影响(替代文章内容与匹配) |
view | 浏览次数 | 为了前端显示方便,上万后并没有返回具体数值 仅有字符串【X万】,需要做舍入处理 | 影响,但要做为结果使用 |
like | 点赞 | 整数,似乎有负数的情况 | 忽略(影响但比较小) |
comment | 评论 | 有删除的评论数量未必和点击进入后的文章显示量一致 | 忽略(影响但比较小) |
bookmark | 收藏 | 整数,似乎有负数的情况 | 忽略(影响但比较小) |
authorID | 用户编号 | 从1开始自然数,单调增加,但并不连续 | 不影响(用户不可见) |
authorName | 用户昵称 | 字符串,不为空 | 忽略(影响但比较小) |
authorRole | 作者身份 | 字符串,普通用户没有身份,所以会赋值普通用户 |
影响(比如专栏作者的内容有更多的展示位置) |
需要注意原始数据中是有图片链接的,出于两个理由没有入选分析:1. 人人都是产品经理上的读者和运营对比于其它网站,在图片选择上会比较理性与克制,并没有采用擦边球的图片来吸引读者,而我也只会根据标题和内容来进行选择阅读;2. 图片内容的识别成本还是比较高的,自己分析则需要前期做大量的图片训练,第三方服务则会有相当多的限制且贵;
所以原始数据中,可以使用的有以下几个属性:
- 发布日期(date)
- 文章类型(category)
- 作者身份(authorRole)
- 标题(title)
-
3.3. 特征工程
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
即使我们上面经过筛选,我们发现无论是日期,类型,身份,还是标题都是字符串数据,而阅读量量本身还需要转化成是否是爆款。所以本文做了如下处理:
Y值(预测结果): 爆款文章的阅读量设置为1,非爆款设置为0。
X值(预测变量):
- 发布日期:转为文章发布的年份数量,比如2018年发表记为0年,2014年发表记为4年;
- 文章类型、作者身份都是几类固定的字符串,可以将各种分类转化为相应的特征属性来使用;
- 标题的处理则相对复杂得多,这里借助第三方的开放接口做了如下分析处理:
- 情感分析,使用腾讯文智判断标题是正面、负面还是中性情感,(0,0.3]=负面,(0.3,0.7]=中性,(0.7,1]=正面。
- 词性特征,使用腾讯AI开放平台的基础文本分析的词性接口,现代汉语的词可以分为两类14种词性(词类),但在网络内容发展如此复杂的今天,相应的分类已经远超过这些,所以特别选择第三方服务来解决。
- 语义依存分析。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。语义依存分析不受句法结构的影响,将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系。本篇使用的是哈工大LTP云API解析出特征。
经过几天的数据调整和解析,终于将所有的特征数据化了。接下来则是准备开始训练啦~
3.4. 训练算法&测试算法
XGBoost训练算法
XGBoost的全称是eXtreme Gradient Boosting。作为一个非常有效的机器学习方法,Boosting Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,自动进行特征选择,模型可解释性较好。往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。
在我们前面做了大量的准备工作后,真正调用算法来训练的代码其实是很少的。作为产品经理,我觉得大家还是应该都懂一些技术或者会一门编程语言,很多问题在网上搜索一下相关的教程都可以自己解决,而不用在遇到问题的时候等开发来解决。这里推荐学习Python3,上手难度低,适用于任何平台,编译速度也足够快等优点。
所以在文章本身这一块儿就不详细展开写了,如果需要查看本次整个数据分析的代码,点击查看,部分内容已经添加注释。
测试算法
训练好的模型在使用之前需要测试,来决定接下来的步骤是修正算法还是使用算法。根据配置xgboost参数,对一篇文章进行分析时会返回两个概率,爆款的概率P1,不会成为爆款的概率P2。
所以在验证的时候分别做了两种验证:
第一种, 当P1(爆款)> P2(非爆款)的概率时,预测这篇文章为爆款。但这里会有个问题是当P(会火)=0.51,P(不火)=0.49时,是一个很模糊的结果;
第二种, 当P1(爆款) > 0.8时,预测这篇文章为爆款。
以上两种同样对1771条测试数据进行测试时,分别有97.91%和94.64%的正确率,对于我来说,这个结果已经足够满足本文的分析目的。所以就不再进一步的优化了。
本文如此之高的预测正确率也是经过多次的模型修正和数据修整之后所得,记得第一次训练的结果正确率为5%,第二次修正后结果为1%。这个过程也不算是本文的重点就不再赘述。
3.5. 使用算法
如果是继续使用算法,我们可以拿新写的文章标题来做预测。而如果是写文章做分析,我们则可以分析相应的特征重要性,给出的投稿建议。
返回的数据模型中,有128个有效特征,不好做可视化展示,所以当前分析只截取前20的重要特征,如下图所示:
排名前20中,大量的特征都是跟标题直接相关的词性特征和语义依存特征。
词性特征好好查看,我们根据之前的的分类结果,把爆款文章的标题按词频统计,这样在未来取标题的时候可以做个参考,适当的添加一些点缀,比如:需求、报告、总结、管理等。
词性特征 | 得分 | 爆款高频词(词,词频) |
---|---|---|
名词 | 1275 | 产品,1137;用户,427;经理,390;网,285;数据,227; 需求,220;报告,123;原型,120;文档;101;体系,97 |
动词 | 1106 | 设计,185;分析,164;运营,102;分享,73;支付,70;总结,66 |
标点符号 | 992 | :,1272 ; ,,1167 ; ,927 ; ?,924 |
名动词 | 810 | 设计,515;分析,308;运营,247;互联,194;移动,148; 应用,99;营销,85;体验,81;管理,73;活动,66 |
非汉字串 | 608 | APP,171;Axure,166;App,66;PRD,63;Facebook,49 |
… | … | … |
本次分析结果中的语义依存特征相当的朴实,排名靠前的都是用来丰富标题内容,增加标题阅读性的特征。对比于常见的营销号标题党则是两个方向,标题党会有更丰富的主观情感特征,比如:果然,果真,横竖,究竟,势必,早晚,终归,终究,终于;有表示反常的:反,偏,倒,岂,竟,不料,倒是,反倒,反而,竟然,居然,难道等
语义依存特征 | 得分 | 范例 | 包含相应特征的爆款实例 | 个人理解 |
---|---|---|---|---|
描写角色 | 1009 | 他长得胖 (长 –> 胖) | 1. 如何构建APP消息通知策略 2. 知乎产品分析 报告 3. ASO教程:快速搞定关键词 设置 |
描述要完整 可以尝试删除实例中的标记部分 |
标点标记 | 853 | 略 |
1. 好的产品经理, 差的产品经理2. 微型色情电影的崛起 : APP时代的自制色情视频3. Web产品的交互说明文档应该怎么写 ? |
帮助读者断句,增加感情色彩 |
施事关系 | 637 | 我送她一束花 (我 <– 送) | 1. 知识付费这两年,我 花5000元买的4个教训2. 微信公众号 如何拟题,配图,写摘要?3. 小白 用户 的小米手环体验报告 |
施事是发出可控行动的主体或 可控心理状态及思维活动的有意志的主体。 |
并列关系 | 595 | 我喜欢唱歌和跳舞 (唱歌 –> 跳舞) | 1. Axure 8.0 拖动滑块设置数字和日期 2. Axure原型 关于中继器的简单使用 及应用的场景 3. 一个案例告诉你,高手文案 和菜鸟文案 有何区别 |
标题中将承载更多的文章内容,增强可信度 可以尝试删除实例中的标记部分。 |
… | … | … | … | … |
不难发现,前二十中,仅有r_平台运营
和c_业界动态
与标题没有直接关系,那是不是只有标题最重要呢?上图只是为了大家观看方便做的节选,从下图就可以看到各组的特征前三:
从上图中可以做出如下分析:
- 4年前发布的文章能够以微弱的优势跑过5年前发布的文章,说明也不是发布的越久越有优势,而是文章有可能随着时间被埋没,另一个解释是4年前是网站流量的顶峰导致;
- 业界动态对比其它的文章更容易爆款,这倒也不难理解,毕竟从受众角度来说是最广的,而且容易追热点;
- 平台运营对比于其它角色的用户更容易出现爆款,除了一定的“特权”,更主要的是他们的文章是以转载为主,转载的内容是其它平台上的优质内容,自然更有吸引力。但比较意外的是专栏作家的身份对于文章爆款的加成作用并不如普通用户;
- 最后则是标题的情感平淡最好,典型的负面语气则就是疑问、质问、消极观点,还有不文明用语。
4. 投稿建议
作为产品经理,每个同学都可以尝试着写篇文章投稿,这也算是你的一个个人独立的小产品了。
- 认真考虑文章内容类型,从最高的业界动态(448)、产品经理(233)、产品运营(223),到最低的区块链(24)、营销推广(18)、新零售(6),虽然对比其它因素影响不算大,但组内得分的差距更印证了前中篇读者关注点的数据分析;
- 无论文章的内容如何,取一个好的标题是相当重要的事情。可以看到如果不算文章分类是内容的话,当前的这些因素就能够占到一篇文章是否爆款的九成因素以上(94%的预测正确率);
- 文章标题必须有明确的主题和关键字,关键字最好是名词;其次标题的内容尽量丰富,能够体现文章内容,提高标题的阅读性;
- 标题党在人人网的优势不明显;
- 专栏作家的身份对于投稿没有加成作用,还是靠自己。
虽然本篇最后应该没有给出一个让人惊喜和意外的答案,但我想怎么通过数据分析来寻找一个答案的过程应该是说清楚了。
5. 全篇总结
《数据分析实战|人人都是产品经理网站》上中下三篇就到止为止了。简单回顾一下:
- 上篇从网站运营的角度来分析,各种文章对网站的收益,各种作者给网站带来的价值;
- 中篇讨论了以读者的视角来看人人网上的高价值文章和作者有哪些可以推荐,推荐的算法;
- 下篇则是以投稿人的视角来挖掘如何提升一篇文章的阅读量。
如果有同学想了解更多,可以添加我的个人微信walnutshell911。
5.1. 优化的点
最后这里再补充几个本篇中没有处理好的点,避免误人子弟。希望大家能在工作中更加严谨一些。
- 文章的热度可以按时期、阶段、类型进一步分组处理;
- 部分特征的选择和数据处理会比较主观判断,仅凭经验和观察得出,而不是相应的计算;
- 标题内容可以处理得更细致,包括一些热门词汇专有名词的提取;
- 有些代码还写得不够规范,而且在写作过程中也出过多次的Bug和数据使用错误,需要注意;
- 最后的计算模型返回来实际上有128个特征,可以把一些得分过低的特征去掉后再计算。