参考资料(注: #标代表有部分数据、图标引用)
今日头条用户画像 http://www.199it.com/archives/934747.html
今日头条人工智能技术实 https://www.sohu.com/a/129739958_505794
- 今日头条的人工智能技术实践 https://www.sohu.com/a/129739958_505794
- 今日头条深度分析报告 https://new.qq.com/omn/20180423/20180423G0UJ0B.html
- 今日头条2019年数据报告 http://it.gmw.cn/2020-01/07/content_33462353.htm
- 今日头条公司组织架构 https://wenku.baidu.com/view/8f9c0baab04e852458fb770bf78a6529647d359d.html
- 头条指数 https://index.toutiao.com/
- 头条指数上线,3分钟了解四大指数 https://www.jianshu.com/p/c57d874b5cf0
今日头条和字节跳动
随着海量数据的大量生成,机器学习、高级分析算法与企业业务应用的融合越来越密切,大数据对企业也越来越重要。但与此同时,研究发现对于大数据的投资,只有少于四成的企业得到了回报。在数据和计算资源都能满足大数据驱动决策的现在,真正的挑战来自企业中的从业人员。企业在投资大数据平台的时候,还要特别注意培养公司员运用大数据获得价值,才能更好的把握数据驱动决策的机会。
在这样的背景下,九成以上的财富千强企业都在增加对大数据和人工智能的投资。IDC预测,在政策支持以及多方技术融合下,中国大数据市场将保持高于全球平均水平的稳定增长。在2023年国内大数据市场会达到一千六百亿人民币。
2012年3月,字节跳动公司成立。同年8月,今日头条应用发布。经过几年的发展,字节跳动陆续发布了抖音、西瓜视频等多款爆品互联网应用。根据《2019年今日头条年度数据报告》,2019年头条创作者共发布了4.5亿条内容。相当于每分钟就有856个视频发布。平台月活用户2.6亿,全年点赞量为90亿次,平均每个活跃用户每年点赞35次。
推荐系统
今日头条高频次、高时长的用户粘性和这家公司强大的推荐系统密不可分。要想对上亿的资源和几亿的用户进行匹配推荐,今日头条开发了基于AI的推荐系统。这个系统能够极快的根据每个用户的数据推荐内容,并且根据用户的反馈进行调整,让推荐的系统随着用户需求的变化而变化,达到千人千面的效果。
为了搭建这个系统,据官方资料,在2016年时,头条就有800多名算法工程师和2万台机器搭建今日头条使用的AI系统。在推荐系统的设计时,今日头条会结合字节跳动公司旗下的所有产品的使用信息进行计算。把一个用户使用的今日头条、抖音、西瓜视频等等应用下的使用记录都收集起来进行同意分析。这样的好处是对于一个用户可以从多个维度进行数据收集。一个用户可能早起在通勤路上看今日头条了解一些工作知识,到了晚上工作一天比较累了就打开抖音放松一下。吃过晚饭睡前喜欢通过西瓜视频看剧放松下。当这些链条的数据都被收集分析后,比单从今日头条一个系统收集的信息要更立体,分析的结果也就越准确,让用户更加舒服。
冷启动问题
那么,如果我是一个今日头条的新用户,还没有积累我的个人数据,系统会推荐什么给我呢?传统的方式是把大家最喜欢的推荐给新用户,但随着用户的区分越来越细以及可以选择的资源以亿级计算。这种方法的匹配度非常低效。这个问题今日头条是通过详细的用户画像来解决的。
用户画像是指根据用户的特点进行分类,把庞大的用户群划分为一个个的小圈子。在一个小圈子中的用户大都拥有比较相近的爱好。所以对于新用户,只要划定了他所属的小圈子,再按照小圈子中的热点进行推荐,也会收到不错的效果。经验证,这种方法在没有足够数据对用户进行个性化推荐时,是一个非常巧妙地方法。
在进行用户画像时,今日头条从对用户尽心分类改为了打标签。这两个的区别是一个用户只能属于一个分类,但是可以属于多个标签。也就是说,以往用一个标准对用户进行区分,比如年龄、教育程度等等的方式在可以收集大量数据的现在,太粗矿了。而标签的方式则是按照不同维度尽可能的记录用户特点,比如一个用户可以同时拥有以下标签:30-35岁、一线城市、白领、广告业、加班、养猫、有车等等。
总结
综上,今日头条的推荐系统即能结合众多应用数据进行分析,也能通过标签化对新用户进行比较有效的小圈子内容的推荐。让今日头条的用户感觉到,这是一个“懂我”的贴心应用。在打开率、平均使用时长、月活用户数三个指标上名列前茅。这种基于大数据进行决策和管理的基因,使得节跳动公司2019年销售额达到了1200亿。成为同品类公司中最成功的公司。