欢迎光临,光舟的算法笔记。

    我是光舟,一名算法工程师,在这里记录北京互联网的工作和生活。

    工作上,主要记录实战项目中的算法模型,用于以后借鉴解决实际问题。

    生活上,主要发表一些随笔感悟和日常复盘,通过记录反思促进自己的成长。

    不知不觉入职已经100天了,正式开启今年的创作目标:围绕社交媒体中的机器学习算法进行梳理。初步计划是每周一篇文章,既记录了自己学习成长的过程中的一孔之见,又总结了互联网项目实践中的经验。

    这篇文章是社交媒体机器学习算法的开篇之作,用1700余字粗浅介绍了社交媒体中运营技术落地的背景。先介绍了社交媒体和社交平台生态中的运营团队。然后从社交媒体中的内容和用户两个方面梳理运营团队的需求,提出分类、检索、推荐等算法在社交媒体内容和用户运营中的应用背景,后续文章会继续介绍社交媒体中的内容分类、用户检索、内容和用户的推荐分发等技术。

    社交媒体指互联网上基于用户关系的内容生产与交换平台。乘着移动互联网的东风,全球范围内成长起了一批社交媒体巨头,如推特、脸书、微博、微信、头条、抖音、快手等。在这些社交媒体巨头中,人是平台生态蓬勃发展的关键。人来创作内容和阅读内容,创作者提供优质内容吸引阅读者,阅读者通过响应包括广告在内的优质内容产生价值。平台的运营团队源源不断地曝光分发优质内容,从而扩大创作者和阅读者规模;同时,平台的运营团队也通过曝光和分发广告获益。平台把部分收益合理再分配,其中一部分返还到用户从而扩大用户群体再生产。这个”闭环”模式,以滚雪球之势成就了当代的几家社交媒体巨头。

    内容是社交媒体中流动的硬通货,是社交媒体的生态环境的硬指标。只有优质的内容,才能打通从创作者到阅读者的”闭环”。目前社交媒体中的内容,有文本(Twitter)、图像(Instagram)、视频(Tiktok)、音乐(网抑云)、内容评论(文本、图像、gif动图)……运营团队会对内容的分发曝光进行精细化管理。一方面,内安全审核团队根据内容质量审核评分去除不合法内容;一方面,平台运营团队根据内容所属的垂直类别进行分发;一方面,不同垂直类别运营团队根据该门类中优质内容的热度动态调整曝光量……只有扩大优质内容的曝光和流动,才能避免劣币驱逐良币的现象破坏社交媒体生态,从而吸引更多的创作者和阅读者。随着社交媒体中内容规模日益扩大,无论是内容审核和垂直类别划分,还是内容热度反馈,都对运营及其技术团队提出了更高的要求。内容分类与检索相关的算法模型已经落地智能化运营团队,比如,风险内容识别、垂直类别划分、优质内容热度评分、相似检索和原创检测等。

    作为内容的生产者和阅读者,用户是社交媒体的建设者和使用者。虽然内容质量直接反映了社交媒体的生态,但是社交媒体的内容仍然是为创作者、阅读者、广告主等用户服务的。相关用户的运营团队是社交媒体平台的骨架和主力。对创作者,一方面,维持高产优质的内容创作者,建立合作关系;一方面,拓展有潜力的创作者,扶植并提供资源……对阅读者,一方面,建立社区社群并定期组织活动,小范围提升粉丝群体的活跃度;一方面,追踪热点话题和建立时事热点排行榜,维持大多数吃瓜群众的关注度……对广告主,一方面,根据各垂直类别企业广告主需求策划品牌、效果广告;一方面向娱乐明星MCN平台等内容创作者提供曝光广告……人是社交网络的核心,运营如何对数亿级别大规模用户群体进行精细化管理是社交媒体的重要问题。根据“二八定律”,用户群体中的一成创作者产生了九成内容,而创作者中的优质头部用户又只有一成。目前对头部优质创作者的精细化运营是易于通过扩大运营团队规模实现的,但是对中低层创作者和大部分阅读者只能通过算法模型辅助运营。比如,违法风险用户识别、垂直类别划分、优质用户挖掘、相似用户检索等。在技术上,社交网络中的用户分析比内容分析更加复杂。社交媒体中的用户信息包括结构化和非/半结构化多个维度,如结构化的用户基础属性、用户对话题和群组的订阅信息、用户发布的图文视频等内容、用户主动/被动的转评赞等内容、用户之间的关注/被关注、用户对话题和群组的订阅信息。

    以上,从社交媒体中的内容和用户两个方面梳理运营团队的工作和需求,介绍了风险内容识别、内容垂直类别划分、优质内容热度评分、相似内容检索和原创检测;违法风险用户识别、用户垂直类别划分、优质用户挖掘、相似用户检索等技术的应用背景。

    结尾flag,坚持每天都锻炼身体,每天都有所反思记录。

    stay hungry,stay young!