模型原理:以种子客群为基础,找到与种子客群兴趣爱好相似的另一组人。计算两组人群的相似度或以群组距离进行分类,从而达到精准挖掘潜在受众、扩大推广范围的目的。人群扩散在推销新商品、寻找潜客、开发客户购买力等多种场景下都起着关键作用。
受众扩散模型的基本流程如下:
- 根据客群的各维度原始数据,提取出可用的特征变量;
- 选取种子客群为模型的正样本;按比例随机抽取种子客群作为观测样本,加入候选人群作为负样本,以种子客群作为正样本,训练分类模型,将观测样本中预测为正类的概率的后5%作为可靠负样本;
- 根据种子客群和可靠负样本构建相似度模型;根据相似度模型,将所有候选人群扩散成目标群体。
常见的二分类算法有LR逻辑回归,决策树,SVM,随机森林等。
特征的选取一般包含用户的:
- 属性标签数据。如性别、年龄、地域、婚姻状况、受教育水平、职业等,一般来自用户注册信息或预测;
- 行为结果数据。如电商用户的站内外搜索、浏览、购买等行为,媒体用户的关注、转发等行为,一般为用户实际发生行为的日志;
- 行为偏好数据。如电商用户的消费等级、商品品类偏好、商品品牌偏好,媒体用户的上网时段、浏览频道偏好等,一般根据用户行为计算分析而得出;
- 社交网络数据。利用用户的社交关系网络,将种子人群的标签或属性扩散给好友。如微博的粉丝关注、转发行为等构成的社交关系网络。