用户画像:方法论与工程化解决方案
赵宏田
35个笔记
◆ 前言
如何建立标签指标体系?指标体系中包含哪些标签?如何设计存储画像标签的表结构?如何开发标签?画像系统中涉及哪些数据存储工具?如何打通标签数据到服务层?如何对画像系统进行监控?如何对整个画像系统进行调度?如何使画像系统服务于业务场景来驱动增长?
主要章节及内容本书共9章,各章具体内容如下:第1章:主要讲用户画像的基础知识,包括搭建用户画像系统需要覆盖的模块,开发阶段流程,各阶段的关键产出,以及数据仓库架构、表结构的设计等内容。阅读本章可以帮助读者形成构建用户画像的一个整体化思想。第2章:结合业务设定指标体系,本章针对案例背景,从常用的用户属性、行为、消费、风险控制这4个维度设定指标体系。本章提供的标签可涵盖大部分刻画用户画像的应用场景,对于具体应用点,读者可根据公司业务特性进行针对性的补充。第3章:讲解了标签相关数据的存储,包括Hive存储、MySQL存储、HBase存储和Elasticsearch存储。不同的存储方式适用于不同的场景和业务需要。第4章:也是本书的重点章节,书中介绍的标签数据及相关脚本的开发是用户画像构建工作的重点。本章讲解了对常见的统计类、规则类、挖掘类、流式计算类标签以及用户特征库等与用户相关的数据的开发,还进一步介绍了如何计算人群数据、打通数据到服务层通路的开发。通过GraphX图计算用户2度关系熟人的案例介绍了如何深度挖掘用户间的关联关系。本章对每一小节都进行了详细的讲解,并附有配套的代码计算过程。第5章:讲解了开发过程中常见的数据倾斜调优、对小文件的读取、缓存中间数据、开发中间表等调优工作。第6章:讲解了如何使用开源ETL工具Airflow实现画像系统相关任务的工程化上线调度,以及对数据的监控预警和调度异常的排查。第7章:画像产品化是数据从数据仓库走向业务服务的重要环节,画像产品化可便于业务人员使用工具来分析用户,将业务上定义的用户群应用到各业务系统中提供服务。本章为数据产品人员、业务人员提供了解决方案的思路。第8章:介绍了用户画像的应用场景,包括经营分析、精准营销、个性化推荐等应用方向,方便业务人员、产品经理、数据分析师更好地了解用户、触达用户。第9章:通过场景化介绍用户画像实际应用的8个案例,清楚地展现了用户画像作为一种分析、触达用户的工具在实际业务上的应用方式和应用流程。
◆ 第1章 用户画像基础
企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。
◆ 1.1.1 画像简介
用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌
用户画像可以帮助大数据“走出”数据仓库,针对用户进行个性化推荐、精准营销、个性化服务等多样化服务,是大数据落地应用的一个重要方向
◆ 1.1.2 标签类型
从对用户打标签的方式来看,一般分为3种类型(如图1-3所示):①统计类标签;②规则类标签;③机器学习挖掘类标签。
,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。
例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;
机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等
◆ 1.3 主要覆盖模块
图1-5 用户画像主要覆盖模块
❑用户画像应用:画像的应用场景包括用户特征分析、短信、邮件、站内信、Push消息的精准推送、客服针对用户的不同话术、针对高价值用户的极速退货退款等VIP服务应用。
◆ 1.6.2 相关元数据
埋点日志表(见表1-4)存放用户访问App时点击相关控件的打点记录。通过在客户端做埋点,从日志数据中解析出来。
访问日志表(见表1-5)存放用户访问App的相关信息及用户的LBS相关信息,通过在客户端埋点,从日志数据中解析出来。
◆ 1.6.3 画像表结构设计
一是每日全量数据的表结构;二是每日增量数据的表结构。
◆ 第2章 数据指标体系
数据指标体系是建立用户画像的关键环节,也是在标签开发前要进行的工作
◆ 2.1 用户属性维度
对于用户价值度划分(RFM),如何确定一个用户是重要价值用户还是一般价值用户,对于用户活跃度的划分如何确定是高活跃、中活跃、低活跃还是已经流失,需要结合数据调研情况给出科学的规则并进行划分
◆ 2.4 风险控制维度
结合公司业务方向,例如可从账号风险、设备风险、借贷风险等维度入手构建风控维度标签体系
◆ 3.1.2 分区存储
要解决这种ETL花费时间较长的问题,可以从以下几个方面着手:
❑将数据分区存储,分别执行作业;
❑标签脚本性能调优;
❑基于一些标签共同的数据来源开发中间表。
◆ 3.2.2 监控预警数据
服务层一般采用HBase、Elasticsearch等作为数据库存储标签数据供线上调用,将标签相关数据从Hive数仓向服务层同步的过程中,有出现差错的可能,因此需要记录相关数据在Hive中的数量及同步到对应服务层后的数量,如果数量不一致则触发告警。
◆ 3.3 HBase存储
HBase是一个高性能、列存储、可伸缩、实时读写的分布式存储系统
同样运行在HDFS之上。与Hive不同的是,HBase能够在数据库上实时运行,而不是跑MapReduce任务,适合进行大数据的实时查询
◆ 第8章 用户画像应用
用户画像产品化后就成为业务人员分析用户、触达用户的有效工具,本章从经营分析、精准营销、个性化推荐等方面介绍用户画像的应用场景。
◆ 8.1 经营分析
8.1 经营分析
◆ 8.1.1 商品分析
8.1.1 商品分析
借助用户画像,可以对商品的销量进行分析,比如说可以快速定位到爆款品类,进一步分析购买爆款品类的用户在各个维度上的特征。
◆ 8.1.3 渠道分析
8.1.3 渠道分析
根据增长黑客理论(AARRR)模型,如图8-5所示,将产品的营收路径拆分为激活—注册—留存—下单—传播,
◆ 9.1 风控反欺诈预警
9.1 风控反欺诈预警
消费金融领域对于用户贷前准入有着严苛的审核,对于用户信息、设备指纹建立画像,通过借助画像数据结合风控策略规则、模型,进而生成完善的审批策略,对于高风险用户进行有效识别,帮助企业减少人工参与环节,实现自动化审批、授信,有效规避营销、交易的风险
◆ 9.1.2 用户画像切入点
根据调用的画像数据,产品前端展现该用户各维度的风控信息。
在构建风控反欺诈画像模型的过程中,使用基于授权数据综合构建起基于用户身份id、手机号码、设备指纹等多主体、多维度的画像,从而帮助企业有效建立起用户、手机号、设备的黑白名单,从而为信贷、租赁、家政等多场景的应用提供评估参考。
◆ 9.2 A/B人群效果测试
9.2 A/B人群效果测试
◆ 9.3 用户生命周期划分与营销
9.3 用户生命周期划分与营销
◆ 9.3.1 生命周期划分
用户生命周期主要分为:引入期、成长期、成熟期、衰退期和流失期5个阶段。
应用一:根据拆解指标为提升LTV制定不同的运营策略
RFM:从R(用户最近一次付款距今天数)、F(用户近x天消费次数)、M(用户近x天消费金额)这3个维度考虑用户消费能力。
◆ 9.5 短信营销用户
9.5 短信营销用户
◆ 9.5.2 画像切入及其应用效果
短信敏感度:有的用户对营销短信的敏感度很差,比如从历史数据来看,推送给其10次短信,只打开过一次或从未打开过。考虑到短信渠道营销需要成本,需要对这类用户进行排除,减少对用户的打扰