- 抽取业务数据:可以将多张表的部分字段抽取到一个 实体 中,这里的实体就是用来存储抽取的业务数据,多个表的话,需要设置数据关联关系
- 设置标签的计算规则:比如某个「活跃用户」,规则为登录时间次数和活跃时长,来自两个表,将这两个表中的对应字段数据抽到实体表中,然后根据标签规则,如登录次数大于 2,平均活跃时长 10 分钟,定时的将数据计算后,写到 目标表 中(也就是标签表)
- 生成标签:标签可以使用 nosql 来存储,比如下面这个 nosql 中的一条数据
{
user_id: "12995",
age: "28", # 年龄
active: true # 活跃用户
}
- 年龄标签:这种可以从原始表中直接获取到的数据,可以设置为 原子标签
- 活跃用户标签:需要通过其他字段组合计算出来的,可以设置为 衍生标签
实体与对应的目标表(标签表),可以按照不同的用户行为划分为多个实体,比如:用户财务属性,有很多标签、用户基本属性,也可以有很多标签,那么这些所有的实体将组成一个用户可以拥有几千个标签