1. 抽取业务数据:可以将多张表的部分字段抽取到一个 实体 中,这里的实体就是用来存储抽取的业务数据,多个表的话,需要设置数据关联关系
    2. 设置标签的计算规则:比如某个「活跃用户」,规则为登录时间次数和活跃时长,来自两个表,将这两个表中的对应字段数据抽到实体表中,然后根据标签规则,如登录次数大于 2,平均活跃时长 10 分钟,定时的将数据计算后,写到 目标表 中(也就是标签表)
    3. 生成标签:标签可以使用 nosql 来存储,比如下面这个 nosql 中的一条数据
      1. {
      2. user_id: "12995",
      3. age: "28", # 年龄
      4. active: true # 活跃用户
      5. }
    • 年龄标签:这种可以从原始表中直接获取到的数据,可以设置为 原子标签
    • 活跃用户标签:需要通过其他字段组合计算出来的,可以设置为 衍生标签

    实体与对应的目标表(标签表),可以按照不同的用户行为划分为多个实体,比如:用户财务属性,有很多标签、用户基本属性,也可以有很多标签,那么这些所有的实体将组成一个用户可以拥有几千个标签