@ 作者: 熊2 分析数据时间段:2021.09.11 00:00-2021.09.17 23:00 分析场景:一对一 IM

数据概况

:::danger PS:本周数美 音频统计后台数据出现异常,故为了确保数据样本的准确性,暂剥离音频相关分析 ::: 2021 年 9 ⽉第 3 周 IM风控数据(文本、图片),总计 501.89w 条记录,其中

  • 通过量 449.81 w;
  • 疑似量 43.23 w,占比 8.61%;
  • 违规量46230,占比0.92%。

总量较上周有所上涨,与近期业务量激增有关;疑似和违规占比总体与上周保持持平。

风控结果分布

文本 (1).png 文本

文本 (1).png 总览

日期 总量 疑似量( 占比 ) 违规量( 占比 )
2021.09.11 673959 8.25% 0.81%
2021.09.12 709181 8.25% 0.71%
2021.09.13 664557 8.34% 1.04%
2021.09.14 674796 8.46% 0.92%
2021.09.15 688914 8.57% 0.86%
2021.09.16 729335 8.61% 0.96%
2021.09.17 766824 9.07% 0.95%

文本.png 数据分析

  • 从总体数据来看,12号总量上升,疑似持平,违规下降;
  • 近期跟数美联合进行了文本中期策略新增,包含
    • emjoy文字,eg:🐍👄 ( 舌吻 ) 等表情变体字
    • 火星文变体:舙( 舌 )沕( 吻 )

加了上述敏感词策略后,查杀拦截的体量明显上升

文本.png 事件

日期 总量 涉政 暴恐 违禁 色情 辱骂 广告 无意义 其他 白名单 自定义 灌水 黑账号 黑IP 高危账号 未成年人
2021.09.11 61100 76 0 28 993 2724 2899 0 8 0 52737 1369 0 0 266 0
2021.09.12 63593 72 0 31 998 2832 2932 0 15 0 55417 1028 0 0 268 0
2021.09.13 62382 66 0 19 985 2796 2585 0 12 0 53025 2560 0 0 334 0
2021.09.14 63412 85 0 26 1020 2666 3033 0 11 0 55184 1094 0 0 293 0
2021.09.15 65026 96 0 26 1036 2708 3048 0 20 0 56711 1188 0 0 193 0
2021.09.16 69889 140 0 34 1065 2998 3350 0 50 0 60637 1388 0 0 227 0
2021.09.17 76921 124 0 27 1221 2898 2913 0 18 0 67800 1301 0 0 619 0
合计 462323 659 0 191 7318 19622 20760 0 134 0 401511 9928 0 0 2200 0

文本.png 数据分析

  • 从总体数据来看,周事件统计排名 自定义 > 广告 > 色情
  • 自定义突增是因为本周有通过研究用户路径,抓取了部分关键词:
    • 整点不一样的
    • 晚点好晚的

等部分隐含信息,查杀覆盖率明显上升

敏感词库.png 敏感词 ( 前10 )

排名 敏感词 命中次数
1 k 25859
2 不接 6268
3 妹 | 子 2520
4 身材好的 1766
5 扣扣 1585
6 退款 1461
7 黄 | 单 1356
8 两单 1343
9 1321
10 取消 935

文本.png 数据分析

  • 从总体数据来看,自定义关键词:扣扣、妹 | 子 等本周新增关键词已做大批量拦截
  • 拉人广告以及色情涉黄变体较多,目前已与数美沟通,尽可能穷举变体(形音、近)字做统一策略

敏感词库.png 图片

文本 (1).png 总览

日期 总量 疑似量( 占比 ) 违规量( 占比 )
2021.09.11 6008 33.78% 11.56%
2021.09.12 6145 32.13% 10.34%
2021.09.13 5894 31.82% 9.63%
2021.09.14 5758 35.48% 9.69%
2021.09.15 5604 32.74% 9.52%
2021.09.16 5787 33.71% 9.60%
2021.09.17 5655 35.06% 10.59%

文本.png 数据分析

  • 从总体数据来看,12号总量上升,疑似持平,违规下降;
  • 近期跟数美联合进行了文本中期策略新增,包含
    • 微信图片_20210918161955.jpg等非文本图片广告

加了上述策略后,查杀拦截的体量明显上升

文本.png 事件

日期 总量 涉政 色情 性感 广告 二维码 水印 暴恐 违规 黑名单 白名单 高危账号 自定义 不良场景 未成年人
2021.09.11 2725 71 49 532 228 268 0 35 0 36 0 0 1485 20 1
2021.09.12 2611 35 49 451 244 234 0 38 0 9 0 0 1536 14 1
2021.09.13 2444 40 45 448 182 254 0 27 0 8 0 0 1411 27 2
2021.09.14 2601 62 40 494 202 203 0 15 0 8 0 0 1543 23 11
2021.09.15 2369 29 42 431 189 157 0 39 0 13 0 0 1393 14 2
2021.09.16 2507 42 56 536 213 172 0 33 0 16 0 0 1420 17 2
2021.09.17 2582 80 48 508 211 191 0 19 0 19 0 0 1491 15 0
合计 17839 359 329 3400 1469 1479 0 206 0 109 0 0 10279 0 19

文本.png 数据分析

  • 从总体数据来看,周事件统计排名 自定义 > 性感( 色情 ) > 广告(二维码);
  • 本周广告事件有所上升,因为文字拉人已做很多拦截策略,故灰产通过截图变体发送广告信息;
  • 色情一直是平台高发点,目前在督促数美优化图片识别率,提升识别准确率。

    敏感词库.png 敏感词 ( 前10 )

    | 排名 | 敏感词 | 命中次数 | | —- | —- | —- | | 1 | 号 | 2341 | | 2 | ID | 1887 | | 3 | 32 | 1627 | | 4 | 64 | 722 | | 5 | ID号 | 611 | | 6 | 平|台|交易 | 453 | | 7 | 89 | 448 | | 8 | 89 | ID | 228 | | 9 | 32 ID | 195 | | 10 | 32号 | 172 |

文本.png 数据分析

  • 从总体数据来看,舆情敏感词触发比较多,主要是游戏图片的 ID OR 聊天记录图片识别到相关文字,此处需要重新跟数美沟通,此处误杀率较大

    方案策略

    文本

  • 针对变体(形音、近)字已同步至数美,完善词库,下周补充后,待观察线上查杀情况;

  • 目前敏感词监测由原来发掘一个上传一个优化成发现一例找寻规律(相似、同音、emjoy、图片、gif),尽可能覆盖变体,提升覆盖率;

    图片

  • 关于游戏图片的阈值,(eg:和平精英动画人物持枪被标记为 暴恐)需进一步和数美确认,是否针对部分场景调低灵敏度。

  • 图片文字信息提取需要进行数据清洗,避免因组合文字而产生误杀风控。

    核心策略

    研究灰产找人发违规信息的路径

目前已发现的苗头:

  • 色情 OR 广告 信息很多时候是灰产蹲女生 Top1聊天室,然后给进房的男性用户发违规信息;
  • 已 提交 关键词补充数美数据库 和 相关账号封禁。