AE招商
- 数据获取
- 站外数据 -》 底层商家数据leads库
- 找客户(leads实体识别)
- 店铺对应的真正的商家(商家信息比较乱,其实是怎么做归一)
- 找到大卖(leads大卖发现)
- 哪些客户能大卖
- 找到KP
- 精准触达到商家的高P?
其他路径
- 从用户群体 -》 到品类 -》 到潜力商家挖掘
采集
挑战
- 数据的无序增长
- 数据合规的挑战
不是只建通道,要控制数据质量,做数据资产
采集的流程是重管理,重治理的流程。保证数据质量
实时消费技术(比如推荐场景,对实时性要求非常高,可能需要在3秒内的数据产出)
- 客户端直接消费的链路
- 高优场景3秒内消费的链路
- blink的链路
- odps链路
流量分析产品,核心技术
第一个板块是基础版,升级后基础版会有更流畅的操作路径和更稳定的用户体验,同时基础版也做检索的能力,包括一些指标的同环比,包括一些扩展的分析模型,比如路径分析、人群分析。
升级后的高级版还有多维分析交叉的能力,整个里面比较核心的技术就是位计算和加速的计算, 在流量分析里面最重要的一些场景都是算UV、PV,交叉人群的标签,比如是男女交叉一些设备标签,它是拿小米手机还是华为手机,都是通过一些位运算可以达到预计算的效果,通过预计算我们把整个模型构建成了一个BITMAP模型,通过位计算查询加速,可以做到秒级的响应。 有的东西是命中不了预计算的,我们就有近似查询的功能,业务在洞察的过程中是需要不停的换条件查询,这时候我们就提供近似查询的功能,一旦业务觉得近似查询的报表是需要的报表就固化下来,我们就会把它转成预计算的功能,所以整个设计的考量是在成本、使用场景、数据量做不同的考量,达到最佳的效果。
大数据在搜推上的应用
“搜推就是用数据做实验”
实验前的准备工作做好之后就可以开始实验了,实验的过程一般是在搜索上做调控和干预,我们会提供一些实时的调控能力和处罚干预能力,所有过程都是有监控告警包括一些实时诊断的能力提供给业务方。产品和算法同学实验之后也会产出一些效果数据,这些效果数据可以通过平台中在线分析的能力去展现给他们,通过可视化的方式拿到最终的效果。整体的效果数据同时又会返回到我们整个大数据的池子中,通过源源不断地实验来修正业务的诉求。当然,产品和算法同学提了需求之后,我们也不可能case by case的每个去开发一遍,研发同学们,就通过刚才说的编排能力帮助他们从实验V1版本到VN版本。整个过程中如何实现降本提效的呢?这就需要我们有一个强大的平台化的能力。
我们整个数据应用平台当前提供四大块能力,这些能力都是跟我们集团内很多的产品合作来实现的。孵化成长这一块基本上都是搜推的场景下进行新品、新商家、新品牌等的孵化,例如新品,支持商品一键入池,同时设定好它的目标和配额,因为所有的商品不可能无限制的做孵化,一定会跟目标进行挂钩,同时也要监控这个商品的流转的情况,为这个商品或者商家建立一个成长的曲线;调控中心这一块是搜推在引擎侧做的处理,可以提供百万级的调控,因为我们有实时数据,整体能力在各个环节都可以进行模块化定制,因为业务的需求是不一样的,他们要引擎生效的地方也不一样,我们就可以根据算法不同的诉求进行模块化的定制,并且所有的调控策略都是有止损的,整个止损策略会根据大盘的实时监控进行实时的干预。引擎干预这一块可以快速将热搜词、商品、商家的运营策略推送到引擎上,同时对于不同的引擎,我们把引擎干预的功能做到模块化可配置。最后是机器人交互这一块,最早的时候我们的交互基于NLP,跟集团内各个机器人都有过合作,现在我们也跟小蜜合作加入研发小蜜的功能,这样可以更快速的把一些实时的效果和内容传达给业务方,运营和行业小二拿到效果数据之后,能快速的做下一轮的决策。 基于整个数据应用平台的能力,我们会进行自己的基础工程建设,同时根据实时数据和离线数据在整个业务维度上对搜推的业务进行支持,包括搜索侧的银座,推荐侧EasyLink、北极星等跟货品池、内容相关的业务,还有风控平台,跟商家处罚机制相关的应用等等,我们通过分析洞察的能力,帮助业务更好的发展和验证。
刚才我说过,整个搜推业务皆为实验,接下来就拿一个我们真实的业务案例来介绍一下搜推的实验全流程。做实验首先需要提出假设,然后是用数据去验证假设的过程。这里我拿品类孵化的应用来说明,首先我需要制定目标是什么,然后把目标挂载,目标有了以后实时进行调控,把调控的干预完成,最后再对数据进行分析和复盘,分析后的数据同时又作用到我们整个业务的系统中,去帮助业务更好的提高业务价值。 首先用到了分布平滑和等差数列的方式制定业务目标,尽可能让业务制定的目标跟实际相差不要特别大,同时也会每天用离线的数据去修正它。目标挂载就进入我们实际的孵化流程中了,因为前面目标制定了,就会先建立一个机制门槛,哪些品类我去帮它做孵化或者分层,而这整个机制的门槛、商品分层包括配额都精细化到页子类目上,这样可以帮我们在智能孵化这一阶段去对门槛进行卡点,对于不满足门槛的品类将会直接反馈给运营小二,告诉他们重新选品,如果符合的话我们会再根据商品的表现进行分层的孵化,孵化的过程中也会再加入一些品效监控。这些在搜推上可以通过实时数据看到效果,如果监控效果不是很好的就会进入休眠状态,但是在休眠状态上也会跟商家进行联动,如果效果比较好的直接就晋级了,晋级的商品也会告诉商家。商家对商品做的策略我们也会实时的监控,表现比较好的商品可以直接进入后面的链路,把一些新品直接打爆成百万新品或者是优质新品,实时的再给它流量的输入,让商品在我们的搜索场上有更好曝光或者成交的数据。
接下来我们看一下怎么在调控上生效,因为所有的实时数据我们都可以拿到,对调控上而言,我们需要知道今天调控的商业信号是什么,同时我也能拿到商业信号的实时数据,把它写入到一个规范的数据存储介质上,将业务的一些信号和实时数据进行权重计算,权重结果就影响了这个商品最终在我们手淘上的展现。 调控完成之后需要运营同学进行操作,比如需要置顶热搜词,或者是有一些违规的商品需要对它进行屏蔽,这些操作会直接在引擎侧干预,这一块到引擎直接干预会比较危险,所以我们增加了至少四轮的验证。首先是让所有运营小二在预发验证这个商品到底能不能满足他们的诉求,验证通过之后会提交审核,进行灰度,最终提交到线上,整个规则都是流程化的,我们会把所有的状态变更全部记录到日志中,让所有的变更记录可查。 最后是监控预警和分析复盘。这一块我们会跟机器人合作进行实时的监控预警,把当天某一个时间内的完成情况播报给运营同学,运营同学拿到数据就可以及时知道今天商品输出的情况是什么样,也会产出一个离线的预警,离线的预警会把昨天所有的孵化情况详细的给到运营同学,运营同学通过这个数据也可以反馈给商家进行联动,或者是对目标进行一些调整。 实验结束后可以对孵化效果进行查询,大部分的可视化的功能都是在我们产品侧完成的,这样整个实验的过程就完成了。所有的业务数据应用,都是发现制定目标到目标生效的过程,再到数据复盘,完成了整个的数据闭环链路,周而复始的让我们的业务产出更大的价值。
政府做的:数据交易所(数据要素市场)
- 让公有数据能够通过这个交易所流通起来,交易起来,类似枢纽?
- 制定数据使用制度
数据要素:这里的要素,其实是十四五规划中国家提出的数据已经要作为生产要素,而产生的这个概念。
在合规的场景下,数据流通技术变得越来越重要。相关技术
- 隐私计算
- 联邦计算,
- 多方安全计算
- 数据沙箱
云原生到底是什么?怎么理解
- 个人理解:它其实是基座一样。如果在数据分析领域,怎么定义云原生,数据分析领域的所谓原子能力(NLQ,数据集,数据准备、自助分析、性能大脑)都可以定义为 数据云原生能力,而在之上长的各种数据产品和数据应用 就可以理解为 是基于 云原生构建出来的 应用。所以云原生 可以理解为 沉淀,复用,基座。
窄义的云原生和广义的云原生:
云很多人说云原生的本质是资源池化,比如你在本地机器上用的本地的磁盘、本地CPU、本地内化,云化就是用global的存储,要用云化的虚拟机,用remote的内存。最近关于Remote 内存的文章特别多,然后在上面架application,不管是数据库还是其他应用,这就是大家说的云原生的本质,资源云化。这样用到的计算、内容是无限扩展的,这是一种云化的定义。我想说的是这个资源的定义在不同的云产品是不一样的,我们不能够说云原生就是要把磁盘云化,比如说云存储、用虚拟机、内存就是云化,这个资源在不同的服务上面,它的云化的方式是不一样的。资源的定义是什么?比如我假设举一个例子,你说搜索是不是云原生的服务?是的吧,任意扩展。不管你的query量有多少,不管阿里的搜索还是各种各样公司的搜索,从来没有说我要给你分配多少资源,因为每个服务就是它的资源,它提供的资源就是我给你一个query,我给你一个response,这个服务就是一个云上的服务,当然是云原生的。
从数据应用到数据解决方案
- 数据分析平台:如果是指报表、可视化,那太没灵魂了。要有分析思路的沉淀,分析组件,比如用增领域的分析组件,大促领域的分析组件等等,场景化
数据中台做强
那解决方案是什么?是要去真正回到业务的场景,真正去理解业务的问题,理解的是业务的大问题,关注业务的核心流程、关键策略的驱动因素,需要不断和业务对焦, 解决方案就靠我们这群人在一起共享,然后一起共想,把最佳实践抽象出来,中台在里面起到穿针引线的作用,把大家的解决方案不断的跨BU分享,比如天猫做个招商给到AE,比如猫超的全链路损益做的非常棒,是不是天猫就可以去使用,盒马在做自营的时候对商品的管理,天猫难道不需要商品的规划和管理吗?
前台价值做大
tuling是什么
- 核心数据要素的 生产,管理和服务平台,不做上层的应用和业务场景