导读:现如今传统行业纷纷拥抱互联网,将业务逐渐线上化。但由于传统行业的数字化程度不高,以及信息流通速度比较慢,导致难以快速了解到市场发生的变化以及自身所处的位置。而行业知识图谱技术通过合理的引入内部和外部数据,并进行充分的融合和挖掘,可以清晰的看到行业整体的发展趋势,更好的赋能传统行业的进一步发展。
本文将从以下几个方面进行阐述:
【20200412】行业知识图谱在贝壳的应用实践 - 图1

为什么要做行业知识图谱

【20200412】行业知识图谱在贝壳的应用实践 - 图2
首先回答下上面的三个问题:
1. 我是谁
【20200412】行业知识图谱在贝壳的应用实践 - 图3
通过对公司内部数据,如业务流水交易数据,行为数据等进行分析,可以准确的了解到自身的发展状况。比如对贝壳找房的相关内部数据分析,可以知道目前的门店数有 13000 多家,以及具体的体量规模,挂牌交易量和覆盖人群等情况。但仅内部数据难以准确的描述公司在整个市场中的位置。
2. 我在哪
【20200412】行业知识图谱在贝壳的应用实践 - 图4
通过引入外部数据,可以定量化的描述行业整体的发展状况,从而了解自身所处的位置。比如通过业界对贝壳的评价,以及一些市场行业数据的分析,可以得到贝壳的交易规模和房源挂牌量都是业界第一。从横向维度上进行比较,即与房产中介和房源平台对标的情况,可以知道贝壳找房现为业界领头羊;从纵向时间维度上来看,可以对比十年前的自己和竞争对手与现在的自己的变化情况;从数据上来看,比如门店挂牌量和门店带看量可以反映经纪人作业的情况,或者通过区域门店与 GMV 的占比来进一步明确自身的市场定位。
3. 我去哪
【20200412】行业知识图谱在贝壳的应用实践 - 图5
通过融合后的行业数据图谱对行业整体进行分析,可以清楚的看到市场潜在的增长空间和增长方向,从而更好的设定自己的发展目标和价值追求点。比如贝壳找房的愿景是服务 2 亿家庭的品质居住平台。

行业知识图谱解决问题的思路

1. 做什么
【20200412】行业知识图谱在贝壳的应用实践 - 图6
经过自我剖析和了解市场后,可以制定明确的发展目标和具体实现的步骤、方案,以及合理的效果评价,从而形成一个正向的循环过程。
【20200412】行业知识图谱在贝壳的应用实践 - 图7
举例来说,通过行业图谱,明确了贝壳找房发展的价值空间,如房源量预计可以年增长 11%。基于此便可以制定公司层面的核心目标,比如 GMV 的年增长率。再然后到具体的业务部门,为了促进 GMV 的增长,可能需要提高差异化的房源增量线索供给。进一步的,依据业务目标就可以制定技术目标,即搭建我们的情报分析平台,以及引入更多的数据。
2. 怎么做
首先需要有一套知识图谱技术应用的框架:
【20200412】行业知识图谱在贝壳的应用实践 - 图8
具体有:

  • 智能问答:比如对话助手,智能客服,和经纪人的知识赋能。
  • 智能推理:基于图谱的关联关系进行推荐搜索,并给出排序理由,以及利用智能推理实现文本生成。
  • 社区发现:有风控预警,用户画像,和知识融合。

有了技术平台后,便可以构建情报系统。包括提供给决策者或作业人员使用的提效工具,以及线索增量和大盘决策等应用。
3. 做啥样
通过算法,数据和应用,构建起整体的技术平台:
【20200412】行业知识图谱在贝壳的应用实践 - 图9
重点是要评价目标的达成效果和目标设定本身。从而解决垂直领域在情报上的欠缺。

行业数据引入的逻辑和方法

【20200412】行业知识图谱在贝壳的应用实践 - 图10
为了构建行业知识图谱,需要引入的外部数据有以下五个方面:

  • 对标竞品:竞争对手的产品情况。
  • 专业内容:房地产政策,如金融,原材料,宏观经济情况。
  • 上下游:开发商,物业,建筑商等。
  • 环境周边:医院,学校等 POI 点
  • 用户群体:长租住户,短租住户等

    数据加工的过程和实体融合

    【20200412】行业知识图谱在贝壳的应用实践 - 图11
    通常引入的不同来源的数据格式多种多样,因此需要经过数据清洗和实体融合的过程。对于贝壳找房来说,重点融合小区,楼栋,门店,指标体系这几方面的数据。
    小区的融合:贝壳目前的覆盖的小区有 40 多万,只占到 70% 左右。通过数据融合,得到全国小区 73 万,准确率有 98%。从而确定贝壳在小区维度之后的发展方向。
    门店的融合:因为成交数据难以获取到,通常采用门店数据量的对比间接评价与竞品之间的价值比例。

    行业图谱的建立和情报分析的过程

    1. 行业图谱的建立
    【20200412】行业知识图谱在贝壳的应用实践 - 图12
    目前,贝壳构建好的行业图谱包含的三元组数量有 480 亿。实体类型有经纪人,门店,学校,公园,房源,购物中心,幼儿园等 140 多个类别,主要采用其中高频的 60 多个。关系数量有 230 个,加上属性有 1800 个左右。目前采用的存储平台从以前的 Neo4j 和 JanusGraph,逐渐迁移到 Dgraph。
    图谱建立的难点在于如何构建图谱的关联关系,因此需要相关的业务专家支持才能做好实体的属性。另外,通过在公司层面建立图谱编辑平台,从而统一不同部门的所构建的图谱本体。
    2. 情报分析的能力
    【20200412】行业知识图谱在贝壳的应用实践 - 图13
    通过构建好的图谱,可以大大提高情报分析的能力,主要包括三个方面:
    提效:包括报盘匹配和门店选址两个应用。报盘匹配是将成交的房源与具体的门店进行关联,之前主要由经纪人来完成,现在通过图谱,可以实现 90%-80% 的准召率;门店选址是通过对某个区块内的门店数,商业体,人流量等进行加权计算,从而得到给定区域可以容纳的商家数,以及最佳选址。该功能目前还在研发中。
    增量:由于某些小区没有在内部挂牌,或者地址不准确,可能导致搜索没有数据,从而不能进行相应的关联推荐。但通过情报系统可以了解到其他商家挂牌的小区,从而更好的辅助经纪人作业。
    决策:GMV 数据通常不能直接得到,但可以通过挂牌数,门店数和经纪人作业情况等数据来模拟得到 GMV 数据,从而为贝壳的进一步发展给予指导。

    行业知识图谱在智能应用上的作用和表现

    【20200412】行业知识图谱在贝壳的应用实践 - 图14
    目前基于贝壳行业知识图谱开发的应用有:
    小贝助手:IM 场景下基于三元组的知识问答。当经纪人接受多个客户的同时咨询时,可以对客户问题进行相应答案的提示,从而提高经纪人的回答准确率,为经纪人提效。
    搜索效果:当搜索不到任何结果时,可以推荐对应的站外热度,相关房源和对应的地址。
    AI 讲房:主要是 VR 看房场景的文稿自动生成。
    今天的分享就到这里,谢谢大家。
    作者介绍
    孙拔群,贝壳找房行业知识图谱负责人
    本文来自 DataFunTalk