数据科学 - Kensho - 《知识库1》

介绍
Kensho Warren？
Kensho NERD（ML toolkit）
Kensho Scribe（ML toolkit）
Kensho Link（ML toolkit）
数据处理平台产品Visalo
参考文献

数据挖掘，数据分析，大数据

介绍

2013年，Daniel Nadler创立了Kensho。2014年Kensho与高盛合作，并获得高盛的1500万美元投资，其核心产品是金融决策引擎“Warren”，是一个类似于金融领域中的siri的智能问答引擎。曾成功预言英国脱欧后的英镑走势，及2017年美国科技股的强势上涨。2018年3月7日，Kensho被标普全球以5.5亿美元收购，这是迄今为止，华尔街最大规模的人工智能公司并购案。

Kensho Warren？

大数据领域兴起后，其核心想法是，与其去发现因果性，不如把数据积累起来，寻找事件和资产之间的相关性，以及事件对价格、特别是价格长期趋势的影响，这就是 Kensho 提供的主要服务。

Kensho 的 Warren 搜索引擎。在海量数据与深度学习，以及金融领域的一些特定的算法模型的支持下，进行自动定量分析，从而能在短时间内，完成过去分析师要做几个小时甚至几天的工作。

Kensho Warren由三部分组成：底层的结构化数据库、中间层的金融领域知识库和前端的问答技术

底层的结构化数据库

金融智能的核心是首先实现基础数据的结构化，继而图谱化。在此基础上，才能实现自动化，如自动化摘要、自动化审计、自动化监管、自动化报告、自动化推送、(半)自动化信贷审批、自动化客服等等。

为了推动沃伦的分析，Kensho 建立了一个大型数据库”Kensho 全球事件数据库“，持续收集市场信息和数据。信息和数据均公开，包括文本，如央行公告、产品发布和地缘政治事件。这是一个很大的工程，但Kensho背后有高盛20年以上积累的数据，并且也依赖于过去十年美国整个数据生态系统的发展。2009年奥巴马上台时，曾发布过一个总统令，要求美国所有政府部门都开放数据，其中也包含了大量金融部门。美国所有基础证券的信息，各个细分领域的国民经济政府数据都是开放的，所有人不需要任何申请就能拿到。到目前为止，美国政府已开放了上百万个这样的数据集。

Warren相当于Kensho给高盛的结构化数据库做了一个自然语言的前端。

中间层的金融领域知识库

在做金融统计时，会有各种关联分析、回归分析和细分子领域的分析，比如产业链、财务模型、行业模型，宏观模型、投资模型等等。而要做这些模型，需要协调各领域、各分支的专家，整合各种各样的专业知识。

前端的问答技术

Warren 使用自然语言处理技术进行文本分析，以确定关键术语和参数，如事件和感兴趣的公司。然后，它提取相关历史数据，进行相关分析或事件研究，以评估过去事件对资产价格的影响，并将分析汇总到图表中。

查询了一些金融，医药领域问答系统的案例，基本都是检索式的问答系统（基于知识图谱，基于问题答案对对），对问题的形式有一定的要求。

奇怪的地方

这个公司有点神秘，创下了华尔街最大规模的人工智能公司收购额但搜索引擎中词条很少，连维基百科都没有。标普全球的wiki里面也没提收购Kensho的事。

搜索Kensho时，其官网产品中并没有Warren或者类似的东西，只是看到几篇报道中Kensho Warren，觉得这个产品时和ppt中Kensho的介绍最接近的，但这几篇报道又说这是Kensho的主要产品。

关于Warren的报道基本都在2016-2017年，后续也没了消息。

Kensho NERD（ML toolkit）

NERD（Named Entity Recognition and Disambiguation），用于识别文档数据中的财务实体（公司，子公司，金融机构等）。

Kensho Scribe（ML toolkit）

与NERD类似，用于识别音频中出现的财务实体（公司，子公司，金融机构等）。

Kensho Link（ML toolkit）

Link将写法混乱的公司数据（拼写错误或只写了一部分）连接到标普全球市场情报数据库，通过机器学习算法匹配。可以与上述两个一起用进行准确的财务实体识别以及相关信息获取。

数据处理平台产品Visalo

优化数据检索，例如，允许像搜索文档一样搜索多媒体中的实体，允许使用过滤器进行窄范围搜索：过去三天内拍摄的所有具有地理位置的照片…

数据可视化。

参考文献

从 Kensho 看大工业金融的发展路径（上） (sohu.com)

（转）知乎作者邓文龙：Kensho是做什么的？_Julia & Rust & Python-CSDN博客

CCKS 2019 | 基于知识图谱的寿险问答系统 - 知乎 (zhihu.com)

基于医疗知识图谱的问答系统源码详解vivian_ll的博客-CSDN博客医疗知识图谱