原文链接:https://mp.weixin.qq.com/s/7ZoTxpdfxLBiTyXpLPjsNw

简介

Palantir 是美国大数据分析行业的独角兽,由 FaceBook 早期投资人、PayPal 的联合创始人 Peter Thiel 以及现任首席执行官 Alex Karp 等四人于 2004 年创立,提供基于大数据的分析技术和平台支持。其主要客户为美国国家安全局(NSA)、美国联邦调查局(FBI)、美国中央情报局(CIA)以及其他美国反恐和军事机构,曾助美军追踪本·拉登。
image.png
Palantir 的核心理念是人脑智能与计算机智能的无缝交互。大数据时代,数据收集渠道广泛,结构化数据和非结构化数据并存,在种类上体现出多样化,在体量上呈现指数级增长态势。Palantir 构建数据分析的基础架构,通过图(Graph)、地图(Map)、统计(Statistics)、集合论(Settheory)分析数据,为客户提供数据分析平台和软件,使得用户可以快速分析海量数据,找出规律,获得结论,并作出决策。

其服务具有两大特色:实时决策和隐私保护。Palantir 构建的软件可以允许机构在同一平台整合数据、决策和操作,并通过有效的数据建模和可视化服务快速回答复杂情境下的问题。另一方面,Palantir 在使用数据时秉承保护隐私和公民自由的原则,在设计上添加信息保护的模块,用户只能看到需求和允许范围内的一切信息,并提供日志追踪。

Palantir 目前主要针对政府和金融机构提供服务。旗下产品包括 Palantir Gotham 和 PalantirFoundry。其中Palantir Gotham 收集并分析军事和政府情报,主要应用于国防和安全领域,Palantir Foundrys 则更多应用于商业和金融领域。两大平台主要提供五项基础功能:

  1. 数据集成:Palantir 提供多种方法从不同数据源中提取数据,并基于本体创建和填充对象;
  2. 搜索发现:Palantir 为分析师提供多种搜索机制,使得可以找出与需求相匹配的数据,并自动挖掘数据间关系,最大程度发挥数据价值。如环形检索(Search Around)和快速搜索(QuickSearch)。同时提供生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,无需了解复杂的查询语法;
  3. 知识管理:Palantir 重视信息的可靠性和完整性。会在导入数据后记录所有信息源和信息内容,并依据用户权限提供数据保护;
  4. 算法引擎:Palantir 寻找通用的算法来解决一致性的问题(反欺诈、反监听),算法适应海量数据的处理,可以快速构建模型;
  5. 协作共享:Palantir 允许分析师发布共享自己的分析结果给其他用户,并允许用户在线更新。

动态本体

人工智能领域常使用本体对领域知识进行分类和描述。在 Palantir 中同样采用本体概念对导入的数据进行统一管理。Palantir 中的本体实质上是所有对象的分类和集合,它会合并相同的对象到同一对象类型中,并随着数据的添加、删除和修改来动态更新本体内容。

Palantir 中的本体主要由对象、属性和关系构成,对象是指一切可以被建模的事物,属性是是指对象的特征或性质,比如人具有属性性别等,而关系则用于描述对象、属性之间的关联比如人物之间存在雇用关系。在 Palantir 中,对象、属性和关系是硬编码的,基于此可以设计各种不同的数据类型来灵活控制本体结构。

对象是核心。对象具有两个固有属性,所有其他属性都在系统被分开并安全地保存,通过关联关系连接到它们对应的对象;这就使得 Palantir 系统能够实现细粒度的访问控制(粒度细到“属性”级别),同时允许在单个属性中出现多个值,这与许多内容管理系统实现属性的方式相反,但降低了约束性。

目前 Palantir 中主要包含三种对象类型:实体(Entity)、事件(Event)和文档(Document)。它们的定义如下:

  • 实体是事物,通常任何名词都可以代表一个实体,例如人、车辆或位置;
  • 事件是某个时间点发生的行为,这意味着任何动词都可以表示为事件,例如访问、飞行或购买等;
  • 文档代表着非结构化文本数据,例如电子邮件、文本文档或 html 文件。

这种分类方式是基于需求的考量。因为在情报分析领域,很重要的就是对人物、组织等实体的画像,对重大事件的建模分析以及对文档的检索分析,而且实体、事件和文档之间本身是一个自循环的系统。

与一般的本体不同,Palantir 中的本体属于动态本体,它允许对所有不再使用的对象、属性和关系进行移除,并且根据需求添加新的对象、属性和关系。另外,它还支持对对象、属性、关系的功能修改,包括添加修改标签、图标、解析器等。

动态本体允许一个组织对领域相关的信息进行建模,而且这种建模比较灵活,可以适应复杂多变的应用场景。比如说,如果要对人的职业进行建模,有以下几种模式:
image.png
图1(a)把职业作为一种对象定义,即把 Pilot、Lawyer、Doctor 作为 Person 的子类,这里 Pilot 和 Person 一样都是对象,可以给出他们的属性等。
图2(b)把职业作为 Person 的属性,而这里属性值是 Doctor、Pilot、Lawyer,这里假设了一个人可以从事多个职业。
图1(c)把职业看成是一种关系,这里有三种关系,即人和人之间的医患关系、人跟飞机之间的驾驶关系以及人跟人之间的律师关系。从图1 可以看出对于不同的上下文,可以对一个事物做不同的建模。

动态本体对于异构数据的集成很有帮助。现有关系数据库的数据管理系统一般采用表和关系的固定模式来组织数据,当模式变化时,需要对表进行修改,导致很多重复劳动。另外,基于一个固定的模式也不利于对数据做集成,特别是对于数据经常要更新的场景。动态本体的提供一个灵活可变的数据模型,方便数据管理和多源数据的集成。在一个应用中,可以构建一个数据库的动态本体,而该动态本体可以用来集成各种数据。具体思路如下:

  1. 通过一个对象类型编辑器来生成数据类型和数据类型的特征;
  2. 通过一个属性类型编辑器生成属性类型并且定义该属性类型的特征;
  3. 每个属性类型都有一个解析器,该解析器将一些输入的数据跟动态本体做一个映射,并且把输入数据添加到数据库中。

数据集成

Palantir 中提供多种方法来集成系统中的数据,其主要的功能是将原始的结构化数据和非结构化数据导入存储到专门的数据库中,并提供支持快速查询的索引方法等。目前,主要有四种主流集成方法:前端导入(Front End Import)、Kite、Raptor、Phoenix。下面我们将依次介绍。

前端导入

前端导入是大部分数据分析师在使用 Palantir 时选择的方式,因为其方便快捷,易于操作。前端导入实际上就是操作 Palantir 本身构建的数据导入界面来集成用户输入的数据到系统中。用户可以手动导入,也可以创建一个 CEDT (Crawl/Extract/Detect/Transform)扩展导入。CEDT 是 Palantir 内部支持的数据导入架构插件,主要用于处理非结构化数据源,通过用户自定义配置的高性能爬虫、抽取程序来获取数据源中有价值的信息,并自动进行清洗分类,将获取到的数据转化为用户需要的结构化数据存储起来。如果数据源是结构化数据,如 excel、csv 等,将会出现一个映射对话框,指导用户对表列和属性进行映射,同时建模对象和关系用于处理数据表中的内容。

Kite

Kite 是 Palantir 提供的应用程序,它将结构化数据源转换为一种 pXML 中间格式,该格式主要描述了数据对象、属性、权限等级、附件和关联等内容。用户需要创建一个 Kite XM L配置以描述数据源的结构、如何解析数据项的详细说明、并定义输出对象的组装方式。
Kite 的配置主要包括三大部分:config、Rowprovider、Rowprocessor。

  • 基础配置 config 由两个要素构成:第一部分是为 Kite 生成的 pXML 文件指定存储位置,这是强制项,第二部分为可选项,给出数据库源的 JDBC 连接的详细信息,包括用户名、密码、连接字符串等;
  • 行提供程序 Rowprovider 负责整合数据源并提供键值对,其中 Key 为列名,Value 为行单元格中的值。一般来说,行处理器依据处理对象给出不同的处理方法,当对象为 csv 文件时,一次仅处理一个文件;当对象为 exce文件时,一次只会处理一个文件中的单个表格;行处理器也可以从数据库中直接读取数据,此时获取的结果可能是多表连接的复杂查询结果。此外,一些行提供程序也可以基于数据源提取的数据来添加或修改值,如哈希行提供程序可以在缺失主键的情况下依据行所有值的哈希结果创建数据的唯一标识,变量替换行提供程序可以格式化或修改读取值,如修改数据源属性值等;
  • 行处理程序 Rowprocessor 负责将键值对转化为对象属性、附件或与对象关联的链接,由多个子处理器实现。如属性处理器可以为指定对象添加属性,如对象不存在会自动创建;子对象处理器和父子关系处理器可以一起使用定义对象间的上下位关系;时间间隔处理器可以为事件和文档添加内置日期/时间属性。

Reptor

Raptor 是 Palantir 的一个补充软件包,可以用于大型文档数据的存储部署。在使用 Raptor 时,它会提供外部接口服务,将给出的共享路径作为其作业程序设置的一部分,然后抓取该路径下的文档资源,并为它们建立索引,将索引存储到数据库中。在索引支持的条件下,Raptor 的主要优点在于可以实现对外部数据源的就地联合查询,它利用动态方法完成数据集成。当一次联合查询被确认为 Raptor 技术的查询时,此记录会被就地转移到版本控制数据库中(Revisioning Database),依据文档爬取过程中构建的索引快速找出目标。版本控制数据库技术(The Revisioning Database)简称为 RevDB,为 Palantir 提供了持续稳定的数据存储能力。它增强了平台的访问控制,审计,知识管理和协同工作能力。此中所有数据都附有它们的历史信息,包括创建和修改日期,创建和修改者身份,数据来源地以及数据自身的安全设定和访问限制。用户可以接触到这些原始资源,从而获得足够的分析条件,并且可以保证不同权限用户间的合作安全和不同分析方式用户间的合作安全。广泛的原始资源,可靠的安全规范和完善的版本控制,这些条件可以使不同用户对给定的数据对象从不同角度进行审视,同时也维持着数据的完整性。

Phoenix

Phoenix 技术是一种集群式的数据存储技术,也是 Palantir 中的扩充软件,主要用于支持导入和存储 PB 级规模的结构化数据,并在大规模的数据记录中进行亚秒级别的查询。其依据数据的时空特性等将数据进行集群化处理,将不同的数据模块存储到不同的数据库服务器中,从而实现数据的高效管理。如在调查非法通话记录时,Phoenix 可以依据用户给出的号码、定位、时长等特征快速查找所有符合条件的记录,并将这些搜索到的数据导入到 Palantir 中以供分析,减少大量无关数据的干扰。Phoenix 技术的优势在于可以使其他一些开源技术在处理大规模数据和进行高级分析时达到杠杆效率。

应用程序

这里我们以 Palantir Gotham 为例来介绍平台中用于可视化搜索和分析数据的主要应用程序,其前端集成了语义、时间、地理空间和全文本分析功能,包含四个模块:浏览器、图分析应用、地图应用、对象资源管理器应用。用户在使用 Palantir 时可以依据不同的应用场景、分析需求来选择不同的应用程序来分析数据,这些数据在应用程序间可以通过便捷的操作自由转换。

浏览器

浏览器应用会根据被查看对象的根类型,呈现两种不同的视图。如果根类型是文档(Document),用户将看到一个提供原文本的文档标签栏,此时在该视图中用户可以对文档内容加以标记,以供分析使用,在标记过程中会自动根据标记内容创建新的实体、、事件或关联,以及为对象创建属性等;如果根类型是实体(Entity)或事件(Event),用户就会看到一个如图2所示的摘要(Summary)标签栏,该栏对对象进行总体描述;标签栏其余项分别为属性(Properties)、关联(Related)、注释(Notes)、媒体(Media)和历史(History),他们分别显示在两个视窗。关联部分包括三种对象:关联实体、关联事件和关联文档,这样可以将各种不同的对象紧密结合,相互作用。用户可以依据浏览器呈现的信息获得实体本身以及与实体相关的一切事物的详细资料。
image.png

图分析应用

图分析应用使用节点和边构成的图模式来直观地展示数据对象之间的语义关联,其可以被视作关联性数据的可视化应用平台,但其将数据扩展到多个角度,便于用户根据不同需求来获取不同的分析图。一般来说大多数用户会选择使用图分析应用来分析获取的数据,因为其支持数据的快速查询和显示。

图分析应用中可以选择不同的布局模式,主要根据用户的图分析目标来确定。模式有四种:自动布局、圆形布局、网格布局和分层布局。

  • 自动布局一般会将核心对象作为中心,通过辐射式方法向外不断扩充关联数据,有利于显示两个对象的分离度;
  • 圆形布局将所有对象和关联放入一个圆形区域,其中所有对象被填充在圆的边缘,这种方式有利于显示具有高关联度的数据;
  • 网格布局会创建一个对象网格,基于属性值将对象组合在一起,并将它们移动到分析图周围,有利于看出密度差异,找出相似对象;
  • 分层布局会首先选定一个根对象,然后将其子对象和属性等放入其叶子节点构成树状模型,这种布局可以快速发现对象间的上下位关系。

针对可视化界面中的每个对象,图分析应用都会提供一个环形菜单来实现对该对象的各种操作。菜单主要提供以下几种功能:

  1. 发布:允许用户将与所选对象相关的新数据发布到共享数据库中,以便其他用户可以及时访问和使用更新后的对象;
  2. 选择:提供显示当前节点相关信息的功能。其中包括关联节点、流入节点、流出节点、反选节点等,如关联节点会显示与当前所选节点具有一跳距离的所有相关节点;
  3. 关联合并:如果分析图上有 3 个以上互相关联的对象,则可使用该功能将中心的对象关联合并,这将有效地将分析图转换为一根关联线连接两个实体,关联线实际成为了第三个实体。这个功能在对象之间存在很多事件的分析图上非常有用,比如可视化的事务日志,因为它可以有效地整理视图;
  4. 相关搜索:允许用户对所选对象进行上下文搜索,默认支持的环形搜索功能可以利用数据库中的索引,基于广度优先遍历快速查找出与对象相关的所有实体、事件和文档信息;
  5. 视图:与浏览器提供功能相同;
  6. 合并/取消合并:如果同时选中多个对象,则会显示“合并”选项;这允许用户将这些对象合并成一个对象,这在分析图中删除重复对象非常有用。一旦两个对象被合并,它们将由一个对象来表示,该对象具有之前那些对象的所有关联和属性。取消合并为反向操作;
  7. 删除:从分析图中删除对象,该功能主要是辅助用户删除一些对于分析无用的对象节点,保持分析图的简洁和高效性。这些对象仅从视图删除,仍然保留在数据库对象中,以便用户需要的时候查找;
  8. 创建组:当选中多个对象时,可以为选定对象创建一个命名组,用于标记区分不同性质的对象。

地图应用和对象探索

Palantir 的地图应用允许分析师基于地理空间属性执行搜索和分析。地图应用程序可以允许用户导入地图图层和图像数据,而且数据可以在本地或远程存储。当用户需要基于地理位置追踪实体或是事件对象时,地图应用可以依据数据信息创建热度图,将用户指明的目标标识在地图中的所在区域,并依据位置标记对象的密度。地图应用程序还允许使用图层文件(shape、kml等),以便用户在预定义区域中进行分析。

对象资源管理器应用允许自顶向下分析整个数据集,通过过滤器和分类器将数据过滤为用户感兴趣的多个子集,然后在应用中以不同的方式可视化集合的内容,以供进一步的分析。其允许对数十亿对象数据进行 10 秒以内的快速查询分析,由分布式内存数据库 Horizon 提供支持,该数据库的设计与 ApacheSpark™ 类似,可以驱动海量数据的交互式工作流。

案例

Palantir 平台下辖十多种解决方案,如反欺诈(AntiFraud)、网络安全(CyberSecurity)、国防安全(Defense)、内部威胁(InsiderThreat)、危机应对(CrisisResponse)、保险分析(InsuranceAnalytics)、案例管理(CaseManagement)、疾病控制(DiseaseResponse)、智能化决策(Intelligence)等,这些方案依托平台的数据整合和图分析等功能,在具体情境下实现情报分析。这里我们以军事国防、警务预测、金融反欺诈为案例进行简单介绍。

军事国防

在军事领域,Palantir 的核心目标是将多个军事情报领域的海量数据进行融合和关联分析,转化为可操作的决策指挥能力。多情报领域数据的集成和融合是要解决的关键问题,包括非结构化和结构化数据流,如链接图,电子表格,电话,文档,网络数据,传感器数据,甚至动态视频、图像等。

它提供了一个基于全量多模态数据融合和协同挖掘分析的大数据支撑框架,可以对在地理、空间上分散的人、装备、环境、事件等进行大规模实时关联和因果分析,以指导复杂战场环境下的军事行动。这些大数据技术已被美国军方广泛运用于战场态势分析和预测,如定位伊拉克战场可能存在的炸弹或地雷位置,帮助美军在巴格达规划一条被袭概率最小的路径,或者分析亚丁湾海盗活动的热点区域。

这些分析整合了美军等多方原本孤立的数据源(如军事情报部门和陆海空、海军陆战队等组织机构的数据),通过 Palantir 的 Nexus 等技术,无缝整合同步数据和进行分析模型协同,包括各类数据模型、安全模型和本体对象的管理,其全量数据分析和知识管理能跟踪每一个数据和模型的读,写和编辑、保存,以积累战场空间的决策知识。基于通用的大数据融合分析平台,使指挥人员和调度人员能在单一系统内解决所有问题,包括敌人的活动情报分析(情报报告,事件行为等),关联分析(背景、跟踪、时空、反应等)和预判决策等功能。

警务预测

Palantir 通过与美国各州的警队合作,将遍布在城市及乡镇各处卡口、警车上的摄像头拍下的照片及视频入库存储,与警方的人口数据库、犯罪数据库、DNA 数据库等进行深度融合,提取出如车牌号码、人脸、DNA 及体态等关键信息,这些信息虽然繁琐且表面看起来关联性不强,但在经过专业人员的分析后往往可以将其有效地结合到一起。

通过大规模数据可视化交互技术可将数据间有价值的关联关系深度挖掘出来,形成完整的证据链条,为警方节约大量的人力和时间,而且通过间接关联分析,一定程度上能解决线索中断的问题。通过预测性警务模型分析历史犯罪数据,还能计算出最有可能在警察下一次执勤时发生犯罪活动的地点。

2011 年,美国海关的一名情报人员在墨西哥被一群毒贩射杀,美国警方随即展开名为 OperationFallen Hero 的行动,利用 Palantir 大数据技术,在浩瀚的人物、地点以及事件等等元素中间建立复杂的关系链,同时融合联邦探员自身掌握的信息,如大毒枭们,及其下线的融资渠道以及运毒路线,通过对与本案相关多源数据关联的可视化展现、交互分析,将分散隐蔽的证据、信息进行有效衔接,同时筛选排除干扰信息,将证据链完整呈现。最终通过资金往来以及人际关系网络分析理清了关键人物以及关键联系,并确定了主要嫌疑犯,逮捕了 600 多名毒贩和大批毒品武器。