大数据,数据挖掘,数据存储,数据分析,辅助决策,国家安全
介绍
Palantir是Peter Thiel(Paypal创始人之一)等人于2004年联合创立的一家大数据公司,名字取自指环王中的水晶球,意在希望用技术手段挖掘分析数据构建魔法球Palantir看清世界。
创立之初的Palantir融资非常不顺利,硅谷两大传统的风险投资资金都很不看好他们的企划,最后CIA看上了他们的解读数据的能力,为他们贡献了200万美金的融资。因此,Palantir在其起步期(2004-2010)主要为CIA服务,直到2008年,CIA都是Palantir的唯一大客户。2008年,美国政府开始与Palantir正式签订合约。截至2013年,Palantir的客户包括美国政府内至少12个团体,包括中央情报局、国土安全部、国家安全局、联邦调查局、CDC、海军陆战队、空军、特种作战司令部、西点军校、联合即兴威胁击败组织和盟国、恢复问责和透明度委员会以及国家失踪和受剥削儿童中心。
2010年,Palantir迎来首位非政府项目的客户摩根大通,将其技术应用于反欺诈项目上。同年4月, Palantir宣布与汤森路透合作,以销售QA Studio(定量分析软件)的身份出售Palantir Metropolis产品。2011年,公司入选摩根大通公司创新馆,此后,Palantir成为华尔街重要的数据分析提供商。
如今,Palantir的业务范围已经极其广泛,根据官网介绍,Palantir已经在人工智能、财务、医疗、保险、执法等方面都展开了服务。
产品
Palantir是一个数据分析平台。它允许以结构化(数据库表格,电子表格等)或非结构化(文档,演示文稿等)的格式导入数据,并通过图分析、地图或者统计和集合操作进行分析。平台以5大支柱为基础,这也是平台提供的主要功能。五大支柱是:
数据集成——想要发现信息,首先必须得载入数据。Palantir提供了许多方法来从不同的数据源中获取数据,并且基于本体创建本体对象。
搜索和发现—— Palantir为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。最令人印象深刻的是它的环形检索(Search Around),其中最常用最重要的是快速搜索(Quick Search),当然这一切的基础是需要一个很好的本体。Palantir提供了生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,同时无需了解复杂的查询语法。
知识管理——当用户从他们添加到系统的数据中发现新的信息或新的关系时,Palantir会添加新的信息并记录新数据源的信息。这意味着Palantir拥有完整的审计机制,同时更加重视信息的完整性以及出处,还根据用户的继承权限和默认权限保护新添加的数据,这意味着添加到Palantir的所有数据都可以根据其授权级别赋权给其他用户。
协作 ——Palantir允许分析师在私人调查中根据自己的思路开始调查,任何需要共享的调查结果都可以发布,分享给其他用户。同样,分析师可以选择何时接受其他用户的更新,也可以选择将共享分析图加载到当前调查或新建调查中,以便开展进一步的工作。
算法引擎 —— 在许多公司中存在一致的问题空间(破解欺诈,网络嗅探等),可以通过寻找趋势的通用算法来解决,这是算法引擎的基础
Palantir的主要产品有Palantir Gotham,Palantir Foundry以及Palantir Apollo。前两者分别为面向政府以及企业的数据平台,后者为服务于Gotham与Foundry的插件。除了主要产品以外,Palantir还有一些针对特定需求的定制产品,例如Tiberius,用于美国新冠疫苗分配。
Palantir Gotham
Gotham是Palantir最早推出的数据平台。911事件让Palantir创始人们思考是否可以通过一个平台将政府掌握的海量不同源头和形式的数据整合,通过信息之间的链接,抽丝剥茧地找出线索,从而避免类似的惨案。因此,Gotham横空出世,为美国和其他几个国家政府提供国防情报、安全方面的服务。
Gotham注重理解数据所代表的实体,即把数据整合为若干带有属性集的、有现实意义的对象(本体论思想),从而进行“大海捞针”式分析。Gotham除了能处理常规的结构化,表格化数据,还能从各种形式的文件里摘取信息,以充实现有的数据对象。
Gotham支持自上而下的分析(从选择实体或事件的一些描述性统计数据开始,并反复改进数据集,例:分析师们作报告的同时,他们标记的信息也用于充实数据)以及自下而上的分析(从一个或几个实体开始,通过查找和添加类似或相关实体来扩展设置,例:决策者根据平台数据做出决策,可以立即在平台上模拟)
(模拟决策例子,模拟往这里派飞机,然后提示有防空火力)
Gotham支持地理空间分析,可以在地图上绘制实体的位置并分析它们如何随时间变化。
对于Gotham而言,没有事故就是最好的故事,因此除了定位本拉登,识破麦道夫骗局等事件以外没有什么案例报道,或者是案例不会被公开,上述这两个案例也只是草草几句带过。
Gotham中的AI与机器学习
Palantir的理念不认为人工智能可以取代人类,而是人工智能可以增强人类的智能。因此机器学习不会改变Gotham系统的本质——呈现数据给用户让用户进行分析。但是,巨量的数据,尤其是一些信噪比较低的数据导致人类不可能自己筛选,因此,一定程度的自动化是必要的。并且,对于视频以及多媒体信息,需要机器学习算法去构建结构化的视频数据,例如从安全摄像头获取的视频中标记抢劫和相关嫌疑人。
另外,Gotham是一个功能丰富的界面,使分析师能够探索具有多种功能的不同类型的方法。一些用户希望这种灵活性来探索。但是,许多潜在用户的工作流程相对简单,不需要太多的探索,他们可以从指导他们完成工作流程的简单界面中受益。因此,一定程度上的基于数据的指导是必要的,这也是一个机器学习可以发挥作用的领域,Gotham内置一个反馈回路和增强模块,人类的决策信息会反馈回增强模块,随着时间累积效果提升。
Palantir Foundry
Palantir Foundry的前身是Palantir Metropolis,是面向企业的一站式数据处理平台。与Gotham相比,Foundry更注重处理结构化的巨量数据,更加贴近企业现有的内部数据形式,使得企业更容易数据搬家到Foundry。数据储存方面,Foundry更注重数据的版本控制,使得多个用户对数据库可以同时修改互不影响,也使得纠错回溯更加容易。
Foundry真正的野心不在于做好一个数据库,而是想将类似于Gotham中的决策平台理念移植到企业管理环境中,成为一个企业的指挥控制中心。Foundry继续使用Palantir的核心“本体”思想,将合适的数据对象化以此将企业的决策对象、事件数据化(决策者在本体层做决策)。然后赋予基层用户生产数据对象的能力,以此将企业决策流程数据化(创建前端,使非常广泛的用户能够参与数据)。从此,决策层可以利用来自外部整合,内部积累的全体数据,在定制化的“决策软件平台”上更加透明,高效地与数据协作。目前,Foundry已经在制造业地质量控制,银行业地反洗钱,高端客户服务等方向崭露头角。
与Gotham类似地,Foundry寻求建立的不是自主决策的系统,而是提供给用户基于数据驱动的建议,使他们可以用他们独特的人性判断力和细微差别进行评估的系统。因此也类似的内置一个反馈回路,以便企业能够以越来越复杂的方式评估和改进其运营决策。
Palantir Foundry流程
最底层:数据资产
自动连接数据
本体层:使用每个人都能理解的概念对世界进行建模(例如飞机,汽车或客户),而不是只有精通数据的人才能理解的电子表格、列和行。决策者在这一层进行决策。
决策模拟,AI推荐决策等
根据视频个人理解,Foundry将数据资产自动分类成为“本体”的属性。本体层是由使用者操作的,使用者可以添加本体,自行设计本体之间的互相连接,本体的类别可以从设定好的几个选项中选(不确定可不可以自己定义),这个选项对于每个领域都是不一样的,每种本体都有可以添加的属性以及属性中的数据,可以由使用者自行往里面添加。在建立本体层之后,可以模拟决策的结果,或由模型推荐决策等,这背后依赖深度学习,软件自带模型或一些统计学方法。
关于Gotham以及Foundry
在Gotham以及Foundry的介绍材料中多次提出了”本体论“这一词。Palantir系统里的所有本体都是围绕在3种基本类型、它们之间的关联关系以及这些类型的属性上进行建造。
核心是三种对象:实体(Entities),事件(Events)和文档(Documents)。
实体是事物,通常任何名词都可以代表一个实体,例如人、车辆或位置。
事件是某个时间点发生的行为,这意味着任何动词都可以表示为事件,例如访问、飞行或购买等。
实体和事件均包含属性,属性来自于文档提取。
文档代表着非结构化文本数据,例如电子邮件、文本文档或html文件。
报道:大卫·贝克汉姆在23分钟从25码得分。曼联教练弗格森爵士说,霍华德·韦伯将球员巴顿驱逐离场是正确的,巴顿于78分钟时收到 他的第二张黄牌。
使用本体来描述“大卫•贝克汉姆在23分钟从25码得分”这样一个非常简单的例子;从这句话我们可以得出以下属性、实体和关联:
实体 – 球员
姓名:大卫•贝克汉姆
事件 – 进球
标题:25码进球
比赛时间:23分钟
关联:人(大卫•贝克汉姆) - 得分手 – 进球(25码进球)
在每个领域,本体都不一样,因此Gotham和Foundry平台均由数百个单独的服务组成,每个服务都有独立编写和发布产品功能的开发团队。这应该与Palantir的用户结构有关,这家公司市值很高但客户不到200,因此可以对每一个客户都有专门的工程师团队来负责。
Palantir Apollo
Palantir Apollo是Gotham以及Foundry平台背后的平台。Palantir Apollo是为我们的软件平台提供动力的持续交付系统。阿波罗是与Foundry一起构思的,Foundry最初是作为Palantir的公有云SaaS(Software as a Service)的自动化和交付基础设施而构建的。然而,鉴于Palantir的用户情况,基于单一公共云提供商的传统SaaS不会在所有地方都适用。Palantir需要统一的工具来为所有客户带来相同的SaaS平台,而不受环境限制。因此,将Apollo构建为作为Palantir自己的独立平台运行,独立于Foundry,作为位于Palantir的应用程序和底层基础设施之间的一层运行。
Apollo为Palantir的所有平台带来了相同的SaaS风格的管理。它几乎可以在我们的软件部署的任何地方运行——SaaS、预置型和特定类型的网络,并改变了Palantir软件的扩展方式。Apollo在不同的部署目标之间协调更新,开启了机队范围内的自主管理,使得Palantir运营效率进行了一个阶段性变化。
Apollo是一个平台,可以为Palantir的整个客户群带来统一的SaaS。
参考文献
关于Palantir——第一部分_Information_analyst的博客-CSDN博客