作者:Eric Siegel
    2020年10月23日

    机器学习可以确定很多关于你的信息—包括一些你最敏感的信息。例如,它可以预测你的性取向,你是否怀孕,你是否会辞职,以及你是否可能很快死亡。研究人员可以根据Facebook上的点赞来预测种族等。

    现在,机器是否真的”知道”你的这些事情,还是它们只是在做有根据的猜测?而且,如果它们对你进行推断,就像你认识的任何人类可能做的一样,它们如此的精明,真的不妥么?

    我们来看几个案例:

    在美国,Target预测谁怀孕的故事可能是算法对人进行敏感推断的最著名例子。2012年,《纽约时报》的一篇关于公司如何利用其数据的报道中包含了一则轶事,讲述了一位父亲得知他十几岁的女儿怀孕了,原因是Target给她发送了婴儿用品的优惠券,这显然是一种预感行为。虽然关于这个少女的故事可能是个无稽之谈—即使真的发生了,根据《纽约时报》的报道所详述的Target的流程,这很可能是巧合,而不是预测性分析造成的优惠券,但从这个预测性项目来看,确实存在着隐私风险。毕竟,如果一家公司的营销部门预测谁怀孕了,他们就已经确定了医疗敏感的、非自愿的数据,而这些数据通常只有经过培训的医护人员才能妥善处理和保护。

    这种信息的获取管理不善,会对某些人的生活产生巨大影响。正如一位关心此事的市民在网上发帖所言,试想一下,一位孕妇”工作不稳定,(她)的社保还没有设置好……如果要公开,可能会冒着生孩子的费用(约2万元)、休息期间的社保补贴(约1万到5万元),甚至工作的风险”。

    这不是一个处理不当、泄露或窃取数据的案例。而是产生了新的数据—间接发现了关于人的非自愿的真相。组织可以从现有的无害数据中预测出这些强大的洞察力,就像凭空创造一样。

    那么当预测模型表现太好的时候,我们是不是铁了心要面临一个弊端?我们知道,当模型预测错误的时候是要付出代价的,但是当模型预测正确的时候是否也要付出代价呢?

    即使模型本身的准确率不高,但它对某个怀孕群体的预测可能还是有信心的。比方说,在18岁到40岁的女性顾客中,有2%的人怀孕了。如果模型识别出比平均水平高三倍的客户,比如说,识别出的客户中只有6%会真正怀孕。这就是三倍的提升。但如果你看一个小得多的重点群体,比如说可能怀孕的前0.1%,你可能会有更高的提升,比如说这群人只有46位,这将使该群体中的女性有92%的可能怀孕。在这种情况下,系统就能够揭示出这些女性非常有可能怀孕。

    同样的概念也适用于预测性取向、种族、健康状况、地点以及你的离职意向。即使一个模型在一般情况下准确度不高,但它仍然可以高置信度地揭示—对于有限的群体来说—像性取向、种族或民族这样的事情。这是因为,通常情况下,有一小部分人对其更容易预测。现在,它可能只能对一个相对较小的群体进行有把握的预测,但即使只是100万人口中的前0.1%,也意味着有1000个人被有把握地识别出来。

    很容易想到人们不想让别人知道这些事情的理由。截至2013年,惠普公司正在对其30多万名员工进行预测性评分,并给出他们是否会辞职的概率 —— 惠普将此称为“飞行风险评分”,并交付给管理人员。如果你打算离职,你的老板可能是你最不想在正式离职前知道的人。

    另一个例子是,面部识别技术可以作为一种追踪位置的方式,降低了不公开的基本行动自由,因为,例如,公共位置的安全摄像头可以在特定的时间和地点识别人。我当然不会一刀切地谴责人脸识别,但知道微软和谷歌的CEO都是因为这个原因而对人脸识别下手。

    在另一个例子中,一家咨询公司在为人力资源部门建立员工流失模型时,注意到他们其实可以建立员工死亡模型,因为这是你流失员工的一种方式。人力资源部门的人回应说:”别给我们看!”他们不想承担可能知道哪些员工有可能很快死亡的责任。

    研究表明,预测模型还可以根据例如Facebook的喜好来辨别其他个人属性—比如种族和民族。这里需要关注的是,营销人员可能会以何种方式利用这类预测。正如哈佛大学政府和技术教授Latanya Sweeney所说,”归根结底,网络广告是关于歧视的。你不希望有新生儿的母亲得到钓鱼竿的广告,也不希望渔民得到尿布的广告。问题是,这种歧视什么时候才会从针对客户到对整个群体产生负面影响的界限上越过?”事实上,Sweeney的一项研究表明,谷歌搜索”听起来像黑人”的名字,显示广告暗示此人有逮捕记录的可能性要高出25%,即使广告商的逮捕记录数据库中没有人有这个名字。

    “如果你做了一项技术,可以将人们按种族进行分类,就会有人利用它来压制这个种族,”乔治城法学院隐私与技术中心的高级助理克莱尔-加维说。

    基于预测技术实施对一个道德群体的区别对待,将风险提升到一个全新的高度。麻省理工学院的深度学习研究员乔纳森-弗兰克尔警告说,这种潜在的情况已经超出了中国的范围。”我不认为将其视为对民主的生存威胁是过分夸张的。一旦一个国家采用了这种重度威权模式,它就会以一种更深层次的方式利用数据来执行思想和规则……在这个程度上,这是一场我们正在慢慢梦游的紧急危机。”

    要划清哪些利用机器学习实现的预测目标是不道德的,是一个真正的挑战,更不用说哪些是应该立法禁止的,如果有的话。但是,至少要保持警惕,注意机器学习何时会增强先前存在的不道德做法,何时会产生必须谨慎处理的数据。

    原文链接