知识是什么

知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹,知识是由信息形成的。 二者关系不同知识是用于生产的信息(有意义的信息)。 信息经过加工处理、应用于生产,才能转变成知识。

信息、数据、知识的区别和联系

信息是事物可观察的表征,或者说信息是事物的外在表现,即那些可观察到的表现。在我们没有望远镜时,谈论肉眼以外星空里的信息毫无意义。

数据是已经描述出来的部分信息。任何一个物体的信息量都非常大,要想精确地完全描述一块石头,就要把这块石头里所有基本粒子的状态以及它们之间的关系都描述出来,还要把这块石头与周围环境和物体的关系都描述出来。而关于这块石头的数据通常则少得多,例如它的形状、重量、颜色和种类。

知识则是数据在时空中的关系。知识可以是数据与时间的关系,数据与空间的关系。如果把时间和空间看作数据的一部分属性,那么所有的知识就都是数据之间的关系。这些关系表现为某种模式(或者说模式就是一组关系)。对模式的识别就是认知,识别出来的模式就是知识,用模式去预测就是知识的应用。开普勒的行星运动定律就是那些观测到的数据中呈现的时空关系。牛顿定律的最大贡献可能不在于解释现有行星的运动,而在于发现了海王星。这些数据在时空中的关系只有在极少数的情况下才可以用简洁美妙的数学方程式表达出来。在绝大多数情形下,知识表现为数据间的相关性的集合。这些相关性中只有极少数可以被感觉、被理解,绝大多数都在我们的感觉和理解能力之外。

知识的四种类型

人利用信息(知识)离不开获得信息和表达信息两个基本环节,人获得信息是用感官感知(即经验的),表达信息是通过符号(语言)和对符号结构之研究(符号可以是非经验的)。这样,他根据「可否感知」和「可否表达」,把人可利用的知识分为如下四种基本类型:

第一,可感知亦可表达的知识。它包括迄今为止所有的科学和人文知识。

第二,不可感知但可表达的知识。任何经验的东西都是可感知的,不可感知的就是非经验的。有这样的知识吗?当然有。以数学为例,抽象代数的定理是正确的知识,但可以和经验无关。人之所以为人,就在于可以拥有纯符号的知织,它是理性的重要基础。

第三,可感知但不可表达的知识。它包括人的非陈述性记忆和「默会知识」。

第四,不可感知亦不可表达的知识。这就是当前神经元网络通过学习掌握的知识。维嘉将这类大大超出了个别人所能记忆和学习的知识称为「暗知识」。「暗知识」的提出,不仅是一项哲学贡献,也为当前盛行的科学乌托邦提供了一剂解毒药。

人类认知的局限性

世界排名第一的棋手柯洁在网上说:「AlphaGo 胜得了李世石,胜不了我。」而 2017 年 5 月 28 日,棋手柯洁以 0:3 完败 AlphaGo,彻底击碎了人类在这种复杂游戏中的尊严。赛后,这位天才少年一度哽咽,在接受采访时柯洁感叹,AlphaGo 太完美,看不到任何胜利的希望。他流着眼泪说:「我们人类下了 2 000 年围棋,连门都没入。」中国棋圣聂卫平更是把 AlphaGo 尊称为「阿老师」,他说:「AlphaGo 的着数让我看得如醉如痴,围棋是何等的深奥和神秘。AlphaGo 走的顺序、时机掌握得非常好。它这个水平完全超越了人类,跟它挑战下棋,只能是找死。我们应该让阿老师来教我们下棋。」他还说:「阿老师至少是 20 段,简直是围棋上帝。」

2017 年 12 月,DeepMind 团队发布了 AlphaGo Zero(阿尔法围棋零)。AlphaGo Zero 使用了一种叫作「强化学习」的机器学习技术,它只使用了围棋的基本规则,没有使用人类的任何棋谱经验,从零开始通过自我对弈,不断地迭代升级,仅仅自我对弈 3 天后,AlphaGo Zero 就以 100:0 完胜了此前击败世界冠军李世石的 AlphaGo Lee 版本。自我对弈 40 天后,AlphaGo Zero 变得更为强大,超过了此前击败当今围棋第一人柯洁的 AlphaGo Master(大师版),这台机器和训练程序可以横扫其他棋类。经过 4 个小时的训练,打败了最强国际象棋 AIStockfish,2 个小时打败了最强将棋(又称为日本象棋)AIElmo。

AlphaGo Zero 证明了即使在最具有挑战性的某些领域,没有人类以往的经验或指导,不提供基本规则以外的任何领域的知识,仅使用强化学习,仅花费很少的训练时间机器就能够远远超越人类的水平。

「理解」的意思是要么能用感觉把握事物间的关系,要么能用概念把经验表达出来,或者用逻辑把事物间的关系表达出来。无法理解就等于既无法感受又无法表达。

人类的理解能力由感受能力和表达能力组成。人类的感受能力有限,局限性来自两个方面。一是只能感受部分外界信息,例如人眼无法看到除可见光之外的大部分电磁波频谱,更无法感受大量的物理、化学、生物和环境信息。二是人类的感官经验只局限在三维的物理空间和一维空间。对高维的时空人类只能「降维」想象,用三维空间类比。对于数据间的关系,人类凭感觉只能把握一阶的或线性的关系,因为地球的自转是线性的,所以「时间」是线性的。例如当我们看到水管的水流进水桶里时,水面的上升和时间的关系是线性的,我们凭感觉可以预测大概多长时间水桶会满。人类感官对于二阶以上的非线性关系就很难把握。例如当水桶的直径增加 1 倍时,水桶能盛的水会增加 4 倍,这点就和「直觉」不相符。

人类的局限之一还有就是解释能力,就是发现事物间的因果关系或者相关性并能够表达出来。即使我们能观察到许多现象,如果我们无法解释这些现象则还是无法从这些观察中获得知识。例如第谷虽然有大量观测数据,但终其一生没有找到一个能解释数据的正确模型。又如我们观察到人有语言能力而黑猩猩没有,但不知道为什么,仅仅是知道这个现象而已。

人类的表达能力只限于那些清晰而简单的关系,例如少数几个变量之间的关系,或者是在数学上可以解析表达的关系(「解析表达」的意思就是变量之间的关系可以用一组方程式表达出来)。当数据中的变量增大时,或当数据间的关系是高阶非线性时,绝大多数情况下这些关系无法用一组方程式描述。所以当数据无法被感受,它们之间的关系又无法用方程解析表达时,这些数据间的关系就掉入了人类感官和数学理解能力之外的暗知识大海。

暗知识

我们现在可以回答「一个人类无法理解的暗知识的表现形式是什么样的」,暗知识在今天的主要表现形式类似 AlphaGo Zero 里面的「神经网络」的全部参数。在第三章详细介绍神经网络之前,我们暂时把这个神经网络看成一个有许多旋钮的黑盒子。这个黑盒子可以接收信息,可以输出结果。黑盒子可以表达为一个一般的数学函数:Y=fw(X)。这里 Y 是输出结果,fw(X)是黑盒子本身,X 是输入信息,w 是参数集,就是那些旋钮,也就是暗知识。

注意,暗知识不是那些人类尚未发现但一经发现就可以理解的知识。比如牛顿虽然没有发现相对论,但如果爱因斯坦穿越时空回去给他讲,他是完全可以理解的。因为理解相对论用到的数学知识如微积分牛顿都有了。即使在微积分产生之前,如果爱因斯坦穿越 2 000 年给亚里士多德讲相对论,亚里士多德也能理解,至少能理解狭义相对论背后的物理直觉。但如果给亚里士多德讲量子力学他就不能理解,因为他的生活经验中既没有薛定谔的猫(用来比喻量子力学中的不确定性,一个封闭的盒子里的猫在盒子没打开时同时既是死的也是活的,一旦打开盒子看,猫就只能有一种状态,要么是死要么是活),他的数学水平也无法理解波动方程。那么我们可以说对亚里士多德来说,量子力学就是暗知识。量子力学因为没有经验基础,甚至和经验矛盾,在刚发现的初期,几乎所有的物理学家都大呼「不懂」,至今能够透彻理解的人也极少。甚至连爱因斯坦都不接受不确定性原理。

默知识

由于舌头翻卷速度严重受限,以神经元连接形式存在大脑中的人类知识只有极少一部分可以被表达出来。而绝大部分知识无法用语言表达,如骑马、打铁、骑自行车、琴棋书画,察言观色、待人接物、判断机会和危险等。这些知识由于无法记录,所以无法传播和积累,更无法被集中。英籍犹太裔科学家、哲学家波兰尼(Michael Polyani,1891—1976)称这些知识为「默会知识」或者「默知识」。波兰尼举了骑自行车的例子。如果你问每个骑自行车的人是怎么保持不倒的,回答会是「车往哪边倒,就往哪边打车把」。从物理学上可以知道,当朝一个方向打把时会产生一个相反方向的离心力让车子平衡。甚至可以精确计算出车把的转弯半径应该和速度的平方成反比。但哪个骑自行车的人能够知道骑车的速度呢?即使知道谁又能精确地把转弯半径控制在速度平方的反比呢?所有骑自行车的人都是凭身体的平衡感觉左一把右一把地曲折前进。世界上大概没有一个人学骑自行车是看手册学会的,事实上也没有这样的学习手册。大部分技能类的知识都类似。

默知识和明知识主要有以下四点区别:

(1)默知识无法用语言和文字描述,因此不容易传播,无法记录和积累,只能靠师傅带徒弟。像大量的传统工艺和技能,如果在一代人的时间里没人学习就会从历史上彻底消失。

(2)获取默知识只能靠亲身体验,传播只能靠人与人之间紧密的互动(你第一次骑自行车时你爸在后面扶着)。而这种互动的前提是相互信任(你不敢让陌生人教你骑自行车)。获得默知识必须有反馈回路(骑自行车摔了跤就是姿势错了,不摔跤就是姿势对了)。

(3)默知识散布在许多不同人的身上,无法集中,很难整合,要想使用整合的默知识需要一群人紧密协调互动。由于无法言传,所以协调极为困难(比如杂技叠罗汉)。

(4)默知识非常个人化。每个人对每件事的感觉都是不同的,由于无法表达,因而无法判断每个人感觉的东西是否相同。

基于对默知识的理解,奥地利经济学家哈耶克(Friedrich Hayek,1899—1992)论证了市场是最有效的资源配置形式。因为市场上的每个人都有自己不可表达的、精微的偏好和细腻的需求,而且没人能够精确完整地知道其他人的偏好和需求,也就是说供需双方实际上无法直接沟通。供需双方最简洁有效的沟通方式就是通过商品的价格。在自由买卖的前提下,市场中每个人只要根据价格信号就可以做出决定。价格可以自动达到一个能够反映供需双方偏好和需求的均衡点。一个价格数字,就把供需双方的无数不可表达的信息囊括其中。这种「沟通」何其简洁,这种「协调」何其有效,这种自发形成的秩序何其自洽。哈耶克根据同样的道理论证了国家或政府永远都无法集中这些不可表达的分散信息。

在机器学习大规模使用之前,人类对于默知识没有系统研究。但现在我们发现机器非常擅长学习默知识。这就给我们提出了三个严肃的问题。

(1)默知识在所有知识中占比有多大?

(2)默知识在人类社会和生活中有多大用处?

(3)如何使用默知识?

第一个问题的简单粗暴的回答是默知识的量远远大于可陈述的明知识。原因是事物的状态很多是难以观察的,更多是不可描述的。人类的描述能力非常有限,只限于表达能力极为有限的一维的语言文字。在所有已经产生的信息中,文字只占极少的比例,大量的信息以图片和视频方式呈现。人类现代每年产生的各种文字大约是 160TB。世界最大的美国国会图书馆有 2 000 万册书,几乎涵盖了人类有史以来能够保存下来的各种文字记录,就算每本书有 100 万字,这些书的总信息量也只有 20TB。而目前用户每分钟上传到 YouTube 的视频是 300 小时,每小时视频算 1GB,每年上传的量就是 157 680TB。如果把每个人手机里的视频都算上,那么视频信息是文字信息的上亿倍。今后这个比例还会不断加大。虽然这些视频或图片都是「信息」,还不是「知识」,但我们也可以想象从视频图片中能提取出的隐藏的相关性的量一定远远大于所有的文字知识。

有了第一个问题的答案,就容易回答第二个问题。很显然,用机器学习从视频和图片中萃取知识是人类认识世界的一个新突破,只要有办法把事物状态用图片或视频记录下来,就有可能从中萃取出知识来。如果视频和图片的信息量是文字的上亿倍,那么我们有理由期待从中萃取出的知识呈爆炸式增长,在社会和生活中起到关键甚至主导作用。人工智能通过观看大量人类历史上的影视作品,可以归纳提取出影视中的经典桥段,创作出新颖的配乐、台词和预告片,供人类借鉴或使用。2016 年,IBM(国际商业机器公司)的沃森系统为二十世纪福克斯电影公司的科幻电影《摩根》(Morgan)制作了预告片。IBM 的工程师们给沃森看了 100 部恐怖电影预告片,沃森对这些预告片进行了画面、声音、创作构成的分析,并标记上对应的情感。它甚至还分析了人物的语调和背景音乐,以便判断声音与情感的对应关系。在沃森完成学习后,工作人员又将完整的Morgan电影导入,沃森迅速挑出了其中 10 个场景组成了一段长达 6 分钟的预告片。在沃森的帮助下,制作预告片的时间由通常的 10 天到 1 个月,缩减到了短短的 24 个小时。同样道理,机器学习可以从海量的生态、生产和社会环境数据中萃取出大量的未曾发现的知识。

第三个问题最有意思。由于机器萃取出的知识是以神经网络参数集形式存在的,对人类来说仍然不可陈述,也很难在人类间传播。但是这些知识却非常容易在机器间传播。一台学会驾驶的汽车可以瞬间「教会」其他 100 万台汽车,只要把自己的参数集复制到其他机器即可。机器间的协同行动也变得非常容易,无非是用一组反馈信号不断地调整参加协同的每台机器的参数。

如果用一句话总结默知识和明知识的差别那就是波兰尼说的:We know more than we can tell(知道的远比能说出来的多)。明知识就像冰山浮出水面的一角,默知识就是水下巨大的冰山。这两类知识也包括那些尚未发现的知识,一旦发现,人类要么可以感受,例如第一个登上珠峰的人能感受到缺氧;要么从理性上可以理解,例如看懂一个新的数学定理的推导过程。