社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
新兴领域

【颜青山】深度“汉字屋”与通用人工智能的两难

 

基于大数据的深度学习技术正快速地应用于各个方面, 人工智能的产业前景已触手可及, 同时, 标志性的阿尔法狗 (Alpha Go) 事件则让文人们的伦理担忧再次跃然纸上。这一波人工智能的纸面热忱主要集中于技术前景设想、政策研究和伦理规范的讨论, 而早期感兴趣的哲学基础则鲜有问津。但哲学基础的讨论才是最终消除文人们伦理担忧的方式。

回溯早期哲学家对人工智能之为智能的批评, 主要来自三个方面:基于哥德尔不完备性定理的反驳、德雷弗斯的现象学反驳和塞尔的因果力反驳。这些讨论虽然取得了不小的进展, 但并没有澄清所有的问题, 甚至对某些关键问题也没有给出明晰的解决方案。哥德尔式反驳只是针对人工智能的某种研究方式 (如符号主义) , 其本身包含了一个两难:一方面, 它相信人工智能是一个逻辑一致的系统, 但会遇到完备性困难;另一方面它又要求, 人工智能要成为人的智能, 则不应该是这样的系统。问题是, 为什么人工智能系统非得如他们所相信的那样一致不可呢?事实上, 新式的人工智能就没有那么追求系统的一致性。

德雷弗斯基于存在主义的“在世存在”观念提出人工智能不可能是真正的智能, 因为人工智能缺乏人类智能形成的必要条件, 即自我意识从人与世界的互动中发展出来的“在世”过程。[1]与德雷弗斯以著作过于宏阔粗疏、喋喋不休相比, 多年后塞尔以一篇论文形式 (《心灵、大脑与程序》[2]) 做的反驳显得异常简单和明快, 他利用思想实验构造的“汉字屋”论证, 直击要害, 非常符合分析哲学的清晰风格。本文选择明晰的“汉字屋”论证为出发点, 试图更进一步明确其设计条件, 并表明身处其中的塞尔对汉语存在着某种程度不同于中国人的理解, 最终, 本文将导向对德雷弗斯方案的精确化。利用这一精确化的成果, 可以消除通用人工智能全面超越人的担忧, 即超级人工智能不可能是人类智能。

一、塞尔的“汉字屋”论证

塞尔论证直接针对的目标是尚克 (Roger C.Schank) 和阿贝森 (Robert P.Abelson) 基于“故事—问答”的“理解”程序。[3]在尚克看来, 当给出一段故事文本时, 安装了某种程序的计算机能够回答就故事内容提出的问题。这些问题的答案在文本中可能并不明确, 而是以推理的形式蕴含在故事中, 也就是说, 程序可以通过推论给出文本所没有的内容。这种问答非常类似于我们在语文测试时的阅读理解形式, 因此, 他们相信这样的程序是具有理解能力的。

塞尔反驳使用了一个叫作“汉字屋”的思想实验:假如塞尔本人只懂英语, 完全不懂汉语, 他被关在一个仅有小窗口与外界联系的屋子里, 屋子里有足够多的汉字符号和一本如何使用汉字符号的英文说明书。屋子外的人通过小窗口向塞尔递进写有汉语问题的纸条, 塞尔在那本英文说明书的指导下挑出汉字组成句子, 就可以给出回答纸条问题的合适答案。思想实验的核心问题是, “汉字屋”内的塞尔是否理解汉语?

假设这样的问答方式可以多轮次进行下去, 那么, 每次当塞尔把写有答案的纸条通过窗口递出屋子时, 在屋子外面的人看来, 塞尔回答了汉语问题, 因而是理解汉语的。然而问题是, 塞尔本人在这个过程中始终是不理解汉语的, 他甚至可能不知道自己处理的是汉语问答。如果我们把“汉字屋”系统类比于计算机程序, 汉语问答类比于任何阅读问答, 那么, 塞尔本人不能理解汉语, 就说明程序本身不能理解任何语言。塞尔论证说, 计算机程序只是一种依据定义而真的语法或语形结构, 程序没有语义结构。塞尔的最终结论是, 基于设计程序的人工智能不可能具有理解能力, 因此也没有真正的心灵。

在“汉字屋”论证中, 有两个原则是重要的:[4]第一, 语形 (syntax) 完全不同于且不足以产生语义 (semantic) ;第二, 心灵必须依赖于大脑及其神经系统的因果力 (causal power) 才能发生。应该说, 这两个前提之间并没有必然关联, 第一个成立不意味着第二个成立, 它们之间存在逻辑沟壑。第一个是否定性的, 针对的是推理程序驱动的人工智能;第二个是积极性的, 指明任何强人工智能研究都必须依赖于大脑及其神经系统之因果性。尽管如此, 这两个前提对塞尔的论证看上去却是足够的。存在理解活动是心灵的基本特征, 而理解的内容是语义的, 理解能力则是大脑的因果力, 它们构成了理解活动的充分必要条件;如果计算机及其程序不具备这两个方面的东西, 那么, 它就不具备理解能力, 从而也没有心灵。

就它们的充要性而言, 我们似乎可以提供自然语言学习的例子。自然语言中母语学习过程似乎表明, 足够复杂的语义学习, 就可以充分地产生语法或语形, 例如, 一个母语学习者 (从而是具备大脑因果力的) , 即使他从来没有学习过语法, 他的言语活动或行为也可以非常好地符合语法 (第三部分将以不同的方式考察这一点) 。相反的过程似乎在实际中难以出现, 不能让一个人仅仅学习语法就掌握一门语言, 更不能因此让他获得该语言的语义。

从不同人工智能研究方式来看, “汉字屋”论证貌似对符号主义的反驳特别有效, 而对联结主义和行动主义的反驳就没有那么强。但其实, 塞尔所列举的对“汉字屋”反驳的主要回应中就包括了三种人工智能研究方式和它们的联合形式:基于“汉字屋”整体系统的回应相当于符号主义模型, 因为它是对尚克程序的直接辩护, 而该程序可看作是符号主义的;机器人回应则可以看作是行动主义的方案, 强调了行动对智能的重要性;基于模拟大脑的回应则应属于联结主义的方案, 它强调了系统对大脑及其神经系统的模拟 (而不是因果复制)

塞尔的反驳对当时的强人工智能研究是致命的。所谓强人工智能, 就是通过程序和模拟开发出具有人类智能的人工智能。目前的人工智能则以弱人工智能研究为主, 弱人工智能研究不追求产生人类智能的机器, 而只是解决具体问题并形成实际用途 (如基于大数据的识别和诊断作业) , 弱人工智能解决问题的能力可以大大强于人类, 如下棋的能力。

既然目前的主流是弱人工智能, 我们似乎就有理由认为, 直到今天, 塞尔的反驳对人工智能的反驳依然有效。然而, 毕竟弱人工智能已经获得了极大的进步, 人们可能会问, 如果当今最先进的人工智能 (例如基于深度学习的人工智能) 依然不具备人的智能, 那么, 其原则上是否可以还原到“汉字屋”模型呢?如果不能还原到“汉字屋”, 那是否意味着这样的人工智能研究具有产生人类智能的前景呢?

上述第一个问题的答案基本上是肯定的, 深度学习就是联结主义的技术, 塞尔在论文中以极其简洁的方式做出了回应。即使深度学习引入了语义 (例如, 可以编写一本汉英字典) , 这些语义的引入是广泛收集了汉语和英语的翻译资料促成的, 是对人的智能成果的归纳整理, 而不是机器智能。这就相当于“汉字屋”的英文说明书是一个懂汉语的人编写的, 是他将汉语语义编入了英文说明书中, “汉字屋”里的塞尔如果由此获得语义理解, 也是来自说明书的编写者;这也相当于计算机程序员把语义结构引入程序, 但计算机本身并没有获得语义。由此, 第二个问题的答案是否定的。

第三个问题比较特别。似乎塞尔的论证并不成功, 但我们是否依然有改造“汉字屋”论证继续否定强人工智能的可能性?

除了塞尔本人在论文中列举的类型, “汉字屋”论证一直在经受着反驳, 大致是针对其两个基本立场的。[4]几乎所有对塞尔论证的反驳都试图表明, “汉字屋”实验因为在论证上是无效的, 所以在结论上也是无效的。然而, 在逻辑上, 还有其他两种情形:论证有效但结论无效, 论证无效而结论有效。

本文的目标是第三种情形, 即论证无效而结论有效。我们将承认, 现有人工智能技术进展原理上仍然可以还原到“汉字屋”结构, 只是因为塞尔论证的某个步骤无效而使得其论证失效, 不过, 我们依然可以通过改进“汉字屋”论证从其他方面来否定强人工智能的可能性, 并且得到与塞尔不同的结论。这种可能性与“汉字屋”本身的设计缺陷有关。

我们后面的论证将表明, “汉字屋”里的塞尔至少在某种程度上 (或部分地) 理解了汉语, 只不过是以不同于中国人理解汉语的方式获得了这些理解能力的。因为塞尔本人具有英语理解能力 (或者说, 具有理解能力) , 他完全可以将这种理解力通过研究汉语问答而迁移到汉语理解中;但是, 我们也将承认, 基于程序语言的计算机依然不具备理解能力, 因为它们甚至不能够理解英语。塞尔的失败只在于思想实验的类比部分, 他将他对汉语的理解能力类比于计算机的理解能力是成问题的。我们也将表明, 塞尔在“汉字屋”中获得的对汉语的部分理解能力基于其他必要条件———心灵通过对语义的操作, 或行为对大脑或神经肌肉系统 (因果力) 的部分可逆性塑造。这个过程不同于纯粹的语义理解, 比语义理解对心灵而言更为根本。

二、深度“汉字屋”与实践理解

在对塞尔论证的回应中, 有关于“理解”问题的深入讨论, 毕竟塞尔“汉字屋”论证只是诉诸直觉地谈论“理解”问题。不过, 这种讨论很容易陷入语词之争。而本文依然将诉诸思想实验所蕴含的直觉, 不过将展示的是“理解”的另一种直觉, 即对语形的“实践理解” (practical understanding)

丘奇兰夫妇是联结主义的倡导者, 他们曾经撰文反驳塞尔论证的第一个前提, 认为语形和语义的区分可能并不绝对, 而是一个开放的经验问题。[5]他们以“光照屋” (Luminous Room) 的思想实验表明, 语形和语义的关系问题或许像磁场变化与光之间的关系一样, 需要经验研究来证明它们是否相关, 也许未来的经验研究将表明语形和语义之间是相互关联的。塞尔后来给出的反驳是, 语形是与观察者相关的, 其本体论地位完全不同于磁场变化导致光 (电磁波) 的观察者中立, 它们不是经验关系。[6](P84)塞尔回应的意思是说, 语义与语形的关系不像磁场 (变化) 导致电磁波那样客观中立, 与使用者相关。

然而塞尔回应本身就可能承认了语义和语形之间没有明确的界限 (即不具有中立性) , 从而可以相互转化。至少有两类可能的证据表明这一点:

首先, 即使语形是先天的, 通过语形关系到达语义仍然是可能的。例如, 算术系统完全可以看作是一个基于定义的程序系统或语形系统, 但对于算术系统的创立者 (人类全体或数学家) 是存在语义的, 例如, 数是有含义的, 算术命题是有意义的, 人类完全可以理解它们。

其次, 如前面提到, 自然语言中语法或语形同语义可以是经验相关的, 一个学习母语的人可以从来不学习语法, 而在语言使用熟练化后自动地获得对语法的掌握。

诚然, 塞尔可以反驳说, 算术系统的语义性质是由于不完备性造成的。根据哥德尔不完备性定理, 算术系统作为一个逻辑一致的命题系统, 其中必然至少有一个命题是不可证明的, 这个命题的真理性只能依赖于人的直觉, 而直觉本身是语义学的, 因此, 算术系统的语义学是通过其不完备性引入的, 而其他命题的语义学特征都是由这个不可证命题的逻辑传递 (演绎推理) 派生出来的。

关于自然语言的语义足以充分导致语法的问题, 塞尔可以运用我们前面给出的说明加以反驳, 即语义足以充分地导致语形, 并不意味着语形足以导致语义, 而语义是理解的必要条件, 没有语义结构的系统不可能具有可理解性。更进一步地, 即使计算机程序中包含了语义结构, 也并不意味着这样的程序具有理解能力, 因为语义只是语言理解的必要条件而不是充分条件———还必须具备大脑因果力。

不过, 我们的目标并不是反对塞尔的全部论证, 我们只是要表明, “汉字屋”里的塞尔可以具备部分理解汉语的能力。对我们的论证而言, 人类对算术系统的理解能力已经足以支持我们的结论, 即使“汉字屋”里说明书是如算术系统那样的语形结构, 塞尔也可以具备理解它的能力, 因为人类能够理解算术系统, 并且, 如果合适地处理“汉字屋”系统, 即使塞尔无法理解汉语语义也可以理解汉语语法。

或许塞尔对语义的理解不同于我们对算术系统的理解说明, 根据他对因果性的自然主义理解, 他可能会诉诸一种语义外部论。在语义外部论看来, 一个语词有意义必然是有指称的, 而指称必然与语言之外的某个对象关联起来;一个依据定义的程序系统不可能与外部对象关联起来, 因此, 它是没有语义学结构的。

不过, 我们这里并不想纠缠于语义外部论和语义内部论的争论, 我们打算接受语义外部论作为我们改进“汉字屋”设计的基本准则, 即避免在“汉字屋”的英文说明书中引入基于外部指称的汉语语词翻译。

毋庸置疑, 塞尔设计“汉字屋”思想实验时做出的论证是漂亮的, 但这并不意味着其设计的所有条件都是足够清晰而没有歧义的。就我们的论证而言, 其中有两个细节是重要的:一个是“汉字屋”中的塞尔理解汉语的意愿, 它涉及语形对语义是否“充分”的问题;另一个是英文说明书的编写方式, 它涉及如何最大限度地保持其“语形”色彩的问题。

由于“汉字屋”论证的第一个要点涉及语形对语义是否具有充分性的问题, 我们必须对“汉字屋”条件下的这种“充分性”做出说明。所谓充分性, 要求考虑所有可能方式对汉语理解的作用, 因此, 就“汉字屋”里的塞尔这样一个主观性个体而言, 他对待理解汉语的态度就很重要, 例如, 塞尔是否愿意尝试各种方式通过汉语问答和英文说明书理解汉语。如果“汉字屋”里的塞尔本身就对理解汉语缺乏足够的兴趣和动机, 那么, 即使“汉字屋”逻辑上足以导致对汉语的理解 (例如, 将说明书写成汉英词典) , 塞尔本人可能还是不理解汉语。因此, 语形对语义的非“充分性”就意味着, 只有当塞尔在“汉字屋”条件下通过各种方式理解汉语的尝试都失败了之后, 我们才可以认定塞尔仅仅通过英文说明书和汉语问答无法理解汉语, 由此才可以说, 语形对语义是不充分的。因此, 我们这里将“汉字屋”思想实验提出的问题修改为:“汉字屋”中的塞尔是否能够学会汉语?“学会”比“理解”包含了更多的主动意味和态度。

“汉字屋”论证中最核心的东西是英文说明书, 但塞尔对它的描述并不足够清晰。塞尔只是提示道, 通过说明书我们可以拥有不同批次从窗口递进来的汉语文本中汉字之间的关系, 有时他把这种关系看作只是纯粹的位置关系, 即汉字在汉语句子中的排序。

编写说明书的人必定是懂汉语的, 但不同的编写方式将影响“汉字屋”中塞尔对汉语的理解尝试。有两种极端的编写方式, 一种是汉英字典, 完全是语义学的;另一方式是, 分别编写问题清单和答案清单, 用相同的数字表示它们的对应关系, 英文说明书只需要一句话:“根据问题清单中的数字找到答案清单的同一个数字后的汉语语句并抄下答案递出。”

很显然, 按照塞尔的论证和我们确立的“汉字屋”设计的语义外部论准则, 第一种编写方式是应该避免的。因为它是语义学的, 如果以这种方式去论证“汉字屋”中的塞尔可以理解汉语, 会陷入恶性循环。而第二种方式则会遇到一个麻烦, 即清单将无法完整编制。人类所有自然语言都有一个共同的特征, 就是文字的整体性和句子的组合性, , 文字是历史地确定的, 并且是有限的, 而句子则是根据语法由文字组合而成的, 这种组合数原则上是无限的。问题清单和答案清单既然是句子结构的, 那么它们就可能无限长。这将意味着清单是无法提供的。

因此, 一种好的编写说明书的方式应该最大限度地避免第一种方式, 而最大限度地接近第二种方式。

如果像前面假定的一样, 塞尔有通过问答和英文说明书学习汉语的强烈意愿, 那么, 塞尔将至少可以获得如下汉语语法知识, 逻辑连接词或逻辑常项 (包括系词) 的意义、语词的同义或反对关系、概念间的隶属关系。这些知识之所以属于语法知识, 是因为它们是分析性的或与分析相关的。诚然, 他可以知道“红色”“是”“颜色”, 但他不知道“颜色”这个词语本身的含义, 即使他接受中国人与他具有相同感知框架和事项范畴的先天综合假设, 他也有可能将“颜色”误解为“读物”, 而“红色”误解为“小说”。概念间的关系可能是语法知识中最重要的部分, 一组逻辑相关的概念将构成一个类型或范畴, 数目众多但有限, 虽然概念本身是具有语义的, 但只要不给出外部指称性含义, 其关系仍然是语法的或语形的。

既然塞尔可以获得这些语法知识, 他本身就可以根据充分的汉语脚本重新改编说明书。因此, 为了简单起见, 我们可以设想递进去的说明书本身就包含了上述语法知识。我们可以进一步设想, 为了让塞尔记忆方便, 可以把各种概念关系图示于屋子的墙壁上, 说明书则是许多组合不同的舞蹈动作指令, 例如, 舞蹈第一个动作代表特定概念关系的类型, 第二个动作表示概念关系的特定层级 (如“深红色”“红色”“颜色”就是三个层级) , 第三个动作表示逻辑常项, 等等。这样, 塞尔的每一套舞蹈动作组合就对应了一个问题的答案。

我们将塞尔回答问题的方式编制成舞蹈动作并不是出于恶作剧, 而是这种“操作”方式类似于语言的组合性, 所有语句都是语词根据语法的逻辑“演算”, 而演算就是符号的思维操作过程, 思维的操作完全可以类比于动作的操作。更重要的是, 我们在自然语言的母语学习过程中常常伴随着行动和动作演示。

在上述过程, 凭我们的理智直觉判断, 虽然塞尔依然不知道每个汉字的语义, 但是他能够通过操作过程理解汉语语法。这种理解可以类比于解决物理学问题时依据既有物理定律做出数学推导却不知道结果的物理意义, 即推导者不理解计算结果, 但却理解计算过程———其中英文说明 (是有语义的) 相当于既有物理定律, 而数学推导相当于舞蹈动作, 结果相当于汉语答案 (有语义但不被理解)

对这种理解方式, 可能存在如下两种认为塞尔其实完全理解汉语的积极回应方式。

第一种观点是, “汉字屋”里的塞尔是以“使用”的方式理解了汉语, 而不是以“提及”的方式理解汉语。按照斯特劳森的论证, 语言通过使用而提及指称, 使用是一个基于习惯和语境相关的过程, 当我们仅仅使用一个句子, 如“当今法国国王是秃头”时, 只要它符合语法, 就是有意义的, 从而是被理解了的;只有当我们将注意力转向该句子提及的事实时, 我们才会觉察到它的悖谬性。[0]因此, 我们似乎可以接受, 塞尔在汉语使用的意义上理解了汉语。

第二种观点是, 塞尔确立了一种关于汉语的新的语义学结构。如果把递进来的纸条上的问题看作符号和语词, 而递出纸条的答案看作指称, 那么, 在符号和指称之间就建立了一种联系。这种联系就是塞尔完成的舞蹈, 而舞蹈和答案一道构成了问题的“语义”, 从而, 塞尔以一种特别的方式理解了汉语。

但是, 这两种可能的观点都违背了我们承诺的语义外部论。就前者而言, 塞尔无论如何也不可能知道句子的指称 (事实) 是什么, 当他希望通过句子“提及”事实时, 他就会把每一个汉语句子都看作是没有对应事实的, 即都是悖谬的———但很显然, 汉语句子在提问者看来并不如此。第二种观点也不能给出语句的指称, 即使其有“意义”, 也是基于系统的内部指称, 与外部世界无关———况且, 这种问题-答案对应的语义学说明充其量是一个类比。

但由于“汉字屋”内的塞尔能够理解“舞蹈”形式, 因此, 无论如何, 我们都可以承认, “汉字屋”里的塞尔可以通过英文说明书和汉语问答方式, 以不同于中国人的方式理解汉语语法。

就此而言, 塞尔的“汉字屋”论证是失败的, 其错误在于假定了理解汉语和理解英语之间完全是不可通约的, 从而错误地将“汉字屋”里塞尔对汉语的理解类比于计算机对程序的理解 (即两者都无法理解) 。即使英文说明书和汉语问答相当于程序, 作为有理解力的塞尔本人也是可以理解程序的, 就像我们可以理解算术系统一样。但是, 从另一方面看, 因为计算机本身缺乏理解能力, 甚至不能够理解英文说明书, 所以计算机是不具有理解能力的, 也就是说, 塞尔的最终结论依然是可以接受的。不过, 塞尔试图通过“汉字屋”论证反驳强人工智能的企图是失败了, 因为他的目标是要论证计算机没有理解能力, 而我们只要接受其作为前提即可。

语法或语形理解是一种操作性理解, 如前文提到的, 我们可以称之为“实践理解” (我们在别的地方也称之为“实践知性”[0])

三、人类心灵的实践理解方式

对我们的论证的一个可能的反驳是, 既然“汉字屋”内的塞尔具有部分汉语理解能力, 那么, 计算机程序也就可以有部分理解能力。这种反驳其实是前文提到的反驳“汉字屋”论证的常用方式, 核心方式是承认塞尔类比的有效性, 即塞尔对汉语语法的理解可以类比于计算机对任何一种语言语法的理解。然而, 我们已经说明, 这个类比是不成立的。因为“汉字屋”内的塞尔本身具有理解能力, 而计算机程序却不具有———其语法理解力至少是需要论证的。

我们接下来的论证有两个要点:第一, 实践理解必须具有通过操作重塑大脑因果力的过程, 而计算机程序不具备这个能力。这一点直接否定了程序具有语法理解能力的可能性。第二, 仅仅凭语义能力不足以产生心灵, 实践理解才是心灵的最小充要条件, 从而心灵本身是不可复制的, 即塞尔主张的因果力复制不足以产生心灵。这一点将表明, 即使塞尔的论证成立, 单纯的语义理解对心灵智能仍然不具有充分性。我们的论证不仅反驳了已有的强人工智能方案, 而且也反驳了塞尔的方案。

要论证第一点, 必须充分了解实践理解的特征, 而这要求先从第二点出发。

塞尔根据第二个原则性立场认为, 真正的智能应该像人那样从进化过程产生出来, 而其思维内容必须是同大脑或神经系统具有因果关联的语义结构;如果强人工智能是可能的, 则必然是复制了大脑的因果力, 依赖程序采取模拟方式 (如联结主义对神经元的模拟) 的任何行为都不是真正的智能。

然而, 塞尔的这个结论是可以反驳的, 让我们考虑如下的思想实验。

一个从未学习过语言的幼儿显然是具有大脑因果力的。假设我们只教他一些有实指对象的单个语词的发音和书写, 但从来不教他完整的句子, 除了单词对应的指称也不再对其做出其他文字说明。这个幼儿显然具有某种程度的语义理解能力, 他知道所说或所写的单词的指称, 但是他可能无法理解那些无具体指称的语词, 例如虚词、逻辑连接词、范畴概念词———这些语词的语义必须依赖于其他文字的说明。又假设他的记忆力惊人, 能够记住一种语言的所有实词和相应指称。那么, 他会自动地获得这门语言的理解能力吗?很显然, 这是不可能的。因此, 即使我们将他的大脑和身体都精确地复制了, 他仍然不可能具备真正的心灵能力, 其所具备的初级心灵能力, 大概也只是动物或严重智障水平。

这个思想实验也说明, 我们前面提到的自然语言学习中, 语义直接产生语形的充分性是可疑的, 语形的理解必然依赖于语词之间的演算和操作实践。因此, 在自然语言学习中, 语义导致语形的情况确实是一个经验问题, 而不是先天决定的。

德雷弗斯开始反驳人工智能的符号主义时, 梳理出当时人工智能的四个主要假定并做出了精彩的反驳。然而, 他关于真正智能的积极说明却是模糊的, 仅仅只是图解了现象学尤其是存在主义的观点, 主张人作为“在世存在” (being-in-theworld) , 其心灵的发生是高度语境 (context) 关联的, 不可能以科学定律的方式客观地了解。[1]

虽然人工智能的主要假定是成问题的, 但却比德雷弗斯清晰, 因此, 我们倒不如先接受其主要假定, 然后从实践理解或现象学的角度, 看看它们中间缺失了什么。我们可以尝试预先接受其生物学假定和心理学假定, 即生物学上将大脑和心灵分别类比于计算机硬件和软件, 而心理学上的心灵活动基于离散符号或表征, 是以算法规则运行的离散计算。[9]

还是从语言出发, 从语言的组合性出发。前文已经提到, 语言单词是历史地、因果地固定的, 并且是有限的, 而句子则是组合性的、无限的, 由单词到句子的操作规则是语法或语形。如果我们暂时接受语言哲学关于思维即语言的观点 (或者接受一种认知进化的重演律:语言现象是认知进化的最高形态, 在发育中以微缩的方式重演了其他认知活动的进化过程) , 那么我们也可以将人类其他心灵活动暂时如此简化:认知单元、复合结构、操作规则 (或认知语法) 。这一点也符合人工智能心理学假设的离散化。

人类的心灵活动是一个经验问题, 于是, 我们有必要比较一下动物尤其是最接近我们人类的灵长类的心灵水平。虽然灵长类的心灵能力还不是足够清楚, 但也有相当多的研究, 其中一些证据已足以让我们做出富于洞见的假设。[10]让我们注意如下三个实验和田野事实:

第一, 松泽哲郎的研究表明, 黑猩猩对数字的瞬间记忆容量超过人类, 可以记住10~20个随机构造的数字顺序, 而人类的一般水平是7~9个。

第二, 成年黑猩猩在“教”幼年黑猩猩动作 (如用石块砸开坚果) , 从不关心其“学习”情况, 幼年黑猩猩通过反复模仿和试错之后便整个地获得了使用工具的能力。

第三, 黑猩猩能够识别假动作, 而人类儿童则不会。黑猩猩研究者完成了如下两个实验:首先, 由实验者演示三个必要的动作 (假定为ABC相继顺序) 获取透明玻璃箱子中的香蕉;结果是, 人类儿童和黑猩猩都会按照这个顺序获取香蕉。然后, 实验者修改机关, 使得只有BC对于获取香蕉是必要的, A是一个假动作;结果却是, 人类儿童依然按照ABC的顺序操作, 而黑猩猩则只做了BC

如果假定瞬时记忆量反映了认知单元的容量, 那么第一个实验表明, 黑猩猩的单元容量其实是大于成人的。这是黑猩猩适应环境能力强于人类的地方, 通常也被看作黑猩猩没有进化成为人类的原因———较强适应能力妨碍了它们运用组合 (语形) 的需要 (needs) 。对照人类的幼儿动作教学过程, 可以发现, 第二个事实表明, 黑猩猩“教学”过程中不需要像人类那样分解动作, 而是一次性地完成了整个动作。这再次说明黑猩猩的单元容量大于人类, 但同时也发现黑猩猩缺乏动作分解能力。而这种分解能力的差别在第三个实验中也有表现。人类儿童把每个动作都当作目标, 并分别关注三个动作, 然后将它们组合为一套动作 (典型的语法行为) , 这里既有目标的分层 (最终目标和分步目标) , 也有分步目标的组合。然而黑猩猩则是适应目标 (最终目标) 导向的, 它们可能是后退着尝试动作的, 先尝试离目标最近的一个动作, 如果失败, 再尝试次近的一个动作;因此, 它们只需要完成两个动作就可以达到目标 (获取香蕉) , 从而看上去能够“识别”假动作。第三个实验也说明了黑猩猩不能分解动作目标, 但适应环境的效率和能力都强于人类。

上述比较认知研究恰好表明动物缺乏认知语形能力, 如果“汉字屋”内关着一只黑猩猩, 那么它是无法完成全部汉语问答的, 即使它凭借其大容量的单元能力能够完成一些固定的“组合”动作———对它而言并不是真正的组合, 只是机械的记忆。因为黑猩猩可以学习单元动作, 我们相信它理解了单元动作。回到单元动作与单词的类比上, 我们可以认为黑猩猩具有语义理解能力。

回到复制心灵的思想实验上。如果幼儿的语义理解能力是可以复制的, 那么它只相当于黑猩猩的理解能力。由于缺乏语形或操作规则的理解能力, 他们不具备真正的智能。人类要具备真正的理解能力和心灵能力, 必须具有语形理解能力, 即我们所谓的实践理解能力。然而, 实践理解能力本身是一套身体化操作, 是不可能通过对大脑的生物学复制而获得的, 是必须经过训练才能获得的, 因此, 心灵本质上是不可复制的。

在实践操作的训练过程中发生了什么呢?如果一个幼儿永远只停留在幼儿的语义理解阶段, 从不做实践理解的训练, 那么, 当他生理上成年的时候, 他的智力将停留在幼儿水平。在实践理解的训练过程中, 当我们熟练化其操作时, 我们的理解活动通过神经肌肉系统塑造了大脑, 这是实践理解中发生的关键性事件, 即语形理解因果地塑造了大脑。这也是狼孩故事所表明的事实。

从现象学的角度看, 语义理解的成果是“感受质” (qualia) 现象, 例如各种具体的颜色、声音等感知现象, 而语形理解的成果则是“领受额”或“领受度” (quanta) [11]

从可意识性看, 实践理解是半透明的, 而语义理解是透明的。所谓半透明, 就是当我们处于完全熟练的状态时, 我们可以不用意识到其操作过程, 但通过审慎的反思可以部分描述;而语义的透明理解则是我们完全可明晰意识到语词与指称的对应关系。

了解了实践理解的特征, 解决第一个论点就非常简单了。如果人类大脑-心灵可与计算机硬件-软件类比, 那么, 实践理解要求的是, 计算机软件的运行可以因果地重塑硬件。从这一点看来, 我们看不出基于程序的计算机过程如何做到这一点。也许人们会强调说, 联结主义对大脑的模拟就做到了这一点, 而且, 深度学习的过程像语形理解一样, 是不透明的。确实, 深度理解对神经网络的模拟在中间层级是可塑的, 也是不透明的, 例如借助贝叶斯分布对中间层级神经网络结构所做的权值调整就是这样。但是, 深度学习的不透明性乃是基于规则的复杂性和概率的不确定性, 而不是熟练“使用”意义上的不透明性。更重要的是, 模拟的神经网络在计算机中只是软件结构, 无论其如何调整都是软件内部的调整 (就像我们知识结构的变化) , 它并没有塑造计算机本身的硬件结构 (而我们的知识结构变化是可以塑造大脑的)

四、通用人工智能的两难

基于实践理解的智能反对大脑因果力复制对心灵的充分性。塞尔的维护者可能会辩护说, 如果塞尔将大脑因果力看作心灵的必要条件而不是充分条件, 就可以避免这样的困难, 毕竟实践理解对大脑的因果塑造也要求大脑因果力的存在。

有趣的是, 塞尔的批评者沃菲德 (Ted Warfield) 就是从另一个方向强调心灵最小必要条件来反对塞尔的。沃菲德认为, 塞尔关于“大脑全部因果力就是产生心灵的充分必要条件”的立场过强, 应该主张一种关于心灵的最小必要条件, 而如果机器人具备那样的最小因果力也可能产生心灵。[12]但是, 这种最小必要条件的主张逻辑上是没有意义的。例如, “张三是男人”的必要条件可以是“张三是人”, 也可以是“张三是生物”, 还可以是其他更弱的事实命题。作为必要条件, 无疑后者比前者更弱, 但对说明张三是男人这个事实没有什么价值。因此, 主张大脑因果力作为心灵必要条件的主张对于心灵的说明没有什么价值。对心灵的一个好的说明应该提供最小的充要条件, 而实践理解就是最小的充要条件。

对心灵的充要条件说明可能引发乞题 (beg the question) 的指责。实践理解能力是以人的智能作为样板的, 因为人的实践理解事实上产生了心灵, 因此, 人的实践理解就是心灵的充要条件。这样似乎就排除了心灵可以以其他方式形成的可能性, 从而, 对心灵条件的说明本身就包含在如此这般的心灵已经存在的事实中了。

这种反驳没有注意到我们揭示的只是心灵的最小充要条件而不是全部条件。诚然, 一个无法避免的问题是, 目前世界上只有人类才具有真正意义上的心灵, 因此, 任何对心灵的有价值的说明都必须参考人的心灵样式。如果我们不这样做, 就可能陷入语词之争, 事实上, 当年图灵为了避免关于思维的语词之争, 就假定人是能够思考的, 然后考察计算机与人的行为能否区分。[13]

更重要的是, 避免乞题嫌疑的最小充要条件主张并不否定可以有人类之外的心灵, 例如, 我们可以如塞尔和德雷弗斯那样, 并不反对可以以人工方式“制造”出有心灵的机体, 只是这种心灵机体必须具备实践理解能力, 并且这种理解方式能够因果地塑造机体本身。这种主张具体化了德雷弗斯的方案。

笔者曾经设想的图灵机动物最有可能产生出具有实践理解力的心灵来, [0]这个模型类似最近马斯克等提出的大脑芯片嵌入。图灵机动物程序部分的工作是扫描大脑的神经电位成像 (例如表征“金丝雀”) , 并激起另一个脑区形成逻辑相关的语词图像 (例如表征“鸟”) , 通过这个过程, 使得图灵机动物形成关于语法的实践理解。或者先分别让动物完成两个逻辑相关的动作, 并记录各自脑区的活动, 然后, 当第一个动作出现时, 刺激第二个动作的脑区, 使得它们关联起来。其中最大的困难是, 动物有可能不具备形成上位概念的能力, 因为其中包含了语法的因素, 因此, 我们只能以其他具体概念图像替代上位概念。当然, 这种研究所产生的严重的伦理问题是必须预先讨论的。

如果实践理解是心灵的最小充要条件, 那么, 根据实践理解的其他特征, 我们将可以论证, 任何通用人工智能都会面临一个两难困境:如果通用人工智能是心灵智能, 那么它不可能全面超越人类智能;如果通用人工智能全面超越人类智能即所谓超级人工智能, 那么它不可能是心灵智能。

所谓通用人工智能 (general AI) 是区别于当前的专用人工智能 (special AI) , 专用人工智能只能解决某方面的具体问题, 例如识别和诊断问题, 但它还不像人那样可以在各个方面具有智能。为了获得通用人工智能, 我们似乎可以做出如下推理:既然我们可以制造出解决具体问题的人工智能, 如果我们把这些智能组合到一个人工智能体上, 它就可以形成全面智能的通用人工智能———当然, 通用人工智能的倡导者并不主张通用人工智能以这种简单组合方式构造出来, 而是希望有一个整体的程序或机制来实现这些功能。进一步地, 由于每个方面的专用人工智能的能力都可以超出人类水平, 那么通用人工智能可望全面超过人类智能。这就是波斯特罗姆 (Nick Bostrom) 提出的超级智能 (super intelligence) 。那么, 超级智能可能是一种心灵智能吗?这个问题对伦理学家来说非常重要:如果是, 我们就得将它当作人来看待;如果不是, 不管其能力如何强大, 我们都只把它当作手段。

要得到上述关于通用人工智能的两难结论, 我们需要考察实践理解的两种方式。由于实践理解是语形相关的, 需要组合规则介入, 通常, 我们是根据既有规则学习操作, 然后在反复训练之后熟练化。但在自然学习 (如母语学习) 过程中, 我们可能并不明确知道组合规则 (语法) , 而是在语义理解时通过试错来把握语形的, 一旦把握即是熟练化的, 可以从来都不明确意识到这些规则。我们将那种依据明确规则的操作性理解———在自然学习中是试错———称为“尝试理解”, 而将那种熟练化之后的理解称为“完全理解”。显然, 实践理解通过神经肌肉系统塑造大脑因果力的过程主要发生在完全理解状态。

实践理解的两种方式实际上就是神经生物学和认知科学普遍接受的“双加工” (dual process) 过程, “双加工”理论认为, 存在两个认知过程, 自发的、快速的反应和推论的、延时的反应。实践理解的尝试理解是推论性的, 而完全理解则是自发性的。不同的地方在于, “双加工”理论没有强调两者之间的转化关系, 而实践理解则强调两者是可以相互转化的。

如果我们把身体及其意向功能看作意向方式, 而心理学内容看作意向内容, 那么, 实践理解两种状态的转化实际上相对化了两者之间的关系, 即意向内容可以塑造意向方式。完全理解由于因果地塑造身体 (尤其是大脑) , 实际上就是一种意向方式, 而尝试理解的语义内容则是其内容。在我们的实际生活中, 这种相互转化是广泛存在的, 例如“看”这种意向方式是身体的一种功能, 对于艺术审美而言, 入门者的“看”和专业级别的“看”是不一样的, 因为后者长期的意向内容训练已经改造了“看”的方式, 从而, 两者面对相同的“被看”对象时将会得到不同的“所看”内容———这特别符合德雷弗斯对梅洛·庞蒂知觉现象学的运用。

由此, 我们可以发现, 人工智能心理学假设所主张的心灵活动离散计算只适应于推论阶段的理解活动, 而不适应于自发阶段的理解, 而完全理解恰恰是心灵活动的关键部分。

那么, 上述关于实践理解的特征为何会导致通用人工智能的两难呢?

首先, 我们就人类智能提出一个基于想象性事例的问题:是否存在一个人类成员, 它在所有能力方面都超越所有其他成员?例如, 他同时是长跑冠军、围棋冠军、奥数冠军、最好的钢琴家和小提琴手, 等等;在凡是我们能够想到的每个方面的能力方面, 他都是最好的。很显然, 人类中不可能存在这样的个体, 因为人类所获得的每项超过一般水平的能力都必须通过规律性训练维持, 而训练需要时间, 就我们现有的各方面的能力而言, 如果每个方面都超越常人, 时间是不够的。

实践理解由尝试状态转化为熟练状态需要训练时间, 这是所有智能都具备的。就基于神经系统的智能而言, 人类或动物最基础的非反射类型是非常有限的 (如食物反射、性反射和安全反射) , 而在此基础上形成的条件反射和智能活动虽然可以多样化, 但必须规律性训练, 否则就会退化或消失。这是一种进化上的折中, 过多的基础反射类型会极大地增加神经系统的复杂性以致身体难以承受或过于臃肿。同时, 如果条件反射不会消失或退化, 那么, 当一个环境具备激发所有条件反射的刺激因素时, 则所有条件反射都将被自发地启动, 其结果将使得主体处于严重的无序行为中。这种无序化显然不可能是智能的。因此, 实践理解的完全状态必定是可逆的。

为什么要参照人类智能来看人工智能呢?这是因为智能的特征问题是一个开放的经验问题, 我们只能参照已有心灵的核心特征来考虑人工智能的心灵可能性。

也许, 有人会反驳说, 人类智能可以全面超越黑猩猩的智能, 那么是否可以设想通用的强人工智能也可以在各个方面超越人类呢?答案当然是否定的, 因为人类智能并没有全面超越黑猩猩, 例如在认知单元上人类恰恰弱于黑猩猩。

最后, 既然超级智能不可能是人类的智能, 如果它出现了, 我们可以将其仅仅看作手段。这将告慰那些过度担忧伦理问题的文人们。至于超级智能作为工具可能引起的其他伦理问题, 我们完全可以参照对待其他工具的方式处理。

【参考文献】

[1] Dreyfus, H.. What Computer Can’t Do:a critique to artificial reason[M]. New York:Haper&Row Publisher, 1972.

[2] Searle, J. R.. Minds, Brain and Programs[J]. Behavioral and Brain Science, 1986, 3 (3) .

[3] Schank, R. C., R. P. Abelson. Scripts, Plans, Goals and Understanding:An inquiry into Human knowledge Structures[M]. Hillsdale (New Jersey) :Lawrence Erlbaum Associate Publishers, 1977, pp.36-68.

[4]王佳.对塞尔“中文屋”两种论证形式的考察[J].科学技术哲学研究, 2010, (5) .

[5] Churchland, P. M., P. S. Churchland. Could A Machine Think?[J]. Scientific American, 1990, 262 (4) .

[6]塞尔.心灵的再发现[M].王巍, .北京:中国人民大学出版社, 2005.

[7]斯特劳森.论指称[A].马蒂尼奇.语言哲学[C].牟博, 杨音莱, 韩林合, , .北京:商务印书馆, 1998.

[8]颜青山.价值道义论的基础[M].上海:上海人民出版社, 2015.

[9]颜青山.分析哲学与现象学融合的三条路径[J].云梦学刊, 2018, (5) .

[10]Matsuzawa, T., M. Tomonaga, M. Tanaka. Cognitive Development in Chimpanzees[M]. Tokyo:Springer Publishers, 2006.

[11]颜青山.论言语德性[J].社会科学, 2015, (10) :103-113.

[12]Warfield, T. A.. Searle’s Causal Power[J]. Analysis, 1999, 59 (1) .

[13] Turing, A.. Computing Machine and Intelligence[J]. Mind, 1950, 59 (236) .

(原載《上海师范大学学报》 201805)