社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
新兴领域

【克劳斯•迈因策尔】人工智能与机器学习:算法基础和哲学观点

 

一、什么是人工智能?

人工智能(AI)在很多人不知情的情况下统治我们的生活很久了。与我们说话的智能手机、记录我们健康数据的手表、自动安排的工作程序、自动驾驶的汽车和飞机、有自主逻辑的交通和能量系统,以及探测远方星球的机器人,都是连接成网的智能系统世界的例证。它们向我们展示了人们的日常生活是如何受到人工智能功能影响的。

艾伦•麦席森•图灵(1912-1954)在后来以其姓命名的测试中定义一个系统是否具有智能性的判断校准为:如果该系统的回答和反应与人类的无法区别时,则该系统是智能的。①这个定义的不足之处是用人类作为测试标准。很多生物体也是智能系统的范例,它们和人类一样,在进化中出现并能够或多或少地、独立有效地解决问题。有时自然是技术发展的模板。但是信息科学和工程技术科学也经常会找到一些与自然界不同甚至更好、更高效的解决问题的方法。所以,图灵所定义的智能并不严谨,智能应是指通过技术或自然系统有效而自动地解决问题的程度或者等级。因此,笔者为一个系统的智能性提出一个暂时的工作概念,如果一个系统能独立而有效地解决问题,则它就是智能的。②一个系统的智能度由系统的独立性程度、问题的复杂程度以及解决问题过程的效率大小决定:智能度我们能够测量。据此,动物(和人类)的意识和感觉对于智能来说并非必需的。

二、从图灵到符号主义人工智能和自动证明

1956年,受到图灵“机器会思考吗”这一问题的启发,约翰•麦卡锡(John McCarthy)、艾伦•纽厄尔(Allen Newell)、赫伯特•西蒙(Herbert Simon)等多位权威研究人员出席了在达特茅斯举行的有关机器智能的会议。人工智能研究的第一阶段至少在于形式逻辑中探求解决问题的通用方法上取得了成就。为了证明公式的逻辑上的普遍适用性,设计了一种机械的处理方法。这种处理方法可以被计算机程序执行,也将自动定理证明引入了计算机科学。

在实践中论证一个逻辑推论的普遍适用性可能会非常复杂。因此,1965年鲁滨逊(J.A.Robinson)提出了所谓的归结方法,借此能够推导出逻辑驳议过程的证明。③人们从对立的猜测(否定),即逻辑推论不具有普遍适用性开始;接着证明这一假设的所有可能的应用实例都将导致自相矛盾的结果。否定之否定和逻辑推论的否定是普遍有效的。鲁滨逊的归结方法使用了逻辑化简法,据此人们可以将所有逻辑公式转换成合取范式。在命题逻辑中一个合取范式由可以否定的和不可否定的命题变量(字符串)组成,这些变量由合取()和析取()符号连接起来。一个常规公式的组成元素被称为子句。

对于谓词逻辑的公式来说,也有一个通用的归结过程,以便再次从一个公式的一般无效假设推导出矛盾。为此,一个谓词逻辑的公式必须被变换为一个常规形式,从它的子句中可以机械地推断出矛盾。但是,因为在谓词逻辑中(不同于命题逻辑)一般不能判断一个公式的普遍适用性,所以,有可能发生归结过程无法结束的情况。计算机程序就这样无限制地运行下去。因此,重要的是找到一些子类,其中的过程不仅有效而且能够结束。机器智能提高并加速决定过程的效率,但机器智能像人类智能一样受制于逻辑决定性的原则界限。

在逻辑学和数学中,公式(也是字符串)是一步步被推导出来的,直到完成一个命题的论证。计算机程序的运行归根结底就像论证。程序根据确定的规则一步步推导出字符串,直到找到一个解决问题答案的形式表达。类似地,我们想象流水线上某个工件的组装过程,相应的计算机程序规定了预设的零件如何一步步地根据规则组装成这个工件。一个顾客想从一个计算机科学研究者那里得到一个能解决这样问题的程序,在一个非常复杂又不清晰的生产过程中,顾客一定想先得到这个程序能正确运行的证据。可能发生的错误是危险的,也可能带来巨大的额外费用。计算机科学研究者依据一种软件,这种软件可以自动从问题的形式特征中提取出证据。就像被投入到“数据挖掘”中寻找数据或者数据相关性的软件一样,相应的软件也被投入到证据的自动寻找中。

这就产生了一个问题,软件自动提取证据是否可靠。在一个准确地预先确定的框架内,能够对以此为基础的软件进行可靠性论证,顾客就能确定这个计算机程序是否能够正确工作以解决问题。这种“自动证明”不仅对现代软件技术有巨大的影响,④还导致了深刻的哲学问题,即数学的思维可以被自动化到什么程度。⑤但是,这种软件的正确性论证却是由一个数学家进行的。如果我们想要使这种证明自动化,一个基本的认识论的问题就产生了:这是否将我们引入一个回归,它的终点是人类(必须是人类)?

三、从一般问题解决器到专家系统

人工智能研究的第一阶段大约在20世纪50年代中期到60年代中期,仍被欣快的期待所刺激着。⑥人们应用计算机来设计通用问题解决方法,但是实践的结果令人非常失望。大约在20世纪70年代中期到80年代中期,以知识为基础的专家系统进入人们视野,这是人工智能的第一次实际应用。有限而明确的人类专家的专业知识,比如工程和医学等领域的专业知识被写进专家系统,应用到日常生活领域。⑦

以知识为基础的专家系统作为一种人工智能程序,储存相关领域的知识并根据这些知识自动进行推理,以便找出正确答案或者提供某些情形下的诊断。⑧专家系统与人类专家的不同之处在于,专家系统的知识被限制在专门的信息基础里,没有结构化的、关于世界的常识性知识。要建造一个专家系统,必须首先将专家的知识用规则表达出来,然后翻译成程序语言,并用问题解决策略进行处理。

四、人工智能与自然语言:魏泽鲍姆的ELIZA

以上策略同样适用于用计算机实现基于自然语言的交流。约瑟夫•魏泽鲍姆(Joseph Weizenbaum)设计的语言程序ELIZA就是一个例子。⑨ELIZA模拟人类专家中的女精神病医师与病人聊天。该程序涉及一些规则,指挥一个“女精神病医师”用怎样的句子模板对病人的某些特定的句子模板做出反应,基本上是根据各种情况对规则进行识别和分类。最简单的情况是确定两个符号结构的等价性,就像它们在符号编程语言LISP中被函数EQUAL确定一样。如果常量和变量被包含在符号表达式中,⑩则出现一些扩展。比如:

(xBC)

(ABy)

这两个项相互匹配,因为变量x和原子A、变量y和原子C互相对应。通过引入变量可以使一个模板的结构通过模式比较被识别。

为此,可以在LISP编程语言中定义一个特殊的运算符MATCH。一个数据和一个结构对应的最简单的情况是常量的相等性,比如列表ABAB的相等性:

(MATCH(AB)(AB))=T

符号“‘”表示后面的列表不是函数定义,而是应当理解为符号的排列。

为了实现分类,可以使用各种各样的生成符号,就像逻辑学或数论中的变量那样。比如可以用符号“?”来引导出任何对象:

(MATCH(?B)(AB))=T

(MATCH(?B)((AB)B))=T

这个结构将每一个包含两个子列AB的列表与其中的第二个列表B匹配。

生成符号“*”表示任意多个符号构成的字符串(包括空串)。比如:

(MATCH(*B)(B))=T

(MATCH(*B)(ABCB))=T

这样给出的结构表示与所有在尾部包含B的列表相匹配。

以上结构就可以说明ELIZA系统的本质算法结构,它反映了“精神病医师”的知识库内容。请看病人PELIZA(简称E)之间的对话:

PMEN ARE ALL ALIKE.(男人们全都一样。)

EIN WHAT WAY?(在哪些方面?)

PTHEYRE ALWAYS BUGGING US ABOUT SOMETHING OR OTHER.(他们总找借口躲避我们。)

ECAN YOU THINK OF A SPECIFIC EXAMPLE?(你能举个例子吗?)

PWELLMY BOYFRIEND MADE ME COME HERE.(好吧,我的男朋友要我到你这里来。)

EYOUR BOYFRIEND MADE YOU COME HERE.(你的男朋友要你到我这里来。)

PYESI AM VERY SAD.(是的,我很伤心。)

EYOU ARE VERY SAD.(你很伤心。)

PSAD AND DEPRESSED.(伤心而沮丧。)

EPLEASE GO ON.(请继续。)

下列规则可以推导出ELIZA的回答,因为它们可以识别病人和ELIZA使用的某些特定的句子模式:

 

第二个规则规定:当在句子中存在ARE这个关键词,而在其左右的内容为任意时,用“INWHAT WAY”作为回答。在句子“MEN ARE ALLALIKE”中,ARE前的*是“MEN”,ARE后的是“ALL ALIKE”。

第四个规则是:当病人的句子中单词MYME通过列表*B被分开,并以列表*C结束时,ELIZA的回答首先由YOUC部分(CONSYOU C)构成,然后使用B部分,最后是YOUR

一段用户与ELIZA之间的对话,与我们所举的编程语言LISP中的句法符号列表没什么不同。在语义学上要尽量使用与日常聊天习惯相符的结构。

最后一个规则是典型的随机响应,就像我们在日常聊天中经常遇到的一样:如果专家无法识别一个任意的符号列表(*L),他就说“请继续(PLEASE GO ON)”。

五、从ELIZAWATSON系统

自约瑟夫•魏泽鲍姆的ELIZA之后,以模式识别为基础的文本比较方法被人们熟知。现在的软件将句子拆分成单独的短语进行分析,迅速计算出对于提出的问题合适的答案模式或者在另一种语言中找出合适的翻译。1993-2000年间由德国人工智能研究中心(DFKI)研发的VERBMOBIL(11)就是一个高效的翻译程序。

人类的语言处理过程包括不同的层次。技术也在这些层次上得到实现。在计算语言学中,(12)这种处理方式被称作管道模型,从声音信息出发到文本形式,相应的字母字符串被概括为单词和句子。形态分析要得到单词的词根。基于乔姆斯基语法体系的语法学分析要得到句子的语法组成单元,比如主语、表语、宾语等。语义分析则关注句子的含义。(13)最后,对话和话语分析则研究文本包含的问题与答案、目的、企图、意图等。高效的技术解决方案并不需要经过这个管道模型的所有阶段。当今强大的计算能力以及机器学习和搜索算法可以用于各个层次的语言分析中。人类的语法分析过程通常与意识相关,而这并非必要的。

IBM公司研制的WATSON系统是一个语义层面上的自动问答系统。(14)它基于并行计算机的强大计算能力和维基(Wikipedia)网站所存储的海量知识,综合应用了语言算法、专家系统、搜索算法、大数据处理等多种技术。与ELIZA不同,WATSON理解某些背景知识和语言的语义,能够理解自然语言的提问,并快速在海量知识库中找到相应的知识和回答。WATSON一方面是IBM公司发明的认知工具平台,另一方面也意味着在经济和企业界的广泛应用可能。按照摩尔定律,WATSON的功能在可以预计的时期内不再需要超级计算机了。一部智能手机上的一个App应用就可以具备这样的功能。不必通过键盘输入来完成这样的操作,而是通过智能语音程序就可以实现自然语言进行的对话。对话中所包含的人类情感也能够被程序识别,就像魏泽鲍姆早就担心的那样。(15)

2013年斯派克•琼斯(Spike Jonze)摄制的美国科幻片《她》(her)描绘了一个内向而害羞的男人爱上了一个语言程序。他的职业是给那些难以向别人解释他们感受的人写信。为了减轻工作负担,他得到了一个新的操作系统,该系统配备了女性身份和愉快的声音。使用头戴式耳机和摄像头,他与这个自称为萨曼莎(Samantha)的系统交流。萨曼莎很快就学会了社交互动,并表现得越来越人性化。在频繁而长期的对话中,亲密的情感关系得以发展。

智能写作程序(或称“写作机器人”)不仅被媒体和新闻业用于处理常规文本,比如商业新闻、体育报道或小报消息,同样可以应用在行政管理或法律领域的常规文本写作中。我们也将体验到在科研领域中使用智能写作程序。在医学、技术和自然科学领域专业刊物上的论文出版量已经变得如此巨大,以至于各个专业研究领域的专家都没有时间详细阅读这些文章。研究结果必须以极快的速度出版才具有竞争力。完全可以想象,将来科学家只需要在某个论文结构中输入数据、参数和结果,智能系统就能按照其写作风格写出一篇规范的论文。

写作机器人在金融行业也应用得越来越普遍。可以在几秒钟内生成多个原来靠人类专家才能完成的报告,比如公司简介。可以提示客户、基金经理采用何种策略投资股票市场以及基金如何发展。保险公司使用智能写作程序来衡量销售业绩并提出改进建议。自动创建的文本可以确认客户的投资策略是否能够取得成功。自动编写程序提供的支持还可以为客户提供更多的个人建议。人力投资顾问并没有被取代,但数字产品的发展速度与IT工具的指数增长一样迅速。

六、神经网络和机器

生物体的自组织大脑则与可编程计算机不同。(16)在演化进程中,网络最开始以复杂基因及蛋白质网络中的亚细胞供应、控制和信息系统的身份出现。(17)基于神经化学信号处理功能的神经细胞的信息、控制和供应系统不断进化。蚂蚁种群的发展就像人类大脑和人类社会的网络物理系统一样。

根据我们的工作定义,如果一个系统能够独立而有效地解决某种问题,那么这个系统就是智能的。传统上我们把在进化过程中发展起来的自然系统和在技术上引入的技术(“人工”)系统区分开来。智能度取决于数学复杂性理论中可以测量的问题的复杂性。

自然进化中产生的有效解决问题的方法并没有通过计算机模型中的符号方法进行表示。亚细胞、细胞和神经元自组装产生适当的复杂网络。神经元由图形网络的节点表示,触连接由图形网络的连线表示。(18)神经化学连接的强度由连接权重来表示。学习在神经元的开关模式建构过程中产生,受到神经网络的学习算法指导。强烈的突触耦合产生了神经元的开关模式,与一个生物体的大脑情感或者肢体动作状态相适应。这个过程也可以通过计算机模型来模拟,这种模拟基于神经网络、自动机与计算机之间的基本的数学等价性。已经得到证明,一个McCulloch-Pitts网络可以通过一个能够终止的自动机模拟。(19)可终止的自动机包括一些简单的系统,比如火车站的自动购票机,它能够识别一些简单的指令语言代码。(20)反过来,一个可终止的自动机的功能也可以由一个McCulloch-Pitts网络来实现。数学上,这样的网络可以通过实数加权。也可以这样说,一个由McCulloch-Pitts网络类型的神经网络系统构成的生物体,只能解决具有这种复杂性的问题,即能够被一个可终止的自动机解决的问题。在这个意义上说,一个这样的生物体的智能与一个可终止的自动机的智能是同等程度的。

不过哪些神经网络相当于图灵机,也就是相当于根据丘奇(Church)论题可以编程控制的计算机呢?这些机器和神经网络可以识别哪些语言呢?这些语言涉及某些自然语言,它们可以通过乔姆斯基语法体系推导出来,也就是可以递归地建构起来。可以证明,图灵机依据这种语言识别功能能精确地模拟那些突触权重为有理数且有反馈环的神经网络。反过来说,图灵机可以被具有突触权重为有理数的识别递归语言的神经网络精确地模拟出来。(21)

如果我们把图灵机作为程序控制计算机的原型,那么根据这个证明,一个具有有限的突触强度的大脑可以被一个计算机模拟。相反,一个图灵机(即一个计算机)的工作过程可以被一个具有有限的突触强度大小的大脑追踪。换句话说,这种大脑的智能度对应于图灵机的智能度。

这样的神经网络原则上可以在适当的计算机上模拟。事实上实际应用(例如模式识别)的大部分神经网络仍然是在数字计算机(例如诺伊曼机器)上模拟实现的。只有神经形态的计算机才能直接构建神经元网络。

但是,如果神经网络的突触权重不仅允许是有理数(即大小有限的数字,例如2.3715,其中小数点位数有限),而且还可以使用任意实数(即小数无限多的小数点,例如2.3715……这也是不可计算的)的话,将导致怎样的结果呢?从技术上讲,这样的网络不仅可以执行数字计算,而且可以进行模拟计算。

在信号理论中,模拟信号被理解为具有连续且不间断的过程的信号。在数学上,模拟信号被定义为无限可微分的连续的平滑函数。显然,这样一个函数的图形没有不可微分的拐角和断点。因此一个模拟信号形式的物理量的时间连续过程可以被描述出来。模拟-数字转换器将时间连续的输入信号离散成单独的离散样本。

事实上,在一个自然的有机体中,许多过程可以被认为是模拟的。因此,视觉信号处理可以通过触发传感器的连续电磁场来描述。听觉的声学也是基于稳定的声波的。触觉上,皮肤传感器也能提供稳定连续而不是数字化的感觉。现在有人会争辩说,在有限的物理世界中的测量值是有限的,因此原则上是可数字化的。然而对于人工智能具有非常重要意义的是模拟性的神经网络的理论结果。(22)在数学上,如果拥有关于实数的数学理论,突触权重为任意实数的模拟神经网络也可以被明确地定义出来。(23)核心问题是模拟神经网络是否可以比具有有理数的神经网络且因此比图灵机或数字计算机做得“更多”。这可能是人工智能辩论中的一个中心论点,也就是说,具有实数的数学比仅具有比特数的计算机科学可以做得“更多”。(24)

自动机和机器的核心特征是对形式语言的认识和理解。如果一个自动机经过有限多的步骤之后进入一个可以接受的状态并终止了,它就将一个读入的单词识别为某种形式的符号序列。(25)自动机可以接受的语言仅包含可被它识别的词汇。可以证明,有限状态自动机正是可以识别规则语言的简单符号序列。上下文无关语言使用的规则推导出的符号与背景符号无关,它们被更强大的具有特殊存储结构的自动机识别。递归可枚举语言非常复杂,只能被图灵机识别。

具有有理数突触权重的神经网络(以及图灵机)也可以识别递归可枚举的语言。这可以是生物体的自然神经元系统,也可以是符合具有有理数突触权重的递归神经网络的规律的人造神经形态计算机。现在可以证明:模拟的神经网络(具有实数的突触权重)原则上可以在指数大小的时间内识别不可计算的语言。通过将自然数和有理数的可计算性概念扩展到实数上,这种证明在数学上是可能的。可以用差分方程代替数字过程,也可以用差分方程来描述连续的实际过程。换句话说,所有类型的动态系统,例如物理学中的流动、化学反应和生物界的组织,原则上都可以用相应的、扩展了的、具有实数的模拟系统来表示。

当然模拟神经网络在多项式时间内不能解决NP困难问题。可以证明,旅行商问题(TSP)也是关于实数的NP困难问题。(26)另一方面,根据逻辑学家阿尔弗雷德•塔斯基(Alfred Tarski)的证明,任何在实数域上可以定义的数量是有确定性的。相反,在整数域上可定义的集合,是不可确定的。这是哥德尔的算术不完全性定理的一个结论。实数上的可计算性显然在一定程度上比整数域上的数字可计算性“更简单”。

无论如何,推广到实数域的普遍性的(模拟性的)可计算性的优点是,它比较客观地概括了生物体、大脑和神经形态计算机中的模拟过程。在这里可以清晰地观察到与进化、数学和技术方法非常相近的一个等价说法,它依赖于丘奇推论的扩展性:(27)不仅数字化上的有效过程可以被计算机模型表示出来,自然过程中模拟有效过程也可以。这是一个关于复杂动态性系统的统一理论的核心。计算机中带有数字的符号代码只是我们的一种信息处理方式,它代表了原子、分子、细胞和进化的过程。

可以这样来区分可计算性的程度:一个非确定性图灵机在计算过程中,除了使用通常的有效计算的基本操作外,还使用随机决策。为此,我们借用图灵定义的Ψ预言机扩展了图灵机的概念:对于Ψ预言机而言,除了一个确定性的图灵机的命令,一个操作Ψ也是可以的,例如给Ψ(x)x赋值,尽管我们不知道它是否可以计算。这样,这种计算就依赖于这个预言Ψ。大自然中的一个例子是DNA信息有效处理过程中的随机变化。这就是相对可计算性:一个函数相对于Ψ是可计算的,如果它通过一个Ψ预言机是可计算的话。

相应地,一个相对化版本的丘奇推论可以这样来定义:所有相对于Ψ有效的过程可以被一个(通用)Ψ预言机来模拟。一个扩展的对于实数的模拟版本的丘奇推论也可以被定义。已经证明了:一个模拟神经网络在多项式时间内能够识别一个合适的Ψ预言机在多项式时间内能够识别的语言。根据我们对人工智能的定义,一个具有相应的模拟神经元的神经系统的自然有机体或者一个具有相应技术的神经系统,和Ψ预言机一样地智能。

人类的知识与意识联系在一起。来自长期记忆的相应数据和规则被放置到短期记忆中,可以被象征性地表示为:我知道我是个知道能够或做了某事的人。原则上不能排除人工智能系统将来会有类似意识的能力。这样的系统会创造出与人类截然不同的它们自身的体验、经历和身份。所以,如果将人工智能研究仅仅局限在具有与人类相似的意识的人工智能系统上,将是进入了一个死胡同。

七、机器和大脑的融合?

2006年开始,随着所谓“树搜索”的蒙特卡洛算法的应用,人工智能程序已经成功地模拟了围棋走法,但还没有超过业余爱好者的水平。只有将下棋走法选择的统计性的“树搜索”与深度神经网络学习算法(监督和强化学习)结合,人工智能程序才获得了成功。(28)2016年,谷歌公司的“阿尔法狗”(Alpha Go)软件在围棋比赛中击败了人类冠军,(29)人工智能取得了惊人的突破。谷歌公司的程序员也很惊讶于“阿尔法狗”根据下棋状态学习的速度之快。

当然,超级计算机消耗发电厂级别的能量,而人类大脑仅仅消耗白炽灯量级的能量。在进化过程中,更多的具有“较慢”突触的神经元分布在敏感的湿件(细胞组织+神经化学)上,导致联网密度增加,在节能降耗的同时,提高了“自然智能”的性能。技术上,通过鲁棒“硬件”(例如,硅+半导体技术)提高处理速度和存储容量以增加“人工智能”的性能,但是能量消耗较大。能耗较大的一个原因是计算机传统的冯•诺依曼体系结构,其存储器和处理器分开,数据必须在这些单元之间不断交换。这种限制(“冯•诺依曼瓶颈”)需要耗费大量的时间和精力。与此相反,大脑是一个多态系统,其中的蜂窝网络既能存储数据,又可以处理数据。神经形态计算机如果能将进化的、模拟的和数字的技术融合起来,就可以将计算机技术上的效率与进化优势(例如节能)结合起来。

八、神经网络与机器学习

具有适当的拓扑结构和学习算法的人工神经网络的机器学习算法模拟大脑信息处理过程:神经元(神经细胞)通过传播神经化学信号的突触相互连接,连接具有一定的强度,通过连接权重来表示。由于Hebb规则,当来自相邻区域的加权输入的总和超过阈值时,神经元激发动作电位。此外,神经元排列成层状,这对应于人脑的皮层结构。

在神经元层面,学习意味着兴奋的神经元相互连接。在神经心理学中,这种互联模式与某些认知状态如感觉、想象、感情、思维和意识有关。在神经网络模型中,这些互联过程由学习算法建模,该学习算法改变突触的权重数值,因为它们表示互联模式中突触连接的各个神经元的强度。

有不同类型的学习算法。在监督学习中,神经网络首先向一个原型学习。例如脸部像素的分布模式。颜色和色调的局部强度由相应的突触权重表示出来。一个神经网络可以通过训练来适当调整权重。通过与训练好的原型比较,可以在各种脸部照片中识别出训练好的脸部照片。在非监督学习中,神经网络能够独立地识别数据的相似性,以便相应地对它们进行分类。所以,这种神经网络算法就可以识别一只猫的面孔,即使在没有先学习了解过猫是什么的情况下。

在加强学习过程中,系统首先被赋予某项任务,然后它应该或多或少地独立解决问题。例如,一个机器人要独立寻找到一个给定目标的路径。在解决这个问题时,机器人在一定的时间间隔不断地得到如何找到路径或者解决问题的反馈。解决方案的策略是优化这个反馈序列。

深度学习只是指神经网络的深度,它对应于神经层的数量。例如,一个面部识别的神经网络中,第一层区分彩色像素,第二层将端点和边连接起来,第三层负责面部部分细节,最后在第四层得到面部的信息。这种算法的数学模型在20世纪80年代就有了,但是最近几年在技术上才可以实现,因为需要强大的计算能力,譬如具有100万个神经元和10亿个突触的谷歌“大脑”。这种技术不能靠少量的神经层来实现。神经层数应该根据可以使用的计算能力随意增加,以提高系统的运算效率。

九、机器学习和自行驶车辆

一个非常热门的应用实例是自行驶车辆:具有各种传感器(例如距离、灯光、碰撞)和电机设备的简单汽车已经可以通过自组织神经网络产生复杂的行为。如果相邻的传感器在与外部物体发生碰撞时被激发,就会激发一个相应地与传感器相连的神经网络的神经元。这在神经网络中产生了一种代表外部对象的连接方式。原则上这个过程类似于生物体对外部物体的感知过程,但是后者更加复杂。

如果我们现在想象一下,这辆汽车配备了“记忆能力”(数据库),它可以记住危险的碰撞以避免在未来碰到它们,那么,人们会想到汽车行业未来将如何建立具有自我学习能力的车辆。这些系统将与在某些条件下具有预先编程行为的传统驾驶员辅助系统显著不同。它将是一个神经学习系统,就像高度进化的生物体的学习功能一样。

培训能够自主学习行驶的车辆需要多少次的真实事故为代价?如果自动驾驶车辆发生事故,谁负责?其道德和法律的挑战是什么?对于诸如具有数百万的元素和数十亿的突触连接的神经网络的复杂系统,尽管允许使用统计物理学的定律对整个系统的趋势和收敛行为进行全局性的描述,但是每个元素的经验参数的数量可能如此之大,以至于无法确定局部原因。神经网络对我们来说仍然是一个“黑匣子”。从工程学的角度来看,奈特(Knight)关于机器学习的核心提到了一个“黑暗的秘密”:“即使设计基于机器学习系统的工程师,可能也很难将任何单一行为的原因分离出来。”(30)

软件工程中有两种不同的方法是可以想象的:1.测试只显示(随机)发现的错误,但不是所有其他可能的错误。2.为了避免基本的错误,必须对神经网络进行正式的验证。

自动定理证明的优点是可以证明软件作为数学定理的正确性。自动证明的重要性在人工智能诞生之时就已经被认可了,就像本文之初所介绍的。因此,我建议在机器学习的神经网络之上引入一个形式化的元层次,以自动完成形式化的正确性证明。例如,我们设想一种配备传感器和作为其大脑的相应神经网络的自行驶汽车,它的学习目标是交通法所规定的汽车行为,比如于1968年在《维也纳公约》中制定的《公路法》。在第一步,就像一架飞机那样,这辆汽车配备了黑匣子,以便保存其行为数据。这个数据量应该满足《维也纳公约》所规定的交通规则的要求。这种要求保障消除车辆的不当行为。在元层次上,这个含义被形式化了,以便通过定理证明来实现自动化证明。

为此,首先必须从黑匣子的数据中提取车辆的运动路径。统计学提供模型拟合的一种方法。对车辆轨迹的描述必须在下一个步骤以形式语言在元层次上表示出来。这种形式化的描述必须满足《维也纳公约》的相应正式条款要求。这个要求的形式化证明是由定理证明器自动化实现的,并且可以凭借当今的强大计算能力以闪电般的速度实现。

总之,用神经网络进行机器学习是有效的,但我们无法详细理解和控制神经网络中的过程。机器学习技术类似于统计测试,但对于强调安全性的系统来说还是不够的。因此,机器学习应该与定理证明相结合,这是一种还未形式化的、基于逻辑的人工智能。正确的行为是由逻辑形式化中的形而上的方法保证的,这些方法是可以自动证明的。

十、人工智能和不完整信息的决策

在复杂的市场中,人们并不是按照“代表性经纪人”(经济人)的公理决定的理性预期来行动的,而是根据不完整的知识、情绪和反应来决策和行动。因此,美国诺贝尔奖获得者赫伯特•西蒙(Herbert A.Simon)定义了有限理性。(31)这意味着,面对复杂的数据,我们应该选择比较满意的解决方案,而不是寻求最完美的解决方案。

但是,处在有限理性和算法确定的信息条件下的决策是封闭的吗?1997年,IBM公司的超级计算机“深蓝”(Deep Blue)击败了当时国际象棋的卫冕世界冠军。2016年,谷歌公司推出了基于超级计算机的“阿尔法狗”软件系统并击败了围棋冠军。然而,更令人感兴趣的是在扑克大赛中击败人类冠军的超级计算机上的软件系统。(32)不像棋类游戏,扑克是一个不完整的信息决策的例子。日常生活中的很多决策都属于这种类型,例如商务谈判、法律案例、军事决策、医疗计划和网络安全等。相反,国际象棋和围棋这样的棋类游戏的决策是完整信息下的决策,其中每个玩家随时都全面了解全局情况。

在扑克游戏中,人们会利用情绪和感受影响比赛,例如使用基于不完整信息的扑克牌花色来欺骗对手。人工智能专家也认为,要让机器能够理解甚至产生人类情感还需要很多年的时间。但是,上面提到的扑克程序绕过了情绪问题,通过纯粹而复杂的数学计算打败了人类对手。

人工智能首先是一种想要有效解决问题的工程科学,这一点很清楚,它并不是为人类智能建模、模拟,甚至取代人类智能。即使在过去,某些成功的工程解决方案也不是模仿大自然,如人们试图飞翔,模仿鸟类扇动翅膀,他们就会坠落下来。只有当工程师掌握了空气动力学的基本定律时,他们才能提出解决方案,以便能将沉重的飞机移动到云层之上的高度,而这些解决方案在自然界并没有发现。与人工智能不同的是大脑研究和神经医学,它们想要为人类有机体建模,理解人类有机体,比如人类在自然中是怎样进化发展的。

图形上,可以通过一个“博弈树”来表示一个游戏。一个游戏的情况对应于一个分支节点,从这些节点出发,根据规则不断发展游戏,这些游戏进程由“博弈树”中相应的分支来表示。这些树枝在某些节点(游戏情境)停止,新的分支(游戏进程)又出现了。这就是复杂“博弈树”的产生方式。

人工智能程序在处理游戏的时候,会通过一个有效的过程在“博弈树”中找到之前走法的不足之处,并试图在随后的游戏中避免它们。超级计算机的巨大运算能力可以实现百万次之多的自身博弈。但是扑克游戏所需要的自身博弈次数多达10126之量级,即使是目前速度最快的超级计算机也无法在一个可以期待的时间内完成。现在就要使用数学知识了:用数学概率定理和博弈论可以证明,在某些情形下,后面的走法根本就没有成功的可能。因此,这些情形可以被忽略,以减少计算时间。

在这样的背景下,Pokerlibratus程序(33)使用两种不同的算法:反事实的遗憾最小化(Counterfactual Regret Minimation,简称CFR)是信息不完全的、解决零和博弈的一个迭代算法;遗憾的修剪法(Regret-Based Pruning,简称RBP)则是进一步的发展,允许修剪掉在“博弈树”中不太成功的分支,以便加快CFR算法。在零和博弈中,RBP切断了所有不是一个“纳什均衡”最好响应的行动。一个“纳什均衡”是一种游戏状态,此时没有一个玩家可以通过单方面的策略来改善自己的表现。

人们在信息不完整的博弈中试图找到“纳什均衡”。在少于约10[8]个可能的游戏情形(游戏树中的节点)2人零和博弈中,可以通过线性算法(计算机程序)精确地找到“纳什均衡”。对于较大的游戏,可以使用迭代算法(例如CFR)收敛于作为极限值的“纳什均衡”。

在每场比赛之后,CFR会计算“博弈树”中每个决策点行动的“遗憾值”,从而最大限度地减少遗憾,改善游戏策略;“反事实”意味着“怎样才可以做得更好”,如果行动会带着负面的遗憾值,RBP会跳过一定的迭代次数,直到随后CFR的“遗憾值”变为正值。只要修剪完成,跳过的迭代就会在一次迭代中完成。这减少了机器使用的计算时间和存储空间。

十一、人工智能、物联网和工业4.0

智能产生在与周边环境的相互作用中。从石器时代到现在,人类大脑从生理学上说几乎没有改变。通过在目前技术社会中的互动可能性,我们才能成为21世纪的人类。与此同时,全球化的知识社会本身也变成了一个复杂的智能系统,这个智能系统整合了各种或多或少的智能功能,具有独立意识的每个人成为这个系统的一个组成元素。赛博物理系统旨在实施人工智能系统中的社交和情境知识,以改善对人类的服务功能。因此,它们是具有分布式人工智能的数字物理系统,而不是孤立的个人机器人或计算机具有的人工智能。与具有数十亿相互作用的细胞、器官、传感器和神经系统的生物体相似,社会体系可以被理解为具有经济代谢周期和体外信息系统的超级生物体。(34)

原则上,这个程序也可以转移到其他应用领域,因此不仅仅是某个领域的专家系统。自适应算法已经以指数级增长的计算能力来控制网络世界的进程。没有它们,互联网上由数十亿传感器和联网设备产生的海量数据将无法管理。传感器使得现在的所有东西都可以彼此通信,而不仅仅是人。这就是我们谈论物联网(Internet of Things,简称IoT)的原因。

工业4.0将物联网应用于工业和其他专业领域。工业4.0与历史上工业化的前3个阶段截然不同。工业1.019世纪蒸汽机的时代。在20世纪初,工业2.0是由亨利•福特装配线的产生而引入的;流水线不过是工作流程的算法化,通过分工,人们按照固定的程序一步步地生产出工业产品。在工业3.0中,工业机器人进入了生产过程,并且自20世纪末以来一直支配生产线上的工作。但是,这些工业机器人是固定的,并且一次又一次地为同一个特定的子任务执行相同的程序。在工业4.0中,人工智能和机器学习融入了工作流程。操作人员通过网络设备同智能设备相互通信,以灵活组织工作流程。根据客户的要求,可以在需要的时间内单独定制产品。技术、生产和市场合并成一个社会技术系统,灵活自动地适应不断变化的外部环境。

经济数据可被视为价值链组成部分的产品。数据不像食物一样被消费,但是像原材料一样,可以通过不同的方式进行转化、合并和回收,从而一次又一次地连接新的商业模式。例如,一亿辆车辆的实时位置数据可以通过不同方式被利用起来:车辆类型、出租车公司数据、天气数据和交通历史经验加起来,可以优化一个区域的车辆流动模型。也可以利用同样的数据,根据不同时间的交通负荷对相关经济状况和劳动力市场进行判断。还可以将数据与自动ABS信号结合起来,以确定一个地区最安全的道路。

大数据不仅在经济上有利可图,而且在政府和行政管理方面也有优势。通过对大规模结构化和非结构化管理数据进行有针对性的评估,可以做出更好的管理决策,并指导公民行为。例如,通过对经济、气候变化、人口统计、城市规划和交通规划的预测可以促进经济发展。同样,网络舆情分析可以成为某些基础设施缺陷的预警系统(如大型技术项目的规划审批程序)

十二、区块链:进入完全算法化的社会?

计算能力的指数级增长加速了社会的算法化。智能算法将逐渐取代机构并创建分散的服务和供应结构。区块链数据库技术(35)展现了这个新数字世界的入门级场景。它类似一种分散的记账系统,银行将经纪人之间的金钱交易用算法代替。这种分权措施是在2008年全球金融危机后发明的,这次金融危机主要是由国家和国际中央银行的人为错误造成的。

区块链可以被视为一个持续分散记录的账本。(36)账本不是集中存储的,而是分散在所涉及成员的每台计算机上。在每个“页面”()中,参与者和安全代码之间的交易都会被记录下来,直到完整并且新页面出现为止。技术上说它是一个使用加密技术连接的可扩展块的列表。每个块包含前一个块的加密安全的“哈希”、时间戳和事务数据。哈希是一个关于前一个块的信息的、由复杂的数字和字母组成的加密代码。

新块由共识方法生成(例如,工作证明算法)。通过区块链这个记账系统,数字商品或资产(货币、合同等)可以根据需要进行随意复制:“一切都是复制!”这就是“价值互联网”(Internet of Value,简称IoV)。所有以前的交易都在每个块中再次编码。由于区块链中数据的积累,单方面的变化将立即被识别。任何相关参与者都会识别其区块链副本中的更改,因为相关的连接区块都必须“解包”。除此之外,整个网络在“挖矿”过程中的计算能力需要很高,这样才能使区块链具有强大的防伪功能。参与者的网络越大,哈希表计算就越复杂。随着区块链的增加,哈希的复杂性也在增加。

分散式加密货币按照以下步骤工作:(37)

1.新交易已签署并发送给参与者的所有节点。

2.每个节点(参与者)在一个块中收集新的交易。

3.每个节点(参与者)搜索所谓的随机值(nonce),它验证它的块。

4.节点(参与者)发现一个有效的块时,它将块发送给所有其他节点(参与者)

5.节点(参与者)只有当下列规则有效时才接受该块:

(1)块的哈希值必须与当前难度级别匹配。

(2)所有交易必须正确签署。

(3)交易必须相应地覆盖前面的块(无重复问题)

(4)新的问题和交易费用必须符合公认的规则。

6.节点(参与者)通过将其哈希值放入其新块中来表示它接受该块。

创建一个新的有效块(挖掘)对应于解决加密任务(工作证明)。在网络中,任务的难度是以平均每十分钟生成一个新块的方式来调节的。成功开采的概率与所使用的计算能力成正比。为此,挖掘的难度必须不断地适应网络的当前计算能力。工作证明算法遵循以下步骤(这里使用的阈值与采矿难度成反比)(38)

1.初始化块,将根哈希作为交易计算。

2.计算哈希值:H=SHA256(SHA256(块头))

3.如果h≥阈值,更改块标头并返回步骤2;否则(h<阈值),找到有效块,停止计算和发布块。

新块中包含的交易最初只由创建块的参与者确认。这只会给其有限的信誉。如果该块被其他参与者接受为有效,则它们将在其新的块中创建其哈希值。如果大多数参与者认为这个块有效,那么这个链将以最快的速度从这个块继续增长。如果不认为它是有效的,链将从目前为止的最后一块开始增长。这些块演变成了一棵“树”。

只有从第一个块()开始的树中生长的最长的链才被认为是有效的。因此,这种形式的记账自动构成了大多数人认为有效的那些块。第一个密码货币开始被称为创世纪块,它是唯一不包含前一个哈希值的块。

参与者在比特币软件帮助下管理所有交易记录的分布式数据库(区块链),这是比特币网络的基础。可信的第三方和机构(如银行、国家货币管理机构、中央银行)被需要大量计算和防伪的算法代替(如工作证明算法)。比特币所有权的证明可以存储在个人数字钱包中。比特币转换成其他支付方式的比率是由供求决定的。这可能引发投机性泡沫,目前这仍然是比特币能否被普遍接受需要解决的一个问题。

与这些“儿童病症”无关,从长期来看,区块链在较长时期内将进入技术分散的数字世界中,其中作为客户和公民的民众不通过中介机构来直接实现相互的交易和交流。这项技术的前景绝不仅限于银行和货币交易。未来的发展也是可以想象的,其他服务设施和国家机构将被智能算法取代。乍看之下这是非常草根的民主,更严密地分析可以看出这根本就不是民主的。民主的基本思想是,每个人不论其地位和来源如何,只有一票:一人一票!但是比特币的影响力取决于用户能够成功地实现一个新块的计算能力:可用的计算能力越大,用户就可以解决必要的加密任务,从而保证安全性(工作证明)的概率和可信度越大。

随着区块链的增长,这些任务变得越来越复杂,需要消耗越来越多的计算密集能力。计算强度意味着能源密集型。今天,人们很少考虑到计算密集型算法要消耗大量能源这一事实。201711月,比特币的计算网络消费在每个小时消耗的电力,与丹麦整个国家的消耗相当。因此,拥有廉价能源和能够为以高温状态运行的超级计算机降温的国家可以生产出最多的比特币(如中国)。除非采取对策和改进措施,这种计算只会增加能源问题以及相应的环境问题。数字化的发展取决于更好的基础设施的整体平衡、较少的能源消耗和更好的环境。

十三、超级智能?

人工智能研究自诞生之日起就与人类未来的伟大愿景联系在一起。人工智能能代替人吗?有些人已经在谈论即将到来的“超人”,引发了人们的忧虑和希望。(39)另一方面,这种贡献要求人工智能必须证明自己能够服务社会。笔者从大学时期以来就一直着迷于使人工智能成为可能的算法。但我们必须知道人工智能的基本知识,能够评估其功能和局限性。(40)令人惊讶的是,我所秉持的基本哲学观点还是如此,即最快的超级计算机也不会改变人类智能所能证明的逻辑数学基础。只有基于这方面的知识,才能评估其社会效果。我们应该抓住人类智能的这个机会!

【注释】

Turing,Alan M.(1950):Computing machinery and intelligence.In:Mind 49.S.433-460.

Mainzer,Klaus(2016b):Information:Algorithmus-Wahrscheinlichkeit-Komplexit t-Quantenwelt-Leben-Gehirn-Gesellschaft.Berlin:Berlin University Press,p.3.

Robinson,J.A.(1965):A machine oriented logic based on the resolution principle.In:Journal of the Association for Computing Machinery 12:23-41.

Schwichtenberg,H.(2006):Minlog.In:F.Wiedijk(ed.):The Seventeen Provers of the World.Lecture Notes in Artificial Intelligence vol.3600.Springer:Berlin:151-157.

Mainzer,Klaus(2018):The Digital and the Real World.Computational Foundations of Mathematics,Science,Technology,and Philosophy.World Scientific Publisher:Singapore.

G rz,Günther; Schneeberger,Josef(Hrsg.)(2003):Handbuch der Künstlichen Intelligenz.München:Oldenbourg 4.Aufl.Mainzer,Klaus(2003):KI-Künstliche Intelligenz.Grundlagen intelligenter Systeme.Darmstadt:Wissenschaftliche Buchgesellschaft.

Boersch,Ingo; Heinsohn,Jochen; Socher,Rolf(2007):Wissensverarbeitung.Eine Einführung in die Künstliche Intelligenz für Informatiker und Ingenieure.Heidelberg:Springer 2.Aufl.

Mainzer,Klaus(1994):Computer-Neue Flügel des Geistes? Die Evolution computergestützter Technik,Wissenschaft,Kultur und Philosophie.Berlin,New York:De Gruyter,pp.150-185.Puppe,Frank(1988):Einführung in Expertensysteme.Berlin:Springer.

Weizenbaum,Joseph(1965):ELIZA-A computer program for the study of natural language communication between man and machine.In:Communications of the Association for Computing Machinery 9:36-45.

Mainzer,Klaus(2016a):Künstliche Intelligenz.Wann übernehmen die Maschinen? Berlin:Springer,pp.55-58.

(11)Wahlster,Wolfgang(Hrsg.)(2000):Verbmobil.Foundations of Speech-to-Speech Translation.Berlin:Springer.

(12)Hausser,Roland(2014):Foundations of Computational Linguistics.Human-Computer Communication in Natural Language.Berlin:Springer 3.Aufl.

(13)Chomsky,Noam(1969):Aspekte der Syntax-Theorie.Frankfurt:Suhrkamp.

(14)Ferrucci,David; Levas,Anthony; Bagchi,Sugato; Gondek,David; Mueller,Erik T.(2013):Watson:Beyond Jeopardy! In:Artificial Intelligence 199.S.93-105.

(15)Picard,Rosalind(1997):Affective Computing.Cambridge(Mass.):MIT Press.Minsky,Marvin(2006):The Emotion Machine.Common Sense Thinking,Artificial Intelligence,and the Future of the Human Mind.New York:Simon & Schuster.

(16)Mainzer,Klaus(1997):Gehirn,Computer,Komplexit t.Berlin:Springer.

(17)Mainzer,Klaus(2010):Leben als Maschine? Von der Systembiologie zur Robotik und künstlichen Intelligenz.Paderborn:Mentis,pp.45-88.

(18)Ritter,Helge; Martinetz,Thomas; Schulten,Klaus(1991):Neuronale Netze.Bonn:Addison-Wesley.

(19)Kleene,Stephen Cole(1956):Representation of events in nerve nets and finite automata.In:Shannon,Claude; McCarthy,John(Hrsg.):Automata Studies.Princeton:Priceton University Press,NJ.S.3-41.

(20)Hopcroft,John E.; Motwani,Rajeev; Ullman,Jeffrey D.(2001):Introduction to Automata Theory,Languages,and Computation.Readings:Addison Wesley.

(21)Siegelmann,Hava T.; Sontag,Eduardo D.(1995):On computational power of neural networks.In:Journal of Computer and System Sciences 50(1):132-150.

(22)Siegelmann,Hava T.; Sontag,Eduardo D.(1994):Analog computation via neural networks.In:Theoretical Computer Science 131:331-360.

(23)Ebbinghaus,H.-D.; Hermes,H.; Hirzebruch,F.; Koecher,M.; Mainzer,K.; Neukirch,J.; Prestel,A.; Remmert,R.(1991):Numbers.Springer:Berlin 3rd edition.

(24)Mainzer,Klaus(2016a):Künstliche Intelligenz,PP.195-201.

(25)Hotz,Günter; Walter,Hermann(1968-1969):Automatentheorie und formale Sprachen I-II.Mannheim:B.I.Wissenschaftsverlag.

(26)Blum,Leonore; Shub,Mike; Smale,Steve(1989):On a theory of computation and complexity over the real numbers:NP-completeness,recursive functions and universal machines.In:Bull.Amer.Math.Society(N.S.)21(1).S.1-46.

(27)Mainzer,Klaus; Chua,Leon(2011):The Universe as Automaton.From Simplicity and Symmetry to Complexity.Berlin:Springer.

(28)Bishop,Christopher(2006):Pattern Recognition and Machine Learning,New York:Springer.Sutton,Richard S.; Barto,Andrew G.(1998):Reinforcement-Learning:An Introduction.MIT Press:Cambridge(Mass.).

(29)Silver,David; Huang,Aja u.a.(2016):Mastering the game of Go with deep neural networks and tree search.In:Nature 529:484.

(30)Knight,W.(2017):The Dark Secret at the Heart of AI.In:MIT Technology Review.April 11:1-22.

(31)Simon,Herbert.1957.Administrative Behavior:A Study of Decision-making Processes in Administrative Organizations.New York:MacMillian.

(32)Bowling,M.; Burch,N.Johanson,M.; Tammelin,O.(2015):Heads-up holdem poker is solved.In:Science 347(6218):145-149.

(33)Brown,N.; Sandholm,T.(2017):Reduced Space and Faster ConvergenceinImperfect-Information Games via Pruning.In:International Conference on Machine Learning(ICML).

(34)Mainzer,Klaus; Chua,Leon(2013):Local Activity Principle.London:Imperial College Press.

(35)Economist Staff(2015):Blockchains:The great chain of being sure about things.In:The Economist 31.October.

(36)Narayanan,A.; Bonneau,J.; Felten,E.; Miller,A.; Goldfeder,S.(2016):Bitcoin and Cryptocurrency Technologies.A Comprehensive Introduction.Princeton University Press:Princeton.

(37)Kryptow hrung.Wikipedia(https://de.wikipedia.org/wiki/KryptowC3A4hrung)

(38)Bitcoin(2017).Wikipedia(https://de.wikipedia.org/wiki/Bitcoin).

(39)Good,Irving John(1965):Speculations concerning the first ultraintelligent machine.In:Advances in Computers 6.:31-88.Bostrom,Nick(2014):Superintelligenz.Szenarien einer kommenden Revolution.Berlin:Suhrkamp.

(40)Mainzer,Klaus(2014):Die Berechnung der Welt.Von der Weltformel zu Big Data.München:C.H.Beck.

翻译:贾积有,北京大学教育学院。

 

(原载《上海师范大学学报》2018年第3期)