作者简介:杨英锐,美国伦斯勒理工学院认知科学系终身教授,美国纽约大学心理学博士,普林斯顿大学和美国教育考试服务中心(ETS, Princeton)博士后,本科毕业于北京师范大学数学系。1978–1986年曾在中国社会科学院哲学研究所逻辑室工作。曾任清华大学韦伦特聘讲席教授,北京大学和中山大学兼职教授。著有《经济力学原理:经济学、认知科学与理论物理的整合理论》(英文)。在诸多美国和国际一流学术期刊发表论文。
文章来源:中国社会科学网
一、有心无心,如遇故人
前些天,武汉大学蔡恒进先生在一个认知科学群里转发了一篇关于ChatGPT的文章。他是计算机和人工智能领域的专家。我半认真地说:蔡老师,关于ChatGPT这“孩子”的教育问题,就拜托您多费心啦。蔡先生回复:为AI立心!这是一个非常妙的回答;因为长期以来,人工智能有心无心这个论题,就一直是一个令人反复追问的所在。这使我想起学术生活的一段往事。
1980年代末期,我选过计算机系的两门课,一门课名是《知识表达,knowledge representation》,另一门是《神经网络模型化,connectionist modeling》,我的一篇期末论文题目是《复合心智, multiple mind》。老师评语甚佳,我得了两个A, 挺高兴。其实,从知识表达发展出的知识编码解码,由神经网络模型发展出的词距权重微调技术,正是如今ChatGPT和其他类似人工智能系统底层设计的二项基本技术支撑。所以,看到ChatGPT来了,我有如遇故人之感。始料不及的是,这孩子如今这么有出息,竟然成了社会公众人物,这是好事。毁誉参半,就是成功。
当时上计算机系课的时候,学校还请了美国著名哲学家塞尔来讲座。塞尔把神经网络模型狠批一通。他说,如果你主张这计算模型具有心智,必须同时满足四个条件:主观性(subjectivity),意向性(intentionality), 因果性(causality) 和意识(consciousness)。给我们讲课那位计算机系老师就在下边听讲座,我在旁边都感受到气氛有些尴尬。心想,这有心无心之争,还真是个事儿啊。
1990年秋季,我从哲学系转入心理系。在我新办公室门上,不知哪位学长留下一张纸条,写着:“What is mind, no matter. What is matter, never mind.” 这两句话,谐正双关,我试译为:“何为心智,断不及物。何为物质,从不走心。”谐也好,正也罢,可见有心无心是人工智能和科学哲学领域的永恒议题。
展开全文
二、判定问题与“我不知道”
最近某日凌晨,我在一个数学家的群里发了一条看似无理的微信:“请教,在目前解析数论的语言和概念框架下,黎曼猜想是可判定的吗?”结果有三位同仁用这个问题去问ChatGPT, 问的方法仅稍有差别,内容是一样的。ChatGPT的回答竟然很不一样。第一个回答属于所答非所问,等于什么都没说。第二个回答纯属胡扯。第三个回答显示了预训练的水平,概括地讲了目前黎曼猜想的研究现状,但并设有正面回答问题。这三种回答模式本身并不可怕,反而反映了人们在语言行为的不同表现,给人感觉似乎它不经意间通过了传统的图灵测试;因为,环顾左右而言他,不懂装懂,瞎编乱造,或者按背过的知识点机械回答,这些都是人们语言行为有时出现的现象,不足为怪。
但真正令人担心的是,ChatGPT似乎不会说:我不知道。我问的问题,实际上是一个涉及计算复杂性理论的非常难的问题,称为判定问题。并不是在问在数学上如何解决黎曼猜想。两者属于不同的层次。正常人(包括相关领域的专家)的回答应该是,我不知道。“我不知道”或相近短语应该是相当靠前的高频短语。一个不字或其近义词应该占到了半边天下。可见,不仅ChatGPT, 还有它的设计者,都还有很长的路要走。ChatGPT无心,在语言行文中显得有些缺心眼儿可以理解。可是其设计者有心,应当感到焦虑才是。
三、ChatGPT与认知革命三学派
由1950年代开始的认知科学革命,产生了大致三个颇为不同的学派,即乔姆斯基与米勒的语言习得学派,吉布森与奈瑟的环境赋能学派,以及西蒙与纽沃计算学派。乔姆斯基学派当年又称为哈佛学派。语言学派从语言习得的角度,区分了人们与生俱来的内在认知装置(competencies,capacity)和后天的语言行为表现(performance, ability)。环境学派(后来又称生态心理学)认为环境布满各种结构,而人在与这些结构相互作用时被赋予(affordance) 了认知能力。计算学派强调计算机模拟的重要性,以设计各种认知与行为的计算架构为己任。不难看出,ChatGPT作为一个课题涵盖了这三个学派的方方面面。
在一篇短文中提到这些,不是为了展开论述,而是为了提供一个路线图示:如何考察ChatGPT的认知以及我们对它的认知。这和初识某人,想要做进一步了解,是一个意思。比如,上面第一小节是在乔姆斯基意义下,介绍ChatGPT的内在装置与基本能力(competences,capacity), 第二节说的是其表现(performance)。至于说它有出息是指其技术进步,而说它是公众人物,三位同仁不约而同地去问它同样一个问题,是说其产生的社会影响。这种路线图示可帮助我们区别什么是其技术进步,什么是其科学发展,什么是其社会影响,以及什么是其商业宣传。人的时间精力和资源都是有限的甚至是稀缺的。所以,投入一件事情,就要考虑自己的机会成本。
四、以标准教育考试为例
1997-2000年,我在普林斯顿大学和美国教育考试服务中心(ETS) 同时做博士后。研究课题之一就是在普林斯顿大学心理系的推理实验室为GRE和SAT测试考题相对难度。相当于对考题文本的经验分析。其时,也正是ETS开始发展机考和机器阅卷(包括写作)技术的初期。一道考题的相对难度,不仅涉及题目文本的表层结构,还要涉及其深层结构,例如推理结构和决策结构。结构化程度,比如排比句的递进,也是判断一篇文章写作强度与论证力度的关键判据。
结构性为我们提供各种认知通道,也是知识成规模迁移的重要工具。结构化是思想语言的基本特征, 应该也是自由交流(Chatting)的题中应有之义。历来,逻辑主义AI强在其结构性基础,神经网络AI强在其模块化处理。有机会我想了解后者在结构化技术上的进展;例如,可以应用哥德尔算术化方法构造自指语句,从而加深对话层次,等等。俗话说,人无远虑,必有近忧。
五、商业性认知与非商业性认知
其实,对于大多数人而言,ChatGPT只有工具性和应用性的意义。那么,什么是ChatGPT对于个体的工具性意义呢?塔斯基的不可定义性定理告诉我们,任何个体工具性真理是不可在个体工具性层面定义的,而只能在高于个体性和工具性两者的层面来定义。这个课题的深入讨论超出这篇短文的范围。简略而言,对于ChatGPT的认知方式和使用方法取决于ChatGPT本身的认知水平。但后者存在两面性,即商业性和非商业性。区别两者的标志之一,就是预训练内容的公开与否。
在商业性假设下,预训练内容是保密的。客户在不清楚预训练内容的生态环境下,就只能与ChatGPT博弈所谓“20问题游戏”。这个具有极大不确定性的博弈过程要由量子力学波函数来刻画。没有详细的预训练信息,客户对ChatGPT的观测只能是狄拉克意义下的微观观测,满足测不准原理。
在非商业性假设下,预训练内容是公开的,而且OpenAI有义务提供并不断公布更新的预训练具体内容。在这种情况下,客户和ChatGPT处于信息对称的状态,后者就像牛顿所观测到的自由落体苹果,两者的关系用一般的连续函数就能刻画了。
结束语
对于前段时间听到的元宇宙和最近听到的ChatGPT,我们感受到的都是“大词”,“网络技术大革命”“人工智能大拐点”“广泛应用大前景”“无限可能大市场”,等等。对此,我持开放心态,乐见其成并愿与其并肩前行。但同时,我感受到大资本的挟持,大商业的奴役,大浪潮的垄断和大趋势的无形。我只想弱弱地问一句站在ChatGPT背后的人,可能告诉我,您都预训练了那“孩子”什么,明天早饭您准备给那“孩子”吃什么?也许,我还会多问一句,您知道什么是NP问题吗?