近日,清华大学计算机系教授、中国科学院院士张钹在“人文清华讲坛”上发表演讲,为大家解读人工智能的发展历程。他指出,发展人工智能是探索“无人区”,我们不能因为它有了进展而过于乐观,也不能因为它遭受挫折而沮丧,最重要的是要坚持不懈地努力。
目前,大部分行业的工作还无法完全被人工智能替代。人工智能主要是以人类助手的身份出现,可以提高大部分行业的工作效率和质量。
人工智能是探索“无人区”,人工智能的魅力就在于它永远在路上。——张钹
实现人工智能的两条路径
什么是人工智能?很多人认为,人工智能是用机器,特别是计算机来模拟人类的智能。这个理解肯定是不对的。因为迄今为止,我们对人类的大脑了解非常少。2019年,有人问美国脑科学家科赫:“到现在为止,我们对人类的大脑了解多少?”他回答:“我们甚至不了解一条蠕虫的脑子。”我们不清楚人类的智能是怎么回事,又如何搞人工智能呢?
经过多年的探索,实现人工智能走出了两条道路。
一条道路叫作行为主义道路或者行为主义学派,也叫唯物主义学派。这个学派的主张是用机器模拟人类的智能行为。
智能与智能行为是两个完全不同的概念。智能是指我们大脑的运行过程,我们对它的了解非常少。智能行为则是智能的外部表现,我们可以观察到它,可以模拟它。因此,人工智能追求的目标是什么?追求机器的行为与人类的行为相似,而不是追求内部工作原理的一致。
例如,我们与ChatGPT对话,跟与真人对话很相近。但是,ChatGPT与我们对话时,它内部的工作原理与人类大脑的工作原理一样吗?我可以明确告诉大家是不一样的。因此,行为主义学派走的是一条机器智能的道路,与人类的智能并不完全一样,它只是追求智能行为的相似。这是目前人工智能的主流学派。
人工智能还有另外一派,我们称之为内在主义学派或唯心主义学派。它主张用机器模拟人类大脑的工作原理,这才是真正的智能,即类脑计算。
这两个学派不存在谁对谁错的问题,因为大家按照不同的思路去实现人工智能。前者主张用机器或其他方法走出一条智能的道路;后者主张只有模拟人类的大脑才能走向智能。这两条道路目前都处于探索阶段。
“人工智能的冬天”
1956年,在美国召开了人工智能研讨会,参加会议的主要人物来自数学、计算机科学、认知心理学、经济学和哲学等不同领域。他们经过8周的讨论,定义了什么是“人工智能”。他们认为,要制造一个会思考的机器,也就是希望机器能像人那样思考。与会者主张用符号推理、符号表示来做这件事。
从1956年到现在,人工智能成为一个非常年轻的研究领域,因为它的历史不到70年。在这个过程中,人工智能的发展分成三个阶段,分别是第一代人工智能、第二代人工智能和第三代人工智能。
先来讲第一代人工智能。第一代人工智能的目标是让机器像人类一样思考。所谓思考,是指推理、决策、诊断、设计、规划、创作、学习等能力。
人类的思考能力是怎样变强的呢?拿医生举例,医生比普通人强在两个方面:一是医生有丰富的医学知识和临床经验;二是医生有运用这些知识的能力。运用知识的能力就是推理,由此及彼、由表及里,从已有的知识出发推出诊断结论。
其实,无论是管理工作还是技术工作,所需的能力都包括两个方面:一是在某个领域具有丰富的知识和经验,二是具有很强的推理能力。
根据这样的分析,人工智能的创始人提出了“基于知识与经验的推理模型”。也就是说,要实现机器像人类一样思考,就要把相应的知识放进计算机里。比如,我们把医生的知识和经验放到知识库里,再根据医生看病的推理过程形成一定的推理机制,计算机就能像医生一样看病了。
基于知识和经验的推理模型是所有理性行为共同的计算模型,这个模型的核心思想是知识驱动。有时候我们也把它叫作符号主义,因为我们把人类的知识和经验以符号的形式表达在计算机中。
20世纪70年代初,美国人根据这个思路设计出一个名为MYCIN的医疗诊断系统。内科医生、传染病专家的经验和知识被放入计算机,这个系统就可以像医生那样对血液传染病进行诊断,开出抗生素等药物。此外,它还可以帮助全科医生进行医疗辅助诊断。
这个系统看起来有很多优势,它能像人类那样进行推理,所以这个系统是可理解、可解释的。但是最大的缺点是,其所有的知识都要靠人类告诉它,它不可能从客观世界去学习知识,也就是说,计算机还没有自学能力。此外,基于知识和经验的推理模型非常难构造,像MYCIN医疗诊断系统花了三年半时间才构成。
所以,第一代人工智能走过的路是比较曲折的,而且其应用领域非常狭窄,第一代人工智能也被称为“人工智能的冬天”。
我国人工智能研究的起步
第二代人工智能的发展主要是从人工神经网络出发的。
1943年,人工神经网络模型被提出,它主要是模拟人类脑神经网络的工作原理。最早的时候这个模型很简单,所以第二代人工智能的初期进展非常缓慢。
清华大学刚开始进入人工智能领域时,相当一段时间正处于第一代人工智能结束、第二代人工智能开始的阶段。1978年,我们成立了人工智能与智能控制教研组,这是中国最早研究人工智能的机构。当时差不多有30位老师参与,这些老师绝大部分来自自动控制领域,原来并不是搞人工智能的。
1980年至1982年,我代表教研组到美国伊利诺伊大学香槟分校综合科学实验室访问了两年。那时候综合科学实验室的主任是华人科学家钱天闻,他的研究方向是人工智能。
回国以后,我们在兵器工业部的支持下,到西南、东北访问了大量与兵器有关的研究所和工厂。经过调查,我们认为必须要发展智能机器人。因为,当时国外装炸药引信等都采用自动化,但国内还是人工操作,所以我们把智能机器人作为一个主要的研究方向。
在此基础上,1985年我们建立了实验室,1986年国家设立了“863”发展计划,这个发展计划把智能机器人作为一个主题。到1990年,我们正式成立了“智能技术与系统”国家重点实验室。在此期间,我们率先建立了两个理论,即问题求解的商空间理论和粒计算理论,在国际上产生了较大的影响。2005年,清华大学发起、组织了国际粒计算会议,每年召开一次,一直延续至今。
在人工神经网络方面,我们也做了很多早期的工作,在学习算法、优化算法、概率神经网络图案生成等方面做出了重要的理论贡献。
此外,从1990年开始,我们进行了自动驾驶汽车的研究工作,那时候叫“移动机器人”,这项研究在国际上算是开展较早的。
深度学习的崛起
从21世纪初开始,第二代人工智能蓬勃发展。
第一代人工智能主要是在符号主义指导下进行,它的目的是模拟人类的理性行为。但是,人类除了理性行为之外,还有大量的感性行为,感性行为就是通过人工神经网络来进行模拟。
我们是怎样获得感性知识的呢?比如,我们认识马、牛、羊,这属于感性知识。它不是来自学习,也不是来自传授。马有马头、马尾巴、四条腿。那么什么是“四”?什么是“条”?什么是“腿”?换句话讲,你想要传授一个感性的概念,你必须要用很多新的概念去描述它。实际上,我们每个人最初得到的感性知识都是来自观察和学习。
仔细观察一个两岁的小孩,你会发现,他一直在盯着周围的东西看,目不转睛。其实,他是在通过观察周围的世界建立视觉基础。同时,他通过倾听建立听觉基础。所有这些感性知识都是在不断观察、不断倾听的过程中学习的。所以,第二代人工智能的深度学习就是用这个办法。
过去,我们通过编程的方法告诉计算机马、牛、羊有什么特征,用这个办法来教它认识马、牛、羊,结果误识率约为50%。所谓深度学习,就是基于大数据的机器学习。我们把网上所有马、牛、羊的照片拿来,把大部分图片做成训练样本,让计算机观察和学习。学习完毕后,用剩下的样本去测试它,结果误识率降到3.57%。人类的误识率是5.1%,所以说,深度学习使计算机的辨识准确率超过了人类的平均水平。
计算机用什么东西来观察和倾听呢?就是人工神经网络。也就是说,把需要识别的问题作为分类问题,利用人工神经网络把马、牛、羊的数据进行分类,这样就实现了识别。这个神经网络是采取多层的神经网络,所以也叫深度神经网络,用这个神经网络进行学习,就叫深度学习。
利用深度学习还可以进行预测。怎么预测呢?用过去的数据预测未来的变化,比如传染病预测、产品预测、股票预测等。
当然,第二代人工智能也有缺点,因为它的所有数据(图像、语音等)都来自客观世界,所以难以提升到较高的认知水平。它识别东西,只能区别不同的物体,并不能真正认识这个物体。它的缺点就是不安全、不可信、不可控、不可靠、不易推广。
第三代人工智能的未来
2016年,我们提出必须发展第三代人工智能。而第三代人工智能的基本思路是必须发展人工智能理论。
为什么信息科技发展得那么快且持续,而人工智能却发展得相对较慢且相当曲折呢?最主要的原因是,信息科技的理论从一开始就建立起来了。计算机理论于1936年建立,通信理论于1948年建立。因为理论建立了,所以技术发展和应用非常迅速。
人工智能到现在为止还没有理论,只有我刚才给大家介绍的几个模型、几种算法,而且,第一代人工智能和第二代人工智能的模型、算法都有很多缺陷。因此,我们必须建立人工智能的理论,这样才能发展出安全、可控、可信、可靠和可扩展的人工智能技术。
换句话来说,在理论建立之前,人工智能的算法基本上是不安全的。因此,目前在工作中应用人工智能,始终存在着安全性的问题。
第一代人工智能用了知识、算法、算力三个要素,其中最主要的要素是知识。第二代人工智能运用了数据、算法和算力三个要素,主要的要素是数据。这两代人工智能都有缺点,为了克服缺点,唯一的办法是把知识、数据、算法和算力这四个要素同时利用起来,这就是我们提出的主张。这个主张受到了国外同行的赞成,但是国外的发展思路是强调数据要素,即强调机器的作用,而我们的清华模式则强调知识的应用,即强调人的作用。
2022年诞生的ChatGPT是人工智能的最新发展成果,它之所以取得这么大的成功,就是因为它充分利用了知识、数据、算法、算力这四个要素。
大语言模型(LLM)是基于海量文本数据训练的深度学习模型,ChatGPT就是大语言模型的代表。ChatGPT为什么有这么强大的性能?主要依靠两个“大”,一个是大模型,一个是大文本。
首先是大模型。它是一个巨大的人工神经网络,深度达到96层。同时,它的宽度达到了可以一次性输入近10万字的文本。过去,计算机处理文本只能把它当成数据处理,现在可以把它当成知识来处理,这是最重要的一个突破。
ChatGPT的开发者OpenAI公司的主要贡献是实现了“自监督学习”方法。过去,要人工智能自己学习,需要做预处理、预先标注,这个工作量太大,无法大量学习。“自监督学习”是原来的文本不经过任何处理就可以学习,用前面的文本预测后面的词,就像接龙式学习。
其次是大文本。实现“自监督学习”后,所有文本不用经过任何的预处理就可以学习。ChatGPT为什么厉害?因为它学习了相当于1351万本牛津词典的内容,而且不是“死读书”,而是真正“读懂”了知识。
ChatGPT带来的一个重大突破就是在开放领域生成语义连贯的类似人类的文本,并在开放领域实现人机自然语言对话。我们与ChatGPT对话是不受领域限制的,不是只能谈医疗问题,也不是只能谈农业问题,而是什么问题都能谈。而第一代人工智能和第二代人工智能都受到三个限制——特定领域、特定模型、特定任务,也就是所谓的窄人工智能、专用人工智能。ChatGPT将这些限制完全打破了。
有一种现象叫作“涌现”,它是大模型的关键突破。比如,规模没有达到一定程度时,人工智能画出来的图画很糟糕,画得很不像,但是突然间,规模达到一定程度时,画出来的画都很好,这就叫“涌现”,即从量变到质变。这个现象的原因,全世界还没有完全搞清楚,这也是大家对人工智能产生恐慌的重要原因。
总而言之,要发展第三代人工智能,必须发展相关基础理论。只有这样,才能解决安全性问题,从而推动产业发展。
人工智能永远在路上
随着人工智能的发展,人工智能产业也不断扩展。2020年,全世界10亿美元以上估值的人工智能独角兽企业有40家,2022年有117家,2024年初达到126家。
大模型今后将会如何发展?到现在为止,中国的大模型是“百模大战”,有一两百家企业,而美国基本上只有几家(如meta、谷歌和OpenAI)。未来,中国大模型企业的出路在哪里?第一个出路是向各行各业转移,做各个垂直领域的大模型。现在有很多行业在考虑这个问题,石油行业肯定会考虑建立石油行业的大模型,金融行业会考虑建立金融行业的大模型,所以,将来通用型大模型的数量会越来越少,大多数的大模型将转向各个垂直领域。第二个出路,是大模型企业提供公开的软件平台,供大家应用。第三个是与其他技术结合,发展新的产业。比如,原来用软件做文字编辑,现在加上大模型后,它可以帮助写稿。将来,记者可以利用这个工具,先写一个初稿,再细化编辑,这样可以方便得多。
目前大模型存在的问题是什么?第一,大模型的所有工作都是外部驱动的,即在外部提示下工作,不会主动工作。第二,因为它是用概率预测的方法来工作,所以会出现输出质量不可控的问题。而且,它不具备判断对错的能力,它的输出是不可信的。第三,它受外部影响太大,我们要它怎么干,它就怎么干。人类完全不一样,即使这件事是别人交办的,人类也会在自己的意识控制下完成,而机器根本不知道自己在做什么。
因此,人工智能完全取代人类的工作目前还很少。高通全球投资研究2023年发布的一份报告显示,在未来,行政工作、秘书工作、法律文本资料整理等工作可能会被人工智能取代,但大部分行业的工作还无法完全被替代。人工智能主要是以人类助手的身份出现,可以提高大部分行业的工作效率和质量。
编辑:李华山