"符号主义"与"连接主义"之争,换个角度探讨人工智能将走向何方？

2023-12-02 20:30

泡芙的元宇宙

2023-12-02 20:30

泡芙的元宇宙

2023-12-02 20:30

来源链接

订阅此专栏

收藏此文章

是见众生，亦是见我心

1 序言

哲学上的三大终极问题：是谁？从哪来？到哪去？用在任何地方都是有意义的。
——尼古拉斯·沃布吉·道格拉斯·硕德

人工智能一直作为科幻元素出现在大众视野中。不论是讲图灵生平的《模拟游戏》，还是畅想 AI 恋人的《Her》，以及最近探索上载智能和数字永生的《万神殿》。今年 ChatGPT-3.5 的横空出世，部分超过人类的能力不禁让大家重新思考人工智能会将我们导向何处，乐观者有之，悲观者亦有之。但追溯历史，我们会发现机器学习是人工智能研究发展到一定阶段的必然产物。

动漫《万神殿》截图 ( 真的很好看！安利~)

2 机器学习的历史

理清机器学习的发展脉络有助于我们整体把握机器学习，或者人工智能的技术框架，进而从“道”的层面理解这一技术。这一节就先从三大究极哲学问题中的后两个——从哪来、到哪去入手，整体把握机器学习，而后再从“术”的角度深入学习，解决是谁的问题。（本部分较长，对机器学习史有了解的朋友可以跳过）。

1950 年，阿兰·图灵创造了图灵测试来判定计算机是否智能。图灵测试认为，如果一台机器能够与人类展开对话（通过电传设备）而不能被辨别出其机器身份，那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。

电影《模拟游戏》海报 ( 关于图灵生平)

1952，IBM 科学家亚瑟·塞缪尔开发了一个跳棋程序。该程序能够通过观察当前位置，并学习一个隐含的模型，从而为后续动作提供更好的指导。塞缪尔发现，伴随着该游戏程序运行时间的增加，其可以实现越来越好的后续指导。通过这个程序，塞缪尔驳倒了普罗维登斯提出的机器无法超越人类，像人类一样写代码和学习的模式。他创造了“机器学习”这一术语，并将它定义为：

可以提供计算机能力而无需显式编程的研究领域
a field of study that gives computer the ability without being explicitly programmed.

1957 年，基于神经网络的"连接主义"学习开始出现，罗森·布拉特设计出了第一个计算机神经网络——感知机（the perceptron），它模拟了人脑的运作方式。Bernard Widrow 提出了 Adaline 算法作为感知机的改进算法。罗森·布拉特对感知机的定义如下：

感知机旨在说明一般智能系统的一些基本属性，它不会因为个别特例或通常不知道的东西所束缚住，也不会因为那些个别生物有机体的情况而陷入混乱。

从 60 年代中到 70 年代末，由于理论研究不足和计算机硬件限制，"连接主义"的发展步伐几乎处于停滞状态。基于逻辑表示的"符号主义"占据了主流。代表作有 Winston 的"结构学习系统"和 Michalski 提出的基于逻辑的归纳学习系统。但这种方法只能学习单一概念，所以未能投入实际应用。

"符号主义"的代表作出现在 1986 年，昆兰以信息论为基础，以信息熵的最小化为目标，直接模拟人类对概念进行判定的树形流程提出了“决策树”，更具体的说是 ID3 算法。这是另一个主流机器学习算法的突破点。它能以简单的规划和明确的推论找到更多的现实案例，而这一点正好和神经网络黑箱模型相反。

决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来做预测。

此外还有基于逻辑的学习，代表作是归纳逻辑程序设计（Inductive Logic Programming，ILP）,他使用一阶逻辑（即谓词逻辑）来完成对数据的归纳。ILP 具有很强的知识表示能力，可以比较容易地表达出复杂数据关系，而且领域通常可方便地通过逻辑表达式进行描述。因此，ILP 不仅可以利用领域知识辅助学习，还可以通过学习对领域知识进行精化和增强。

随后，1986 年，Rumrlhart 等人重新发明了著名的 BP(error Back Propagation) 算法，"连接主义"取得了巨大进展。BP 算法是用于多层神经网络训练的著名算法，有理论依据坚实、推导过程严谨、物理概念清楚、通用性强等优点。但是，人们在使用中发现 BP 算法存在收敛速度缓慢、易陷入局部极小等缺点。

二十世纪九十年代中期，神经网络遭受到又一个质疑，通过 Hochreiter 等人 1991 年和 Hochreiter 等人的研究表明在应用 BP 算法学习时，NN 神经元饱和后会出现梯度损失（gradient loss）的情况。简单地说，在一定数量的 epochs 训练后，NN 会产生过拟合现象，因此这一时期 NN 与 SVM 相比处于劣势。

此时"统计学习"闪亮登场并迅速占据主流舞台。代表作是支持向量机（Support Vector Machine,SVM）和核方法（kernel methods）,该算法具有非常强大的理论地位和实证结果。那一段时间机器学习研究也分为神经网络（NN）和支持向量机（SVM）两派。然而，在 2000 年左右提出了带核函数的支持向量机后。SVM 在许多以前由 NN 占据的任务中获得了更好的效果。此外，SVM 相对于 NN 还能利用所有关于凸优化、泛化边际理论和核函数的深厚知识。

二十一世纪，连接主义卷土重来。以"深度学习"为代表掀起持续至今的浪潮。Hinton（OpenAI "前"首席科学家 Ilya 的导师）在 2006 年提出了神经网络 Deep Learning 算法，使神经网络的能力大大提高，向支持向量机发出挑战。深度学习，狭义地说就是"很多层"的神经网络。

2009 年李飞飞开始研究 ImageNet 视觉数据库，该数据库成为人工智能热潮的催化剂，也成为了图像识别算法年度竞赛的基础。

2011 年谷歌大脑由 Google X 于 2011 年创立。该团队与谷歌内部的其他人工智能研究小组密切合作，例如开发了 AlphaGo 的 DeepMind 小组，该人工智能击败了围棋世界冠军。他们的目标是构建能够从数据中学习、理解语言、用自然语言回答问题并具有常识推理能力的机器。该小组由 Geoffrey Hinton、Jeff Dean 和 Zoubin Ghahramani 领导，专注于深度学习。

同年 Jürgen Schmidhuber、Dan Claudiu Ciresan、Ueli Meier 和 Jonathan Masci 开发了第一个 CNN，并赢得了德国交通标志识别竞赛，从而实现了“超人”的性能。

2012 年Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 介绍了一种深度 CNN 架构，该架构赢得了 ImageNet 挑战，并引发了深度学习研究和实现的爆炸式增长。

2013 年DeepMind 引入了深度强化学习，这是一种基于奖励学习并通过重复玩游戏的 CNN，超越了人类专家的水平。谷歌研究员 Tomas Mikolov 及其同事引入了 word2vec 来自动识别单词之间的语义关系。

2014 年Ian Goodfellow 及其同事发明了生成对抗网络，这是一类用于生成照片、转换图像和创建深度伪造品的机器学习框架。Diederik Kingma 和 Max Welling 引入了变分自动编码器来生成图像、视频和文本。而Facebook 则开发了深度学习面部识别系统 DeepFace，可以以接近人类的精度识别数字图像中的人脸。

2017 年谷歌研究人员在开创性论文《Attention is all you need》中提出了 Transformer 的概念，激发了后续研究可以自动将未标记文本解析为大型语言模型 (LLM) 的工具。

2018 年OpenAI 发布了 GPT（Generative Pre-trained Transformer），为后续的 LLM 铺平了道路。

2019 年微软推出了 Turing Natural Language Generation 生成语言模型，拥有 170 亿个参数。而GoogleAI 和 Langone 医疗中心联合研发的深度学习算法在检测潜在肺癌方面优于放射科医生。

2021 年OpenAI 推出了 Dall-E 多模态 AI 系统，可以根据文本提示生成图像。

2022 年DeepMind 推出了 AlphaTensor，OpenAI 在 11 月发布了 ChatGPT，为其 GPT-3。

2023 年，人间一天，AI 一年，几乎每月都有重磅研究，AI 已经深刻影响了我们的生活。

3 "符号主义"与"连接主义"之争

在许多测试和竞赛上，尤其是涉及语音、图像和复杂对象的应用中，深度学习取得了优越性能。而深度学习技术涉及的模型复杂度非常高，以至于只要下功夫"调参"，把参数调节好，性能往往就好。因此，深度学习虽然缺乏严格的理论基础，但是显著降低了应用者的门槛，为机器学习技术走向工程化带来了便利。

那么，它为什么现在才热起来呢？有两个基本原因：数据量大了，计算能力强了。深度学习模型拥有大量参数，若样本数据少，则很容易"过拟合"（过于紧密或精确地匹配特定数据集，以致于无法良好地拟合其他数据或预测未来的观察结果的现象。）如此复杂的模型、如此大的样本数据量，如果没有强力计算设备，根本无法求解。

这一轮的大语言模型（Large Language Model, LLM）浪潮，即依托大量的数据和算法资源获得的进步。但是"连接主义"方法最大的局限性是其"试错性"，简单的说，其学习过程涉及大量参数，而参数的设置缺乏理论指导（可解释性差），主要依靠手动调参，夸张一点来说，参数调节上失之千里，学习结果可能谬以千里。

相比之下"符号主义"的逻辑性更强，通过逻辑表达式描述领域知识。然而，成也萧何，败也萧何，然而，由于表示能力太强，直接导致面临的假设空间太大、复杂度极高，因此，问题规模稍大就难以进行有效学习。

3 机器学习未来之"道"

对于机器学习的发展前途，中科院数学与系统科学研究院陆汝铃老师在为南京大学周志华老师的《机器学习》一书作序时提出了六大问题。第一个问题就是"符号主义"与"连接主义"之争。在此我摘录总结陆老师的观点：

Q1：从二十世纪九十年代开始，"连接主义"迅速压倒并取代了"符号主义"的地位。人们可能会问，符号学习是否被彻底忽略了？他还能成为机器学习的研究对象吗？它是否能继续在统计学习的阴影里苟延残喘？

A：这个问题有三种可能：

1. 退出历史舞台——目前还没有人抱有这种想法。
2. 单纯的统计学习到了尽头之后，再想往前走就要和符号主义学习结合起来——王珏教授认为，现在机器学习已经到了一个转折点，统计学习要想进入一个更高级的形式，就应该和认知相结合，这是一种"螺旋式上升，进入更高级的形式"，否则就会停留于现状而止步不前。
3. 三十年河东三十年河西，符号学习还有翻身之日——Chandrasekaran 教授认为最近几年，人工智能在很大程度上集中于统计学和大数据，并取得一些成果。但总有一天会转向基于更基本的认知科学研究。有必要把统计技术和认知结构，连接主义和符合主义结合起来。

两位老师的观点基本一致，但不仅限于机器学习，而是涉及整个人工智能领域，知识王珏老师强调知识，而Chandrasekaran 教授强调更基本的"认知"。

Q2：为什么统计机器学习不会一帆风顺？

A：统计机器学习的算法都是基于样本数据独立同分布的假设，但自然界现象千变万化，哪里有那么多独立同分布？那么“独立同分布”条件对于机器学习来说是必须的吗？独立同分布的不存在一定是不可逾越的障碍吗？无独立同分布条件下的机器学习也许只是一个难题，而不是不可解决的。

Q4：器学习研究出现以来，我们看到的主要是从符号方法到统计方法的演变，用到的数学主要是概率统计。但是今天数学之大，就像大海，难道只有统计方法适合于在机器学习方面的应用？

A：目前流行学习已经“有点意思了”，但数学理论的介入程度远远不够，有待更多数学家参与，开辟新的模式、理论和方法。

- End -

Reference:

A Brief History of Machine Learning

《机器学习》周志华

History of Machine Learning – A Journey through the Timeline