近年来,人工智能(AI)领域的迅猛发展,尤其是以ChatGPT为代表的一系列生成式AI工具的推出,已经显著地激发了全球公众的广泛关注。然而,现代AI技术的进步并非一蹴而就,而是站在过去几十年间认知科学、计算机科学、经济学、博弈论和数学等学科的深厚研究基础之上。这些跨学科的开创性工作为今天AI算法和工具的发展奠定了坚实的理论基础,使得AI技术得以在多个领域实现突破性的应用。
现代人工智能(AI)的发展史是一个从理论探索到实践应用的演变过程:
图灵测试的提出(1950年):艾伦·图灵(Alan Mathison Turing)提出著名的图灵测试,为评估机器智能提供了一个标准,即机器是否能展现出与人类无法区分的智能行为。
“人工智能”一词诞生(1956年):支持图灵的美国计算机科学家提出了现在广为人知的《达特茅斯人工智能夏季研究项目提案》,“人工智能”一词在这份提案中诞生。
罗森布拉特发明“感知机”(1958年):康奈尔航空实验室心理学家弗兰克•罗森布拉特(Frank Rosenblatt)发明了“感知机”(Perceptron),这是一种基于光传感器的机械神经元,能够学习识别视觉模式,标志着在机器模拟认知能力方面的重要进步。
“专家系统”诞生(20世纪70年代):斯坦福大学教授爱德华费•根鲍姆(Edward Feigenbaum)开启了后来被称为“知识工程”(Knowledge Engineering)的全新子领域。机器可以读取相关数据并以自然流畅的书面问答形式提供答案,实现了媲美咨询人类专家的自动化体验。这些程序被称为“专家系统”(Expert Systems)。
福岛邦彦开发“新认知机”(1980年):日本研究者福岛邦彦开发了一种名为"新认知机"(Neocognitron)的算法,它通过堆叠多层感知机形成层次结构,每层对复杂模式的敏感度递增,从而能识别多层次的细节及其关系。新认知机因其对输入数据异常的高容忍度和复原力,在笔迹识别领域取得了突破性进展。
“反向传播”技术问世(1986年):加州大学圣迭戈分校的大卫•鲁梅尔哈特(David E. Rumelhart)教授及其团队在《自然》(Nature)杂志上发表了关于"反向传播"技术的研究报告,这是一种关键的神经网络学习技术,通过逐层调整误差来优化算法。杰弗里•辛顿(Geoffrey Hinton)是该技术的核心人物,他的学生杨立昆(Yann LeCun)将此技术应用于手写邮编识别,取得了广泛关注,标志着机器学习在实际应用中的重大突破。
神经网络实用化突破(1992年):杨立昆在贝尔实验室展示了神经网络算法在手写笔迹识别上的突破性成果后,该技术迅速应用于全美自动提款机,实现了人工智能在实际场景中的首次大规模应用。这段历史标志着人工智能从理论走向实用的重要转折点。
机器学习兴起(20世纪80年代末到90年代初):杨立昆提出的神经网络反向传播算法学习算法原型以及对卷积神经网络(CNNs)的研究成果为未来人工智能的大胆探索和应用开辟了广阔的前景,即算法开始能够从数据中学习并做出预测,标志着“符号人工智能”时代开始向“机器学习”时代的转变。
深蓝(Deep Blue)胜利(1997年):IBM公司开发的超级计算机“深蓝”战胜世界排名第一的国际象棋大师卡斯帕罗夫,标志着计算机在特定领域内可以超越人类专家的能力,引起了全球范围内的广泛关注,人们开始重新评估人工智能的潜力和未来发展。
深度学习复兴(2006年):杰弗里•辛顿等在Science杂志上发表了关于深度信念网络(Deep Belief Networks)的研究,标志着深度学习研究的复兴。它代表了深度神经网络技术的突破,为后来深度学习技术被应用于语音识别、自然语言处理、图像识别等多个领域的发展奠定了基础。
AlexNet开启深度学习革命新时代(2012年):在第三届ImageNet大型视觉识别挑战赛中,杰弗里•辛顿领导的神经网络算法AlexNet以惊人的准确率获胜,实现了计算机视觉领域的新跨越,标志着深度学习革命的到来。
AlphaGo一鸣惊人(2016年):人工智能初创公司DeepMind开发的AlphaGo程序以4:1击败世界围棋冠军李世石,展示出人工智能模拟人类一切认知并灵活处理复杂问题的能力,标志着通用人工智能时代的到来。这个突破性进展被科技界、金融界和其它领域视为第四次工业革命的标志之一。
生成式AI和大型语言模型出现(2020年):以GPT-3等大型语言模型的出现为标志,极大拓展了AI在多个行业中的应用, 标志着大型语言模型的一个重要发展阶段。
ChatGPT横空出世(2022年):2022年11月30日,OpenAI公司发布基于GPT-3.5模型的聊天机器人ChatGPT,展示了大型语言模型在文本生成任务上的强大能力,为开发更先进的AI交互系统开辟了新路径。
Gemini发布(2023年):2023年12月6日,Google公司发布Gemini,作为原生多模态AI,不仅优化了文本生成,还扩展至图像、声音等模态,标志着大模型泛化能力的全新范式,推动AIGC加速向AI Agent的转变。
Sora出现(2024年):2024年2月16日,OpenAI公司发布文生视频大模型Sora,在人工智能领域实现了历史性突破。Sora能够将文本描述转化为高质量的视频内容,这一技术不仅极大提升了内容创作的效率,也丰富了视觉叙事的表达力,预示着AI技术在视觉内容生成上的巨大潜力。
GPT-4o发布(2024年):2024年5月13日,OpenAI公司发布新一代旗舰生成模型GPT-4o,展示了可以毫秒级反应、识别人类情绪进行音频交互,可多模态输入/输出等一系列新能力。
o1发布(2024年):2024年9月12日,OpenAI公司发布o1模型,通过强化学习优化,具备超越GPT-4o的复杂推理能力,擅长科学、数学和编程问题解答。