一、AI、ML、DL、NLP的极简概念
1、人工智能(AI)有不同的定义,但其中一个定义或多或少已成为共识,即AI是一个计算机系统,它能够执行通常需要人类智能才能完成的任务。根据这个定义,许多算法可以归纳为AI算法,比如导航应用程序所用的交通预测算法或策略类视频游戏所用的机遇规则的系统。从表面看,这些示例中,计算机似乎需要智能才能完成相关任务。
从AI到Transformer的嵌套技术组合
2、机器学习(machine learning,ML)是AI的一个子集,在ML中,我们不试图直接实现AI系统使用的决策规则。相反,我们试图开发算法,使系统能够通过示例数据自己学习。
3、深度学习(deep learning,DL)算法已经引起了广泛关注。DL是ML的一个分支,专注于受大脑结构启发的算法,这些事算法倍称为人工神经网络(artifical neural network)。它们可以处理大量的数据,并别在图像识别、语音识别及NLP等任务上表现出色。
4、自然语言处理(Natural language process,NLP)是ML和AI的一个子领域。专注于使计算机能够处理、解释和生产人类语言,现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。这个目标设计诸多任务,例如文本分类、自动翻译、问题回答。
5、GPT-4和ChatGPT基于一种特定的神经网络架构(即Transformer),基于大量数据训练而成的NLP领域中的大语言模型(LLM),它们能够以非常高的准确性识别和生成人类可读的文本。
二、Transformer如何呼之欲出的
Transformer是一种基于自注意力机制的深度学习模型,由Google2017年提出。彻底改变了NLP领域的序列建模方式,它通过并行计算和全局依赖建模,解决了传统循环神经网络(RNN)的长距离依赖难题,成为现代大模型(如BERT、GPT)的基石。经历了下面三个主要阶段。
1、LLM的发展可以追溯到几年前,它始于简单的语言模型,如n-gram模型,n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,因此又称为概率模型,其预测结果是在训练文中中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。
2、为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但他们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算法是最高效的。因此在自动翻译等任务中被广泛使用。
3、Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。改变的核心是注意力机制。
--素材来自《大模型应用开发极简入门》和网络材料