【小白AI教程】大模型知识扫盲通识

一、究竟什么是大模型

二、大模型的两大分支

2.1 在线大模型

2.2 开源大模型

2.3 大模型的应用

利用行业知识重新训练AI大模型

利用行业知识对AI大模型进行微调

利用行业知识建立知识库

三、Reasoning 大模型

3.1 基本概述

3.2 核心概念

3.3 技术实现

3.4 应用场景

3.5 总结

一、究竟什么是大模型

说了这么多大模型重要的因素，那么究竟什么是大模型？我们如何通俗的理解大模型这项伟大的AI技术呢？

我们可以把大模型类比生活场景中的各种“模具”：我们在生活中会使用到很多模具，比如制作雪糕的模具、蛋糕模具、爱心煎蛋的心形模具等等。我们是可以使用这些模具来更加简单便捷且快速地完成最终要制作的成品。

如果将其映射到数学上，就像是我们听到过的数学建模：比如，一位老师想计算班级100位同学的期末总成绩，那么根据学校本学期的要求，考试成绩占总成绩的70%，平成成绩占总成绩的30%，那么老师们只需要找到其中的运算规律就可以指定一个通用的模型来快速计算每一个学生的总成绩：总成绩y = （考试成绩x1 * 0.7） + （平时成绩x2 * 0.3），其中该方程式就是模型的算法，而0.7和0.3这个权重占比就是模型的参数。

大模型：LLM（Large Language Model）是指具有大量参数和复杂结构的机器学习模型。这些模型可以应用于处理大规模的数据和复杂的问题。“大模型”中的“大”是指模型的参数量非常大（百亿千亿级别）。相对来讲，参数量越大，则大模型的综合能力就越强。

二、大模型的两大分支

2.1 在线大模型

大模型本身是部署在云端，用户可以通过网络调用云端大模型相关的接口进行在线使用大模型相关的功能。

因此，在线大模型具备如下优势：在线模型普遍性能更强、使用的技术门槛和硬件门槛更低、配套模型生态和服务更加完善；

但是其弊端也同时存在：首先是数据安全问题，因为使用线上大模型必须通过网络进行数据传输，需要将本都数据传输给在线大模型，才可以基于大模型本身的能力对数据进行分析、处理和其他操作。但是一旦企业生产资料联网，就肯呢个会带来数据安全隐患，无法保障内容真实可信等诸多痛点的发生。还有就是，在线大模型的企业应用会产生长期的费用，在线大模型会根据调用次数或者按量进行计费，如果一旦使用频率和规避较大，则会产生较高的费用。最后一点就是在线大模型无法很好的定制化，也就是无法从训练语料进行定制化训练。

2.2 开源大模型

开源大模型是可以在本地设备上进行部署和使用的。相比与在线大模型，开源大模型可以使⽤更多微调框架进⾏模型微调，微调空间更⼤，更有可能快速完成定制化⼤模型训练；此外，数据可以直接本地训练模型，⽆需在线提交数据进⾏在线模型微调，数据安全也将更有保障；

但是，一般大模型的参数量级都会比较大，动不动就是几十亿、几百亿、几千亿的量级。因此本地部署，需要提供较高配置的硬件设备，该设备相对费用也不会太低。好在这是一次投资即可终身使用。

2.3 大模型的应用

随着人工智能技术的不断发展，AI大模型已经成为垂直行业应用的热点。

然而，AI大模型虽然功能强大，但在垂直行业应用中存在一些突出的问题，如缺乏特定行业领域的专有知识，尤其是深度知识、私有知识、保密知识等；还有就是输出内容很难精确控制；常常会出现幻觉（一本正经地胡说八道）等问题。

为解决这些问题，有三种在垂直行业中应用AI大模型的方法，包括重新训练、微调和知识库检索。

利用行业知识重新训练AI大模型

由于通用AI大模型缺乏行业专有知识，重新训练AI大模型成为一种可行的解决方案。

该方法的基本思想是，将行业相关的数据集和专业知识用于重新训练AI大模型，使其拥有行业特定的理解和知识。这样，AI大模型在垂直行业中的应用就能更好地理解和处理相关的任务和问题。

例如，在医疗领域中应用AI大模型时，可以利用医学文献、诊断报告和临床数据等专业知识进行模型的重新训练，使其具备医学背景和专业判断能力。

因此，重新训练大模型可以提高AI模型在特定领域中的准确性和专业性，并降低产生幻觉的可能性。不过，重新训练需要大量的数据，且对算力要求较高，对人力资源、算力费用和时间成本要求都非常高。

利用行业知识对AI大模型进行微调

除了重新训练，微调是另一种常用的方法来应用AI大模型于垂直行业。

微调是指在通用AI大模型的基础上，通过在特定的行业数据集上进行再次训练，调整模型的部分参数，以适应特定行业的需求。这种方法相比于重新训练，既可以保留通用AI大模型的原生能力，又能增加对行业问题的理解能力。例如，在金融领域中，可以利用金融数据和交易信息微调模型，以实现更准确和适应特定金融市场应用场景的预测和建议。

微调是在通用AI大模型的基础上，通过针对特定行业场景进行精细调整来实现更好的适应性。微调相对于重新训练而言，时间和资源消耗较少。

利用行业知识建立知识库

当AI大模型无法提供准确答案或输出时，可以利用行业知识建立知识库模型，充分融合AI大模型的通用知识和知识库的专有知识，使得大模型可以提供更有针对性的输出。

例如，在法律咨询领域，当AI大模型遇到具体法律案例时，可以将相关法律条款和判例作为知识库模型的输出，促进AI大模型产生更准确的法律意见或建议。

通过建立行业知识库和企业私有知识库模型，不仅可以提高输出内容的准确性，而且可以大大降低幻觉问题影响。但知识库模型的效果与知识库的质量和覆盖度密切相关。此外，不断更新、维护和扩充知识库也是一项重要的任务。

三、Reasoning 大模型

3.1 基本概述

Reasoning大模型特指 ”推理大模型“（Reasoning Large Language Model）是专门设计用于处理需要复杂推理任务的大型语言模型。

3.2 核心概念

推理特指的是什么呢？如何理解模型的推理能力呢？

推理能力的定义：推理是指根据已知的信息和知识，通过逻辑推导得出新的结论或答案的过程。对于大模型而言，推理能力使其能够处理不仅仅是简单的事实查询，还包括解决复杂的问题、进行逻辑推断、数学计算、理解代码等需要多步思考和分析的任务。
与常规大模型的区别：常规的大模型主要侧重于对大量文本数据的学习和理解，以便生成流畅、自然的文本回应，但它们通常直接输出最终的答案，而不展示中间的推理过程。而推理大模型在回答问题前，会先将问题拆解为更小的步骤，即推理步骤或思维链（Chain of Thought, CoT），然后将这些推理过程和最终答案一起输出，使人们能够看到模型的思考过程和逻辑推导路径。

3.3 技术实现

要使得模型具备强大的推理能力，可以从如下3点（架构基础、训练方法和提示工程）进行技术实现：

架构基础

推理大模型通常基于Transformer架构构建，这种架构能够有效地处理长序列数据，并且在自注意力机制的帮助下，可以捕捉到输入数据中的复杂依赖关系，为推理提供了良好的基础。

自注意力机制（Self-Attention Mechanism）是Transformer架构中的一个核心部分。简单来说，自注意力机制就像是给模型装上了一双“慧眼”，让它能够同时关注输入数据中的所有部分，并自动判断哪些部分更加重要。这样，模型就能更好地理解数据的整体结构和内在联系。

想象一下你在阅读一篇文章。当你读到文章中的一个词时，你的大脑会不自觉地回忆起与这个词相关的其他词或句子，帮助你更好地理解当前的内容。这就是一种注意力机制。

在推理大模型中，自注意力机制的工作方式类似。当模型处理一个句子时，它会检查句子中的每个词，并通过比较这些词之间的关系来确定它们的重要性。例如，在处理句子“我喜欢在公园里散步”时，模型会发现“我”和“喜欢”之间有很强的关联，因为“我”是动作的执行者；同样，“散步”和“公园”之间也有紧密的联系，因为“散步”通常发生在“公园”里。通过这种方式，模型能够捕捉到句子中的复杂依赖关系，从而更准确地理解其含义。

因此，自注意力机制使得推理大模型能够更有效地处理长序列数据，并在自然语言处理、语音识别等领域展现出强大的性能。

训练方法

推理模型的训练需要基于（预训练、微调和强化学习）来进行，以确保模型具备强大的推理能力
- 预训练：模型首先在大规模的无标注文本数据上进行预训练，学习语言的基本结构和模式，获得广泛的语言知识和世界知识。这一阶段的数据量通常非常大，以涵盖尽可能多的语言现象和信息。
- 微调：在预训练的基础上，使用特定领域或有标注的数据对模型进行微调，以优化其在特定任务上的性能和输出风格。例如，对于推理任务，可能会使用包含推理链的数据集进行微调，让模型学习如何生成合理的推理步骤。
- 强化学习：部分推理大模型还会采用强化学习技术，通过奖励模型来评估模型输出的质量和准确性，并根据奖励信号不断调整模型的参数，以提高模型的推理能力。
```
想象一下，一个孩子（模型）刚开始学习解决问题时，他可能会尝试不同的方法（动作），而每次尝试后，他会根据结果得到一些反馈（奖励信号）。如果某种方法得到了好结果（比如解决了问题或者得到了表扬），那么孩子就更有可能在下次遇到类似问题时再次使用这种方法。这就是强化学习的基本思想：通过“试错”和“延迟回报”来不断学习和改进。
```
提示工程
- 提示工程是提高推理大模型性能的重要手段之一。通过精心设计输入提示，引导模型按照预期的方式生成推理步骤和答案。例如，在提示中明确要求模型“一步步思考”“详细解释推理过程”等，可以帮助模型生成更符合要求的回答。