人工智能-基础篇-2-什么是机器学习?(ML,监督学习,半监督学习,零监督学习,强化学习,深度学习,机器学习步骤等)

1、什么是机器学习?

机器学习(Machine Learning, ML)是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据,自动学习规律并构建模型,从而对未知数据进行预测或决策,而无需依赖显式的程序指令。

基本思想:
通过数据驱动的方式,使系统能够从经验(数据)中改进性能,形成对数据模式的抽象化表达。

基本概念:

  • 模型:模型是对现实世界现象的一种抽象表示,用于描述输入数据和输出结果之间的关系。
  • 训练:使用特定算法调整模型参数的过程,目的是最小化模型在给定数据集上的误差。
  • 特征:输入到模型中的变量,这些变量被认为是影响最终输出的重要因素。
  • 标签:对于监督学习任务,每个训练样本都关联有一个目标值或标签,它是模型试图预测的内容。

与传统编程的区别:

  • 传统编程:输入规则 + 数据 → 输出结果(如计算器)。
  • 机器学习:输入数据 + 结果 → 输出规则(模型),即“从数据中自动学习规则”。

2、机器学习的分类

根据学习方式的不同,机器学习主要分为以下几类。

1、监督学习(Supervised Learning)

  • 定义:使用带有标签的数据(输入+正确答案)训练模型,模型根据这些样本来学习映射规则,使其能够预测新数据的标签。
  • 任务类型:
    • 分类(Classification):输出离散值(如垃圾邮件检测)。
    • 回归(Regression):输出连续值(如房价预测、股票价格预测)。
  • 典型算法:
    • 线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林、神经网络等。

2、无监督学习(Unsupervised Learning)

  • 定义:仅提供输入数据而不提供对应的输出标签,模型需自行发现数据内部结构或分布规律。
  • 任务类型:
    • 聚类(Clustering):将数据划分为相似群体(如客户细分)。
    • 降维(Dimensionality Reduction):压缩数据维度(如主成分分析PCA)。
    • 关联规则学习:找出数据集中项目间的有趣关系,例如购物篮分析。
  • 典型算法:
    • K均值聚类、层次聚类、自编码器、生成对抗网络(GAN)、主成分分析(PCA)、独立成分分析(ICA)等。

3、半监督学习(Semi-Supervised Learning)

  • 定义:介于监督学习和非监督学习之间,结合少量有标签数据和大量无标签数据进行训练,降低标注成本。
  • 应用场景:当获取大量标记数据成本高昂时尤为有用,比如医学影像分析。
  • 常见方法:自训练、协同训练等。

4、强化学习(Reinforcement Learning)

  • 定义:通过与环境的交互试错,学习最优策略以最大化长期奖励。
  • 核心概念:
    • 智能体(Agent):执行动作的主体。
    • 奖励(Reward):环境反馈的即时收益。
    • 策略(Policy):动作选择的规则。
  • 应用示例:
    • 游戏AI(如AlphaGo)、机器人路径规划、自动驾驶。
  • 常见算法:Q-learning、Deep Q-Networks(DQN)、策略梯度方法等。

5、深度学习(Deep Learning)

  • 定义:属于机器学习的一个子领域,使用深层神经网络自动提取数据特征。
  • 优势:
    • 无需人工设计特征(如图像的边缘、纹理)。
    • 擅长处理非结构化数据(如图像、语音、文本)。
  • 典型模型:
    • 卷积神经网络(CNN)、循环神经网络(RNN)、Transformer(如GPT、BERT)。

3、机器学习的核心概念

1、数据与特征

  • 数据:机器学习的基石,质量直接影响模型性能。
    • 特征(Features):描述数据的属性(如图像的像素值、文本的词频)。输入到模型中的变量,这些变量被认为是影响最终输出的重要因素。
    • 标签(Labels):监督学习中的目标输出(如分类结果)。对于监督学习任务,每个训练样本都关联有一个目标值或标签,它是模型试图预测的内容。
  • 数据预处理:清洗噪声、标准化、特征工程(如PCA降维)。

2、模型与算法

  • 模型(Model):模型是对现实世界现象的一种抽象表示,是对数据规律的数学抽象,用于描述输入数据和输出结果之间的关系。
  • 算法(Algorithm):训练模型的具体方法,如梯度下降优化参数。

3、训练与评估

  • 训练:使用特定算法调整模型参数的过程,目的是最小化模型在给定数据集上的误差。
  • 训练过程:
    1. 输入训练数据(特征+标签)。
    2. 通过损失函数(如均方误差)衡量预测误差。
    3. 使用优化算法(如随机梯度下降SGD)调整模型参数。
  • 评估指标:
    • 分类任务:准确率、召回率、F1值。
    • 回归任务:均方误差(MSE)、R²值。

4、过拟合与欠拟合

  • 过拟合(Overfitting):模型在训练集表现好但测试集差(过度记忆数据噪声)。
    • 解决方法:正则化(L1/L2)、交叉验证、增加数据量。
  • 欠拟合(Underfitting):模型无法捕捉数据规律(过于简单)。
    • 解决方法:增加模型复杂度、优化特征工程。

4、机器学习主要步骤和工作流程

1、主要步骤

1、数据收集与预处理

  • 清洗数据(去噪、处理缺失值)。
  • 特征提取(如文本向量化、图像归一化)。
    2、模型选择与训练
  • 根据任务选择算法(如分类选随机森林,回归选线性回归)。
  • 划分训练集/验证集/测试集(如70%训练、15%验证、15%测试)。
    3、模型评估与调优
  • 使用交叉验证避免数据偏差
  • 调整超参数(如学习率、树深度)。
    4、部署与监控
  • 将模型集成到生产环境(如API服务)。
  • 持续监控模型性能(如数据漂移检测)。

2、工作流程

  1. 问题定义:确定你要解决的问题类型(分类、回归、聚类等)。
  2. 数据收集:收集相关领域的数据集,确保数据质量。
  3. 数据预处理:包括清洗、转换、归一化等步骤,使数据适合模型训练。
  4. 特征工程:选择或创建有助于提高模型性能的特征。
  5. 模型选择:基于问题性质选择合适的算法。
  6. 模型训练:使用训练数据调整模型参数。
  7. 模型评估:采用交叉验证等技术评估模型表现,选择适当的评价指标(准确率、召回率、F1分数等)。
  8. 模型优化:通过超参数调优、正则化等手段改进模型性能。
  9. 部署应用:将训练好的模型集成到实际业务流程中。

5、工具和技术栈

  • 编程语言:Python是最常用的语言之一,因其丰富的库支持。
  • 库与框架:
    • Scikit-learn:提供简单有效的数据挖掘和数据分析工具。
    • TensorFlow/Keras、PyTorch:强大的深度学习框架。
    • Pandas、Numpy:用于数据操作的基础库。
    • Matplotlib、Seaborn:可视化工具。
  • 云计算平台:AWS、Google Cloud、Azure等提供了便捷的计算资源和服务。

6、典型算法与应用场景

在这里插入图片描述

7、机器学习的挑战

1、数据问题

  • 数据质量差(噪声、缺失值)。
  • 数据偏见(训练集不均衡导致模型歧视)。

2、计算资源

  • 深度学习需要大量算力(如GPU集群)。

3、模型可解释性

  • 黑箱模型(如神经网络)难以解释决策逻辑。

4、伦理与安全

  • 数据隐私保护:随着GDPR等法规出台,如何在保证用户隐私的同时有效利用数据成为重要议题。(如人脸识别滥用)。
  • 对抗攻击(微小扰动误导模型)。

8、未来趋势

1、自动化(AutoML)

  • 降低机器学习门槛,减少人工干预,实现从数据准备到模型部署的全流程自动化。

2、小样本学习(Few-Shot Learning)

  • 在少量数据上快速学习(如医疗罕见病诊断)。

3、联邦学习(Federated Learning)

  • 分布式训练保护数据隐私(如跨机构联合建模)。

4、生成式AI

  • 结合深度学习生成高质量内容(如Stable Diffusion文生图)。

9、总结

机器学习是人工智能的核心技术,通过数据驱动的方式赋予计算机学习能力。其核心在于从数据中发现规律并构建模型,广泛应用于医疗、金融、自动驾驶等领域。尽管面临数据质量、计算资源等挑战,但随着AutoML、生成式AI等技术的发展,机器学习的应用边界将持续扩展。对于初学者,建议从监督学习和无监督学习入手,逐步掌握深度学习与强化学习,同时注重实践项目经验的积累。

向阳而生,Dare To Be!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86594.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【deepseek】TCP/IP ISO 卸载

TCP/IP 全卸载中的 LSO(Large Send Offload) 和 LRO(Large Receive Offload) 是网卡硬件加速技术,其核心目标是 将 TCP/IP 协议栈的处理任务从 CPU 转移到网卡硬件,从而大幅降低 CPU 负载并提升网络性能。以…

抖音小程序支付错误码141211

前情 uni-app是我比较喜欢的跨平台框架,它能开发小程序/H5/APP(安卓/iOS),重要的是对前端开发友好,自带的IDE让开发体验也挺棒的,公司项目就是主推uni-app 公司今年准备新开一个项目,但是对项目的未来和项目要做的规…

springcloud/springmvc协调作用传递验证信息

微服务架构的拆分,各模块之间使用feign组件来进行相互http转发通信。 前端与后端之间使用springcloud的网关来进行协调。 现在问题出现,用户的信息如何进行传递? 前端请求携带请求头,请求头中的authorization为携带的对应token…

Apache Flink Kafka 写连接器源码深度剖析

一、架构概述 Apache Flink 提供的 Kafka 写入连接器是实现与 Kafka 消息队列集成的关键组件,支持多种语义保证和灵活配置选项。本文将深入分析 Flink Kafka 写入连接器的源码实现,包括架构设计、核心类、事务机制和性能优化等方面。 1.1 整体架构 Fl…

强化学习理论基础:从Q-learning到PPO的算法演进(2)

文章目录 Policy gradient思想(REINFORCE算法)优势函数PPO(Proximal Policy Optimization)Policy gradient思想(REINFORCE算法) 下面我们来探讨一下Policy gradient策略,也就是REINFORCE算法。 在玩剪刀石头布这个简单的游戏中,我们可以有不同的策略。一种是完全随机地…

Oracle数据库文件变成32k故障恢复--惜分飞

最近一个客户数据库重启系统之后,数据文件大小变为了32kb,我接手的不是第一现场(客户那边尝试了rman还原操作),查看alert日志,数据库最初报错 Wed Jun 18 13:09:23 2025 alter database open Block change tracking file is current. Read of datafile D:\APP\ADMINISTRATOR\OR…

移动端 uniapp 写一个可自由拖拽的小键盘

写之前要考虑&#xff1a; 键盘展开后&#xff0c;不能超过手机边缘在底部展开键盘&#xff0c;键盘应出现在展开按钮上方&#xff1b;以此类推重复点击展开按钮&#xff0c;关闭键盘 效果&#xff1a; 代码如下&#xff0c;有些按键逻辑还需要优化 <template><vi…

《二分枚举答案(配合数据结构)》题集

文章目录 1、模板题集2、课内题集3、课后题集1. 字符串哈希2. 并查集3. ST表 1、模板题集 分巧克力 2、课内题集 倒水 冶炼金属 连续子序列的个数 3、课后题集 括号内的整数代表完整代码行数。 1. 字符串哈希 你猜猜是啥题(60) 2. 并查集 拯救萌萌(72) 3. ST表 GCD不小…

PY32F030单片机,优势替代ST GD,主频48MHz,带LED数码管驱动

PY32F030是一款高性能32位单片机&#xff0c;采用ARM Cortex-M0内核&#xff0c;工作频率高达48MHz&#xff0c;具备64KB Flash和8KB SRAM。它支持1.7V~5.5V宽电压范围&#xff0c;集成多路I2C、SPI、USART通讯外设&#xff0c;配备12位ADC、16位定时器和比较器&#xff0c;适用…

Rockchip Uboot中修改固件探测的存储介质

Rockchip Uboot中修改固件探测的存储介质 Rockchip uboot中支持从 eMMC、SDcard、NAND 、SPI_NAND、SPI_NOR等存储介质引导固件。 uboot的spl启动的时候会默认呢都会去探测这些介质&#xff0c;这样会导致探测时间变长&#xff0c;在实际产品中可以根据产品需求进行个性化的配…

动手学Python:从零开始构建一个“文字冒险游戏”

动手学Python&#xff1a;从零开始构建一个“文字冒险游戏” 大家好&#xff0c;我是你的技术向导。今天&#xff0c;我们不聊高深的框架&#xff0c;也不谈复杂的算法&#xff0c;我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏&…

基于Kafka实现企业级大数据迁移的完整指南

在大数据时代&#xff0c;数据迁移已成为企业数字化转型过程中的常见需求。本文将详细介绍如何利用Kafka构建高可靠、高性能的大数据迁移管道&#xff0c;涵盖从设计到实施的完整流程。 一、为什么选择Kafka进行数据迁移&#xff1f; Kafka作为分布式消息系统&#xff0c;具有…

GEO引领品牌大模型种草:迈向Web3.0与元宇宙的认知新空间

在数字技术的演进历程中&#xff0c;我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式&#xff0c;更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中&#xff0c;生成式引擎优化&a…

【机器学习与数据挖掘实战 | 医疗】案例18:基于Apriori算法的中医证型关联规则分析

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支,专注于让计算机系统通过数据学习和改进。它利用统计和计算方法,使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联…

83、高级特性-自定义starter细节

83、高级特性-自定义starter细节 自定义Spring Boot Starter可以将通用功能封装成可复用的模块&#xff0c;简化其他项目的配置和使用。以下是创建自定义Starter的详细步骤和关键细节&#xff1a; ### 1. 项目结构 通常&#xff0c;自定义Starter包含两个模块&#xff1a; ####…

专注推理查询(ARQs):一种提升大型语言模型指令遵循度、决策准确性和防止幻觉的结构化方法

大型语言模型&#xff08;LLMs&#xff09;在客户服务、自动化内容创作和数据检索方面变得至关重要。然而&#xff0c;它们的有效性常常因其在多次交互中无法始终如一地遵循详细指令而受到限制。在金融服务和客户支持系统等高风险环境中&#xff0c;严格遵循指南是必不可少的&a…

华为云Flexus+DeepSeek征文 | DeepSeek驱动的医疗AI Agent:智能问诊系统开发完整指南

华为云FlexusDeepSeek征文 | DeepSeek驱动的医疗AI Agent&#xff1a;智能问诊系统开发完整指南 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇…

【大模型水印论文阅读2】前缀文本编码、均匀性约束

TOC &#x1f308;你好呀&#xff01;我是 是Yu欸 &#x1f680; 感谢你的陪伴与支持~ 欢迎添加文末好友 &#x1f30c; 在所有感兴趣的领域扩展知识&#xff0c;不定期掉落福利资讯(*^▽^*) 写在最前面 版权声明&#xff1a;本文为原创&#xff0c;遵循 CC 4.0 BY-SA 协议。…

破茧时刻,与光同行

凌晨五点的闹钟刺破薄雾&#xff0c;我摸黑打开台灯。摊开的数学错题本上&#xff0c;函数图像在暖黄的光晕里舒展&#xff0c;像等待破译的密码。这样的清晨已持续三百多个日夜&#xff0c;我知道&#xff0c;在无数个相似的时刻里&#xff0c;总有千万盏台灯在黑暗中次第亮起…

Learning PostgresSQL读书笔记: 第8章 Triggers and Rules

本章将讨论以下内容&#xff1a; • 探索 PostgreSQL 中的规则 • 管理 PostgreSQL 中的触发器 • 事件触发器 探索 PostgreSQL 中的规则 文档中的这段话阐述了rule和trigger的区别&#xff1a; PostgreSQL 规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗…