第4讲 机器学习基础概念

机器学习作为人工智能的子领域,专注于训练计算机算法自动发现数据中的模式与关联关系。以下是其核心基础概念:

4.1 数据

数据是机器学习的基石。缺乏数据,算法将无从学习。数据可呈现为结构化数据(如电子表格、数据库)和非结构化数据(如文本、图像)等形式。训练数据的质量与数量对算法性能具有决定性影响。

4.2 特征

特征是描述输入数据的变量或属性。关键在于选择最具相关性和信息量的特征,以确保算法做出准确预测或决策。特征选择是机器学习流程中的核心环节,算法性能很大程度上取决于特征的质量与相关性。

4.3 模型

机器学习模型是输入数据(特征)与输出(预测或决策)之间关系的数学表征。模型通过训练数据集构建,并经由独立验证数据集评估,其核心目标是能够准确泛化至未知的新数据。

4.4 训练

训练是教导算法进行准确预测的过程。通过提供大规模数据集,使算法学习数据中的模式与关联。在此过程中,算法通过调整内部参数来缩小预测输出与实际结果之间的差距。

4.5 测试

测试用于评估算法在未知数据集上的性能表现,旨在验证其泛化能力。若在测试集上表现良好,则表明模型构建成功。

4.6 过拟合

当模型过于复杂且过度贴合训练数据时会出现过拟合。这将导致模型在未知数据上表现不佳,因其过度特化于训练集。为防止过拟合,需采用验证集评估性能,并运用正则化技术简化模型。

4.7 欠拟合

当模型过于简单无法捕捉数据中的模式时会产生欠拟合。这将导致训练集和测试集上的双重表现不佳。改进技术包括增加模型复杂度、收集更多数据、降低正则化强度以及特征工程。

需注意,预防欠拟合需要在模型复杂度与数据量之间寻求平衡。增加模型复杂度可缓解欠拟合,但若数据量不足,反而可能引发过拟合。因此必须持续监控模型性能并动态调整复杂度。

4.8 机器学习的需求场景

除已知需求外,还需明确何时需要让机器进行学习。以下场景中采用机器学习尤为高效:

(1)人类专家缺失

在缺乏人类专业知识的领域(例如未知领域或外星探测导航),需依靠机器进行数据驱动决策。

(2)动态环境

对于网络连接、基础设施可用性等持续变化的场景,需要机器通过自主学习适应动态变化。

(3)难以转化为计算任务

在语音识别、认知任务等人类具备专业知识但无法转化为计算任务的领域,机器学习成为必然选择。

4.9 机器学习模型定义

参考Mitchell教授的形式化定义:

"若计算机程序在任务T上的性能指标P随着经验E积累而提升,则称该程序具有学习能力。"

该定义聚焦三个核心参数(也是学习算法的主要构成):

(1)任务(T)

(2)性能(P)

(3)经验(E)

可简化为:机器学习是由学习算法构成的AI领域,这些算法能够:

• 在特定任务(T)上

• 随着经验(E)积累

• 持续提升性能(P)

基于此定义,下图展示了机器学习模型的基本框架:

  

机器学习核心三要素详解

以下我们对任务(T)、经验(E)和性能(P)进行深入解析:

(1)任务(T)

从问题视角看,任务T可定义为待解决的实际问题,例如预测某地最优房价或制定最佳营销策略等。然而在机器学习范畴中,任务的定义具有特殊性——因其往往无法通过传统编程方法解决。

当任务需要基于特定流程处理数据点且系统必须遵循该流程时,即可称为机器学习任务。典型类型包括:

1)分类(Classification)

2)回归(Regression)

3)结构化标注(Structured annotation)

4)聚类(Clustering)

5)转录(Transcription)

(2)经验(E)

指算法或模型从数据点中获取的知识。给定数据集后,模型通过迭代运行学习内在规律,由此获得的知识即为经验(E)。类比人类学习:如同人们从情境、关联等多元属性中汲取经验,机器学习亦通过监督学习、无监督学习和强化学习等方式积累经验。这些经验将用于解决任务T。

(3)性能(P)

机器学习算法随时间推移执行任务并积累经验,其表现是否符合预期需要通过性能(P)来衡量。P是量化指标,用于评估模型如何运用经验(E)完成任务(T)。常用评估指标包括:

1)准确率(Accuracy score)

2)F1分数(F1 score)

3)混淆矩阵(Confusion matrix)

4)精确率(Precision)

5)召回率(Recall)

6)敏感度(Sensitivity)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98696.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go组合式继承:灵活替代方案

Go 语言没有传统面向对象编程中的继承机制,但通过组合和接口实现类似功能。Go 更提倡组合优于继承的设计原则,这种设计方式更灵活且易于维护。结构体组合(伪继承)通过嵌套结构体实现类似继承的效果。子结构体可以直接访问父结构体…

Verilog三段式FSM,实现十字路口红绿灯

运行环境:VCS verdi状态说明:S0 : 初始状态 S1 : 东西方向绿灯亮,南北方向红灯亮;点亮30周期 S2 : 东西方向黄灯亮,南北方向红灯亮;点亮2 周期 S3 : 东西方向…

java 将pdf转图片

如何将pdf文件转为图片 import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.rendering.PDFRenderer; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; public class Pdf2Png {/**…

手搓Spring

目录 两种方法创建Spring容器 自定义Spring容器及前置操作 Spring扫描逻辑实现 createBean()方法 getBean()方法 依赖注入(DI) BeanNameAware接口 InitializingBean接口 BeanPostProcessor接口 AOP的实现 Spring 是一个轻量级的 Java 开发框架…

.NET 单文件程序详解:从原理到实践

C# 混淆加密大师在最新版本中, 提供了.NET单文件解包打包功能, 它可以快速解包官方打包的单文件程序,恢复为原始的多文件结构。也可以对解包后的程序集进行混淆与加密,有效提升逆向门槛。最后还能重新打包成单文件程序,保持对用户友好的分发形…

Spring面试题记录?

请简述 Spring 框架的核心是什么?它主要包含了哪些核心模块? spring的核心模块主要有spring-core(工具类,资源加载),spring-bean(bean的定义,创建,封装)&…

一次缓存引发的文件系统数据不一致问题排查与深度解析

01 起因EFC(Elastic File Client)是 NAS 自研的分布式文件系统客户端,最近完成了对缓存架构的更新,现在支持多个客户端之间构成分布式缓存,底层支持 NAS、CPFS 和 OSS。由于开发时间较短,一直没有做 NAS 场…

Spring Boot Gateway 教程:从入门到精通

一、Spring Cloud Gateway 简介Spring Cloud Gateway 是基于 Spring 5、Project Reactor 和 Spring Boot 2 构建的 API 网关,旨在为微服务架构提供一种简单而有效的路由管理方式。它取代了 Netflix Zuul,提供了更高效和更强大的网关解决方案。核心特点&a…

防火墙 只允许信任的几台服务器访问

1. 首先,确保 firewalld 服务正在运行:systemctl start firewalld systemctl enable firewall2. 设置默认拒绝规则:设置默认拒绝所有流量(拒绝所有的入站流量):firewall-cmd --zonepublic --add-rejectal…

十三,数据结构-树

定义树也是基于节点的数据结构,和链表不同的是,树的节点可以指向多个节点。首先对树的一些常用术语进行说明:最上面的节点叫做根节点,根位于树顶,如图中的节点A;和族谱一样,节点有后代和祖先&am…

JVM-默背版

1.JVM对sychronized的优化:锁膨胀、锁消除、锁粗化、自适应自旋锁 (1)锁膨胀:从无锁、偏向锁、轻量级锁、重量级锁的过程叫做锁膨胀。在JDK1.6以前,sychronized是由重量级锁实现的,加锁和解锁的过程需要从用…

Mac M 系列芯片 YOLOv8 部署教程(CPU/Metal 后端一键安装)

在 Mac M 系列芯片(Apple Silicon/ARM 架构)上部署 YOLOv8,有一些注意事项:PyTorch 需要安装 ARM 原生版本,推理可利用 Metal 后端加速 CPU。本文教你一步步完成环境配置、模型下载、依赖安装和验证推理。1️⃣ 环境准…

Python爬虫实战:研究Units模块,构建气象数据采集和分析系统

1. 引言 1.1 研究背景 随着信息技术的飞速发展,互联网已成为全球最大的信息库,涵盖气象、金融、医疗、农业等多个领域的海量数据。这些数据蕴含着巨大的潜在价值,如何有效获取并深入分析这些数据成为当下研究的热点。Python 作为一种功能强大的编程语言,凭借其丰富的库资…

网页设计模板 HTML源码网站模板下载

互联网已成为现代社会不可或缺的一部分,网站则是连接线上与线下世界的桥梁。无论是用于展示个人作品集、推广商业产品还是提供公共服务信息,一个设计精良且功能完善的网站都能发挥巨大作用。然而,传统的手工编码方式不仅耗时费力,…

Flink KeyedProcessFunction为什么能为每个key定义State和Timer?

问题描述 一个常见的开窗逻辑(12H 或者 500条): import org.apache.flink.api.common.state.ValueState; import org.apache.flink.api.common.state.ValueStateDescriptor; import org.apache.flink.api.common.typeinfo.Types; import or…

【C++】模版初阶---函数模版、类模版

🌟个人主页:第七序章 🌈专栏系列:C++ 目录 ❄️前言: 🌈1.泛型编程: 🌈2.函数模板 🍭2.1函数模板概念 🍭2.2函数模板格式 &am…

查找算法(Java)

目录 一.定义 二.分类 三.线性查找 原理: 思路分析 代码实现 例题实践 1.两数之和 方法一:暴力穷举法 思路分析 代码实现 方法二:创建哈希表 思路分析 代码实现 2.移动零 思路分析 代码实现 四.二分查找 原理: …

计算机网络--四层模型,IP地址和MAC地址

四层模型:分别是应用层,传输层,网络层和链路层。应用层:提供了应用程序之间相互通信的接口,允许用户访问网络服务。这一层定义了应用程序如何与底层网络进行交互。例如HTTP协议。传输层:它处理数据的分段、…

解析、创建Excel文件的开源库OpenXLSX介绍

OpenXLSX是一个C库,用于读取、写入、创建和修改.xlsx格式的Microsoft Excel文件,源码地址:https://github.com/troldal/OpenXLSX ,License为BSD-3-Clause,可在Windows、Linux、MaCOS平台上使用。最新发布版本为v0.3.2&…

【C++】C++11 篇二

【C】C11 篇二前言移动构造函数移动赋值运算符重载类成员变量初始化 (缺省值出自C11强制生成默认函数的关键字default:禁止生成默认函数的关键字delete:继承和多态中的final与override关键字(出自C11可变参数模板递归函数方式展开参数包逗号表达式展开参…