吴恩达机器学习笔记(1)—引言

目录

一、欢迎

二、机器学习是什么

三、监督学习

四、无监督学习


一、欢迎

机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中,你不仅会学习机器学习的前沿知识,还将亲手实现相关算法,从而深入理解其内部机理。

事实上,机器学习已广泛渗透进我们的日常生活。例如,每次你使用 Google、Bing 进行搜索,或用 Facebook、Apple 的图像识别功能识别朋友,甚至邮箱中的垃圾邮件过滤器,背后都离不开机器学习算法的支持。这些算法让系统能够“学习”如何提供更好的服务。

机器学习之所以广受欢迎,是因为它不仅服务于人工智能领域,更已成为计算机的一种核心能力。我们以前可以手动编写程序来解决基础问题,比如寻找最短路径,但像网页搜索、图像识别、反垃圾邮件等复杂任务,则必须依靠机器自我学习来完成。

它在医疗、工程、计算生物学等多个行业中发挥着巨大作用。比如:

  • 数据挖掘:分析网页点击流数据,优化用户体验。

  • 医疗健康:通过分析电子病历,发现疾病模式。

  • 基因研究:处理大规模基因序列,探索生命奥秘。

  • 自动控制:如训练无人直升机自动飞行。

  • 手写识别:用于邮件自动分拣。

  • 自然语言处理与计算机视觉:提升语言和图像理解能力。

  • 个性化推荐系统:如 Amazon、Netflix、iTunes 的推荐功能。

此外,机器学习也被用来帮助我们理解人类学习本身和大脑的工作机制。它不仅推动 AI 梦想的实现,也是 IT 行业最受欢迎的技能之一。许多科技公司都在积极寻找掌握机器学习的人才,远远超出目前的供给。

二、机器学习是什么

虽然“机器学习”没有一个统一的定义,但有两个经典的描述:

  • Arthur Samuel(20世纪50年代)
    他将机器学习定义为“在没有明确设置的情况下,使计算机具有学习能力的研究领域”
    他创建了一个西洋棋程序,程序通过与自己对弈上万次,不断优化策略,最终下棋水平超过了他本人。

  • Tom Mitchell(卡内基梅隆大学)
    定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升
    例如:垃圾邮件过滤系统

    • 任务 T:识别垃圾邮件

    • 经验 E:观察是否把邮件标记为垃圾邮件

    • 性能度量 P:系统正确分类邮件的准确率

机器学习算法主要包括监督学习、无监督学习,以及其他类型如强化学习和推荐系统。

三、监督学习

监督学习指的就是给学习算法一个数据集,其中包含了“正确答案”,通过训练模型来学习已有数据中的规律,然后运用学习算法算出更多的“正确答案”。下面通过几个例子来理解它的核心思想。

例子1:预测房价(回归问题

这里有一份从俄勒冈州的波特兰市收集的房价数据,把这些数据画出来,如下图,横轴表示房子的面积(平方英尺),纵轴表示房价(千美元)。基于这组数据,如果有一套750平方英尺的房子,想知道这房子能卖多少钱?

可以应用学习算法,对数据进行拟合,比如用一条直线来拟合这些数据,由此看出房子可以卖大约15万美元;也可以用二次函数来拟合数据可能效果会更好,看出房子可以卖出接近20万美元。

这种任务就是回归问题,回归是指试图推测连续值的属性。 在这个例子中“正确答案”是房子的实际售价

例子2:通过查看病历来判断乳腺肿瘤是否为恶性(分类问题

假设有一组数据,横轴表示肿瘤的大小,纵轴是1或0,1代表恶性,0代表良性。有5个良性肿瘤样本,用蓝叉表示,有5个恶性肿瘤样本,用红叉表示。现在有个尺寸已知的乳腺肿瘤,能否估算出这个肿瘤是恶性还是良性的概率?

在机器学习的问题中,会有多个特征,比如除了肿瘤尺寸外,还知道患者年龄。如下图,横轴表示肿瘤的大小,纵轴表示患者年龄。数据集可能是蓝圈表示良性,红叉表示恶性。在给定的数据集上,学习算法可能用一条直线来分离,并以此来判断良性或恶性瘤。

在机器学习的算法中,往往会有更多特征,比如肿块密度、肿瘤细胞大小的一致性、肿瘤细胞形状的一致性等其它的特征。如何处理更多甚至无穷多的特征呢?后面会讲支持向量机算法,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。

这种任务属于分类问题,目标是推测出一个离散的输出(0或1)。分类问题中,有时会有两个以上的输出值,比如:0=良性,1=第一类乳腺癌,2=第二类乳腺癌,3=第三类乳腺癌。这些离散输出值对应不同的类别,因此属于多分类问题

四、无监督学习

在无监督学习中,我们的数据集没有标签或“正确答案”。我们不知道每个样本属于哪一类,甚至不知道应该有多少类。我们唯一拥有的只是原始的数据,算法的任务是从这些数据中自动发现结构或规律

一个典型的无监督学习任务是聚类(Clustering)。算法试图将数据划分为若干个簇,如下图:算法可以自动识别出两个明显不同的簇(群组),即使我们事先并不知道这些簇的存在。

 

 聚类算法的实际应用,比如:

  • 谷歌新闻聚类

一个非常贴近生活的应用是 Google News。它每天会收集大量新闻内容,并使用聚类算法自动将相关的新闻归到一起。你看到的每一组新闻,其实是无监督学习算法将它们聚到一起的结果。

  • 基因表达分析

聚类算法也应用在基因数据分析中。例如,我们可以对不同个体的DNA微阵列数据进行分析,试图找出是否存在某些特定的基因表达模式。虽然我们并不知道哪些人属于哪一类,但通过聚类算法,我们可以将具有相似基因表达的个体归为一类。

无监督学习及其聚类算法被广泛应用于以下领域:

  • 计算机集群管理

在大数据中心,通过聚类算法自动识别哪些计算机可以协同工作,以提高效率。

  • 社交网络分析

分析你常联系的人,自动将社交网络中的朋友分组,每组中的人彼此熟识。

  • 市场细分(Market Segmentation)

企业可以使用顾客数据,自动将用户划分为不同的市场细分群体,进而进行更有针对性的营销。

  • 天文数据分析

聚类算法也被用于分析星系形成过程,提供了很多有趣且有用的理论支持。

另一种无监督学习任务是鸡尾酒宴问题。你可以想象在一个嘈杂的鸡尾酒宴会中,有两个人同时在说话。我们在房间里放置两个麦克风,分别录下两段混合音频。任务是从这两段录音中分离出各自的说话声。这个任务同样属于无监督学习。你不知道哪个声音是谁的,只能让算法自己去从音频中“解混合”,分离出原始的音频源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java笔记08

多线程&JUC 1.什么是多线程 1.什么是多线程?有了多线程,我们就可以让程序同时做多件事情 2.多线程的作用?提高效率 3.多线程的应用场景?只要你想让多个事情同时运行就需要用到多线程比如:软件中的耗时操作、所有…

【仿muduo库实现并发服务器】使用正则表达式提取HTTP元素

使用正则表达式提取HTTP元素 1.正则表达式2.正则库的使用3.使用正则表达式提取HTTP请求行 1.正则表达式 正则表达式它其实是描述了一种字符串匹配的模式,它可以用来在一个字符串中检测一个特定格式的字串,以及可以将符合特定规则的字串进行替换或者提取…

显示即战略:铁电液晶如何成为 “数字中国” 的 “像素基石”?

一、显示技术:数字时代的核心战略支点 (一)从 “视觉窗口” 到 “战略基础设施” 在数字经济蓬勃发展的当下,显示技术早已超越了单纯的 “视觉呈现” 范畴,成为连接人与数字世界的关键接口。从智能手机、平板电脑到车…

适合小白的超详细配置YOLOv8教程(毕设必看)(训练自己数据集)(Pycharm保姆级安装教程)(lablme的使用)(GPU版)

目录 1.Pycharm的安装和虚拟环境调用(已经安装好的可以跳过此步骤) 1.1 下载pycharm软件 1.2 调用已创建虚拟环境(调用上一篇教程中创建好的虚拟环境) 2.标注自己数据集(已有数据集的这部分可跳过) 2.1…

EC800X QuecDuino开发板介绍

支持的模组列表 EG800KEC800MEC800GEC800E 功能列表 基本概述 EC800X QuecDuino EVB 搭载移远 EC800 系列模组。支持模组型号为: EC800M 系列、EC800K 系列、EG800K 系列、EC800E 系列等。 渲染图 开发板的主要组件、接口布局见下图 资料下载 EC800X-QuecDui…

Unity + HybirdCLR热更新 入门篇

官方文档 HybridCLR | HybridCLRhttps://hybridclr.doc.code-philosophy.com/docs/intro 什么是HybirdCLR? HybridCLR(原名 huatuo)是一个专为 Unity 项目设计的C#热更新解决方案,它通过扩展 IL2CPP 运行时,使其支持动态加载和…

类 Excel 数据填报

类 Excel 填报模式,满足用户 Excel 使用习惯 数据填报,可作为独立的功能模块,用于管理业务流程、汇总采集数据,以及开发各类数据报送系统,因此,对于报表工具而言,其典型场景之一就是利用报表模…

MySQL 8.0 OCP 英文题库解析(十)

Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题81~90 试题81:…

JavaScript 性能优化实战:从原理到框架的全栈优化指南

在 Web 应用复杂度指数级增长的今天,JavaScript 性能优化已成为衡量前端工程质量的核心指标。本文将结合现代浏览器引擎特性与一线大厂实践经验,构建从基础原理到框架定制的完整优化体系,助你打造高性能 Web 应用。 一、性能优化基础&#x…

基于Web的分布式图集管理系统架构设计与实践

引言:为什么需要分布式图集管理? 在现代Web图形应用中,纹理图集(Texture Atlas)技术是优化渲染性能的关键手段。传统的图集制作流程通常需要美术人员使用专业工具(如TexturePacker)离线制作&am…

鸿蒙OS在UniApp中集成Three.js:打造跨平台3D可视化应用#三方框架 #Uniapp

在UniApp中集成Three.js:打造跨平台3D可视化应用 引言 在最近的一个项目中,我们需要在UniApp应用中展示3D模型,并实现实时交互功能。经过技术选型和实践,我们选择了Three.js作为3D渲染引擎。本文将分享我们在UniApp中集成Three.…

Flask中关于app.url_map属性的用法

目录 一、app.url_map 是什么? 二、可以查看哪些信息? 三、示例:打印所有路由 四、结合 url_for() 使用 五、常见用途场景 六、结合 Flask CLI 使用 总结 app.url_map 是 Flask 中非常重要的一个属性,用于查看或操作整个应用的 URL 路由映射表(routing map)。它展…

SpringBoot项目搭建指南

SpringBoot项目搭建指南 文章目录 SpringBoot项目搭建指南一、SpringBoot项目搭建1.1 SpringBoot 版本选择1.2 SpringBoot 框架引入方式1.2.1 继承 Starter Parent POM1.2.2 不使用 Parent POM 来使用 Spring Boot 1.3 SpringBoot 打包插件 二、日志框架引入2.1 引入SpringBoot…

数据库系统概论(十六)数据库安全性(安全标准,控制,视图机制,审计与数据加密)

数据库系统概论(十六)数据库安全性 前言一、数据库安全性1. 什么是数据库安全性?2. 为何会存在安全问题? 二、安全标准的发展1. 早期的“开拓者”:TCSEC标准2. 走向国际统一:CC标准3. TCSEC和CC标准有什么不…

Jvm 元空间大小分配原则

JVM元空间(Metaspace)的大小分配原则与系统物理内存密切相关,但并不是直接等比例分配,而是通过一系列参数和JVM的动态管理机制来确定。下面从原理和实际行为两方面详细说明: 1. 元空间(Metaspace&#xff0…

编程之巅:语言的较量

第一章:代码之城的召集令 在遥远的数字大陆上,有一座名为“代码之城”的神秘都市。这里居住着各种编程语言的化身,他们以拟人化的形态生活,每种语言都有独特的性格与技能。Python是个优雅的学者,C是个硬核战士&#x…

飞牛fnNAS装机之迷你小主机的利旧

前几天找Console线的时候,翻出一台迷你小主机,想起来以前是做“软路由”用的,现在用不上了。本想放回箱子,但突然想起最近正在做飞牛NAS的专题,不如将其改造成NAS得了。 这个东东有HDMI、VGA接口,2个USB(其中一个支持3.0),还有4个网口。 打开机盖,看看内部情况。发现…

uv:一个现代化的 Python 依赖管理工具

在 Python 的生态系统中,依赖管理和 Python 版本管理一直是开发者关注的核心问题。传统的工具如 pip、poetry 和 pyenv 虽然功能强大,但在性能和使用体验上仍有改进空间。uv 是由 Python 核心开发者开发的 现代化依赖管理工具,旨在提供更快、…

ubuntu 22.04安装k8s高可用集群

文章目录 1.环境准备(所有节点)1.1 关闭无用服务1.2 环境和网络1.3 apt源1.4 系统优化1.5 安装nfs客户端 2. 装containerd(所有节点)3. master的高可用方案(master上操作)3.1 安装以及配置haproxy&#xff…

PnP(Perspective-n-Point)算法 | 用于求解已知n个3D点及其对应2D投影点的相机位姿

什么是PnP算法? PnP 全称是 Perspective-n-Point,中文叫“n点透视问题”。它的目标是: 已知一些空间中已知3D点的位置(世界坐标)和它们对应的2D图像像素坐标,求解摄像机的姿态(位置和平移&…