CS224n:Word Vectors and Word Senses(二)

目录

一、共现矩阵

1.1 基于共现矩阵的词向量

二、SVD分解

2.1 基于共现矩阵的词向量 vs. Word2Vec词向量

三、GloVe词向量

3.1 GloVe词向量的好处

3.2 GloVe的一些结果展示


部分笔记来源参考

Beyond Tokens - 知乎 (zhihu.com)

NLP教程(1) - 词向量、SVD分解与Word2Vec (showmeai.tech)

一、共现矩阵

1.1 基于共现矩阵的词向量

先来回顾一下上节的Word2Vec的核心思想:让相邻的词的向量表示相似。

我们实际上还有一种更加简单的思路——使用「词语共现性」,来构建词向量,也可以达到这样的目的。即,我们直接统计哪些词是经常一起出现的,那么这些词肯定就是相似的。那么,每一个词,都可以做一个这样的统计,得到一个共现矩阵(word-word co-occurrence matrix)。

上面的例子中,给出了三句话,假设这就是我们全部的语料。我们使用一个size=1的窗口,对每句话依次进行滑动,相当于只统计紧邻的词。这样就可以得到一个共现矩阵。

共现矩阵的每一列,自然可以当做这个词的一个向量表示。这样的表示明显优于one-hot表示,因为它的每一维都有含义——共现次数,因此这样的向量表示可以求词语之间的相似度。

直接基于共现矩阵构建词向量,会有一些明显的问题,如下:

怎么解决这个问题呢?这就引出了我们第二节要讲的SVD矩阵分解。

二、SVD分解

我们将巨大的共现矩阵进行SVD分解后,只选取最重要的几个特征值,得到每一个词的低维表示,从而解决维度问题,讲到这里了,顺便讲讲SVD的数学原理。

它可以将任意一个实数矩阵 M分解成三个特殊矩阵的乘积,如下:

从几何的意义很好理解,记M是一个线性变换,即对一个向量从V的空间旋转(V^{T})、拉伸(\Sigma)、再旋转(U)到U的空间,如下:

从几何的意义上,具体的原理如下:

M经过数次迭代后可以整理成我们想要得到的样子

我们通过构建共现矩阵、进行SVD降维,可视化,依然呈现出了类似Word2Vec的效果。

但是还有一些问题,由于共现矩阵巨大,SVD分解的计算代价也是很大的。另外,像a、the、is这种词,与其他词共现的次数太多,也会很影响效果。所以,我们需要使用很多技巧,来改善这样的词向量。例如,直接把一些常见且意义不大的词忽略掉;把极度不平衡的计数压缩到一个范围;使用皮尔逊相关系数,来代替共现次数等等很多技巧。

2.1 基于共现矩阵的词向量 vs. Word2Vec词向量

三、GloVe词向量

这里我们采用第一种

我们和Word2vec的loss函数(下图)对比一下,会发现这里loss的分母没有显式出现,这是因为分母已通过 Softmax 中的归一化项隐式包含在Q_{ij}中。

其实就是一个新的交叉熵函数。交叉熵,只是众多损失函数中的一种,而交叉熵损失函数天然有一些缺陷:由于它是处理两个分布,而很多分布都具有「长尾」的性质,这使得基于交叉熵的模型常常会给那些不重要、很少出现的情形给予过高的权重。另外,由于我们需要计算概率,所以「必须进行合理的规范化」(normalization),规范化,就意味着要除以一个「复杂的分母」,像Softmax中,我们需要遍历所有的词汇来计算分母,这样的开销十分巨大。

至此,我们得到了GloVe的损失函数(一套词向量版):

3.1 GloVe词向量的好处

3.2 GloVe的一些结果展示

本小节结束

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94135.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94135.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

I Built an Offline-Capable App by Myself: React Native Frontend, C# Backend

This isn’t a story about gluing together a few UI components. It’s about how I, as a solo developer, built a complete mobile application that works offline, syncs data automatically when online, and shares a unified backend with a web-based admin panel. …

在Idea中,配置maven

✨ 哈喽,屏幕前的每一位开发者朋友,你们好呀!✨​ 当你点开这篇文章时,或许正对着 IDE 里闪烁的光标发呆,或许刚解决一个卡了三天的 bug,正端着咖啡松口气 —— 不管此刻的你在经历什么,都想先和…

mac 字体遍历demo

文章目录逻辑字体类头文件实现文件使用文件主程序CMakeLists文件脚本文件逻辑字体类 #ifndef LOGICAL_FONT_H #define LOGICAL_FONT_H#include <string> #include <memory> #include <CoreText/CoreText.h> #include <CoreFoundation/CoreFoundation.h&g…

2025牛客多校第六场 D.漂亮矩阵 K.最大gcd C.栈 L.最小括号串 个人题解

L.最小括号串 #数组操作 #贪心 题目 思路 感谢Leratiomyces大佬赛时的提示&#xff0c;否则估计还一直签不了到&#xff08;&#xff09; 首先&#xff0c;贪心地构造出最优情况&#xff1a;数组左半部分全是(&#xff0c;右半部分全是)&#xff0c;随后通过判断给定的区间…

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble 为例)

目录前言1. 准备下载源码方式一&#xff1a;方式二&#xff1a;安装依赖安装 Gazebo2. 安装 Micro XRCE-DDS Agent3. 编译4. 通信5. offboard 测试参考前言 本教程基于 ROS2 &#xff0c;在搭建之前&#xff0c;需要把 ROS2、QGC 等基础环境安装配置完成。但是这块的资料相比较…

自动驾驶中的传感器技术11——Camera(2)

1、自驾Camera关键技术点汇总 ADAS Camera 关键技术点摘选&#xff08;IEEE-P2020工作组&#xff09;如下&#xff1a; Ref &#xff1a; 5. IEEE 相关标准 - 图像质量与色彩技术知识库 https://www.image-engineering.de/content/library/white_paper/P2020_white_paper.pd…

福彩双色球第2025088期篮球号码分析

蔡楚门福彩双色球第2025088期篮球号码分析&#xff0c;上期开出篮球号码数字08&#xff0c;数字形式是合数偶数2路球数字&#xff0c;小号区域&#xff0c;0字头数字。本期篮球号码分析&#xff0c;4尾数0414遗漏9期上次遗漏11期&#xff0c;2尾数0212遗漏4期上次遗漏27期&…

【兆易创新】单片机GD32F103C8T6系列入门资料

GD32F103xx 系列器件是一款基于ARM Cortex-M3 RISC内核的32位通用微控制器&#xff0c;在处理能力、降低功耗和外设方面具有超优的性价比。Cortex-M3是下一代处理器核心&#xff0c;它与嵌套矢量中断控制器(NVIC)&#xff0c; SysTick计时器和高级调试支持紧密耦合。 GD32F103…

高效轻量的C++ HTTP服务:cpp-httplib使用指南

文章目录httplib介绍与安装使用案例httplib介绍与安装 C HTTP 库&#xff08;cpp-httplib&#xff09;是一个轻量级的 C HTTP 客户端/服务器库&#xff0c;它提供了简单的 API 来创建 HTTP 服务器和客户端&#xff0c;支持同步和异步操作。以下是一些关于cpp-httplib 的主要特…

24 SAP CPI 调用SAP HTTP接口

SAP CPI 访问SAP接口一般用RFC或者HTTP,个人在项目中两种方法都用过,最后还是倾向于HTTP的方式,此方式易于维护,统一管理,接口搭建比较方便。 读者朋友可网上自行搜索"SAP 发布HTTP接口",SAP CPI调用SAP发布的HTTP接口。 配置CPI接口前,需要将CPI的证书导入…

C/C++常用字符串函数

一、字符串函数介绍&#xff1a; 字符串作为程序中常用的数据类型&#xff0c;学会对字符串进行处理是作为一名C/C程序员的基本功&#xff0c;我们要学会使用相关函数&#xff0c;并且对重点函数要会自己手动实现&#xff08;下文对重点函数有实现代码以及相关示例&#xff09…

YOLO的Python实现以及 OpenCV

YOLO的Python实现以及 OpenCV Darknet 实现 YOLO 从头开始开发 YOLO模型不容易&#xff0c;所以我们要使用预训练模型在项目里进行目 标检测。你可以在 https://pjreddie.com里到所有可用的预训练模型。这是 Joseph C. Redmon的主页&#xff0c;他是 Darknet的维护者。 注意 …

译|Netflix 数据平台运营中基于机器学习自动修复系统

来自上传文件中的文章《Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data Platform》 本文介绍了Netflix如何将基于规则的错误分类器与机器学习服务集成&#xff0c;实现Spark作业失败的自动修复。技术亮点包括结合规则和ML智…

PAES算法求解 ZDT1 双目标优化问题

前言 提醒&#xff1a; 文章内容为方便作者自己后日复习与查阅而进行的书写与发布&#xff0c;其中引用内容都会使用链接表明出处&#xff08;如有侵权问题&#xff0c;请及时联系&#xff09;。 其中内容多为一次书写&#xff0c;缺少检查与订正&#xff0c;如有问题或其他拓展…

逻辑回归的应用

一参数逻辑回归参数及多分类策略等完整解析LogisticRegression 初始参数声明LogisticRegression(penaltyl2, dualFalse, tol0.0001, C1.0, fit_interceptTrue, intercept_scaling1, class_weightNone, random_stateNone, solverliblinear, max_iter100, multi_classovr, verbos…

C语言(长期更新)第7讲:VS实用调试技巧

C语言&#xff08;长期更新&#xff09; 第7讲 VS实用调试技巧 跟着潼心走&#xff0c;轻松拿捏C语言&#xff0c;困惑通通走&#xff0c;一去不回头~欢迎开始今天的学习内容&#xff0c;你的支持就是博主最大的动力。 目录 C语言&#xff08;长期更新&#xff09; 第7讲 …

CONTRASTIVE-KAN:一种用于稀缺标记数据的网络安全半监督入侵检测框架

研究背景与挑战​ ​工业环境需求​: 第四次工业革命中,物联网(IoT)和工业物联网(IIoT)的普及使网络安全成为关键挑战。 入侵检测系统需实时性高,尤其对关键基础设施(如燃气管道)的快速攻击检测至关重要。 ​核心问题​: ​标签数据稀缺​:工业系统多数时间处于正常…

综合:单臂路由+三层交换技术+telnet配置+DHCP

技术考核1 实验拓扑&#xff1a;实验需求 1.按照图示配置IP地址设备名 2.在SW1和SW2之间配置链路聚合增加链路带宽&#xff0c;提高可靠性 3.PC5和PC6属于VLAN10&#xff0c; PC7和PC8属于VLAN20 4.SW1和SW2属于二层交换机&#xff0c;SW3为三层交换机&#xff08;VLAN100用于对…

工业火焰识别漏报率↓78%!陌讯多模态融合算法实战解析

原创声明&#xff1a;本文技术方案解析基于陌讯技术白皮书2025版 标签&#xff1a;#陌讯视觉算法 #火焰识别优化 #工业安全监控 #边缘计算优化一、行业痛点&#xff1a;工业火灾监控的漏检危机据《2025工业安全白皮书》统计&#xff0c;化工场景传统火焰识别系统漏报率高达35%&…

C++引用:高效安全的别名机制详解

目录 一、引用的概念 二、引用的特性 1、定义时必须初始化 2、一个变量可以有多个引用 3、引用一旦绑定实体就不能更改 三、const引用&#xff08;常引用&#xff09; 1、const引用的基本特性 2、临时对象与const引用 3、临时对象的特性 4、const 引用作为函数形参 …