【论文阅读】Deep Adversarial Multi-view Clustering Network


摘要

多视图聚类通过挖掘多个视图之间的共同聚类结构,近年来受到了越来越多的关注。现有的大多数多视图聚类算法使用浅层、线性嵌入函数来学习多视图数据的公共结构。然而,这些方法无法充分利用多视图数据的非线性特性,而这种特性对于揭示复杂的聚类结构非常重要。本文提出了一种新颖的多视图聚类方法——深度对抗多视图聚类(Deep Adversarial Multi-view Clustering, DAMC)网络,用于学习嵌入在多视图数据中的内在结构。具体而言,我们的模型采用深度自编码器来学习由多个视图共享的潜在表示,同时利用对抗训练进一步捕获数据分布并解耦潜在空间。在多个真实数据集上的实验结果表明,该方法优于当前最先进的方法。

引言

1 引言

聚类分析是机器学习、模式识别、计算机视觉和数据挖掘等多个领域中的一项基础任务。在这一主题上,研究人员投入了大量精力,其中多视图聚类(multi-view clustering, MVC)[Yang and Wang, 2018] 受到了特别的关注。多视图数据能够为聚类任务提供互补信息,这在许多真实应用中是可以获取的。例如,一张图像可以由多种描述符来表征,如 SIFT [Lowe, 2004]、方向梯度直方图(HOG)[Dalal and Triggs, 2005]、GIST [Oliva and Torralba, 2001] 和局部二值模式(LBP)[Ojala et al., 2002]。由于这些特征从不同角度描述了对象的属性,因此它们被视为多视图数据。近年来,多视图聚类方法 [Zhao et al., 2017; Luo et al., 2018] 得到了快速发展,其核心在于挖掘多视图之间共享的互补信息。在此基础上,过去几十年中,已经有许多先进的多视图聚类算法被提出。

例如,[Liu et al., 2013b] 从非负矩阵分解的角度解决了这一问题,通过在多个视图间进行非负矩阵分解来寻找公共潜在因子;一致性与特定性多视图子空间聚类(CSMSC)[Luo et al., 2018] 则利用一个公共一致性表示和一组特定性表示来刻画多视图数据的自表达特性,更好地适配了真实的多视图数据集。虽然传统的多视图聚类算法已取得了较好效果,但它们主要使用浅层、线性嵌入函数来揭示数据的内在结构,无法有效建模复杂数据的非线性特性。

近年来,深度聚类方法被提出,用于利用深度神经网络建模数据样本之间的关系,从而获得聚类结果。在单视图聚类方法中,DSC [Ji et al., 2017] 以堆叠自编码器为基础模型,利用自表达特性在潜在空间中学习数据的相似度;DAC [Chang et al., 2017] 将聚类问题转化为二值对分类框架,推动相似的图像对归入同一簇;DEC [Xie et al., 2016] 通过最小化预测簇标签分布与预定义分布之间的 KL 散度设计了一种新的聚类目标函数。另一方面,一些最新研究尝试将深度学习引入多视图聚类问题。例如,[Andrew et al., 2013] 提出了典型相关分析(CCA)的深度神经网络扩展——深度 CCA,用于多视图聚类;[Abavisani and Patel, 2018] 则使用卷积神经网络进行无监督多模态子空间聚类。然而,利用深度神经网络在多视图间学习低维潜在空间的研究仍然较少。

在本文中,我们提出了一种新颖的深度对抗多视图聚类(Deep Adversarial Multi-view Clustering, DAMC)网络,用于学习嵌入在多视图数据中的内在结构(见图1)。我们的模型通过共享权重的多视图自编码器网络,从原始特征有效映射到公共低维嵌入空间。与传统算法相比,该方法能够揭示多视图数据的非线性特性,这对于处理复杂和高维数据至关重要。此外,我们采用对抗训练 [Goodfellow et al., 2014] 作为正则化器来引导编码器训练,从而捕获每个单视图的数据分布,并进一步解耦公共潜在空间。在图像和文本数据集上的实验结果表明,该方法优于其他多视图聚类方法。

我们的主要贡献如下:

  • 提出一种新颖的 DAMC 网络:不同于现有的多视图聚类方法,所提方法能够充分建模任意视图之间的多层非线性相关性。

  • 针对每个视图设计判别器网络:能够进一步捕获数据分布并解耦潜在空间。

  • 设计聚类损失约束公共表示:通过最小化预测标签分布与预定义分布之间的相对熵,实现公共表示的优化。

方法

 网络架构

给定一个包含 VV 个视图的数据集 χ={X1,…,Xv,…,XV},其中 Xv∈Rdv×n表示来自第 vv 个视图的 n 个样本(每个样本维度为 dv),我们构建了一个 DAMC 网络,该网络由以下部分组成:

  • 一个全连接的多视图去噪编码器 EE;

  • 一个全连接的多视图去噪生成器 GG;

  • VV 个全连接判别器;

  • 以及位于编码器顶部的深度嵌入聚类层。

图 1 展示了在 VV 视图场景下的 DAMC 网络结构。

1. 多视图去噪编码器 E

在多视图去噪编码器网络中,每个视图包含 M 层独立全连接网络N 层共享参数的全连接网络。独立层用于处理各视图不同的特征维度。对于第 v 个视图,给定 Xv={x1(v),x2(v),…,xn(v)},多视图去噪编码器 E 旨在学习该视图的潜在表示 Zv={z1(v),z2(v),…,zn(v)},即将 dv 维的输入数据 xi(v)映射到低维表示 zi(v):

其中 fv表示由参数 ΘE 定义的第 v 个视图的编码网络。

2. 多视图去噪生成器 G

多视图去噪生成器的结构与编码器相反,由 N 层共享参数的全连接网络M 层每个视图独立的全连接网络 组成,可根据各视图的潜在表示生成相应的重构样本:

{Y1,Y2,…,Yv,…,YV}=G(Zv)

其中 Yv 表示第 v个视图的重构样本矩阵。

3. 判别器网络 Dv

判别器网络由 V个全连接判别器组成,每个判别器 Dv包含 3 层全连接层,用于区分生成样本 yi(v)和真实样本 xi(v)。GAN 损失定义为:

训练过程中,编码器和生成器生成与真实数据相似的假样本,各判别器学习区分真假样本,二者进行对抗直至收敛。由于 GAN 本身并不能在样本级别保证输出的可控性,这对聚类任务是不利的,因此我们将 GAN 损失与 AE(自编码器)损失结合,以提升重构数据的可靠性。


聚类损失(Clustering Loss)

AE 损失和 GAN 损失鼓励生成器生成与真实样本更相似的样本,从而使嵌入表示尽可能保留原始特征信息。但它们无法保证编码后的低维空间具备良好的聚类结构。为了获得有利于聚类划分的表示空间,我们在 DAMC 网络中引入基于 KL 散度的聚类损失。

首先,针对每个视图学习潜在表示:

Z1=f1(X1;θE), Z2=f2(X2;θE),…,ZV=fV(XV;θE)

然后得到公共潜在表示:

给定初始簇中心 {μj}j=1k,根据 [Xie et al., 2016],采用 Student’s t 分布作为核函数来计算公共潜在表示点 zi 与簇中心 μj 的相似度:

其中 α为自由度(实验中取 α=1),qij 表示样本 i 属于簇 j 的概率(软分配)。

为了优化聚类结构,我们引入辅助目标分布 pij,并通过最小化 qij与 pij 之间的 KL 散度来训练模型:

其中,pij 通过提升高置信度样本的权重获得:

这样可以使同类数据在表示空间中更加集中,从而获得更有效的公共表示。

训练流程

  • 步骤 1:训练多视图去噪编码器 E 和生成器 G,最小化 AE 损失。输入 {x1,x2,…,xV} 得到潜在特征 {z1,z2,…,zV},再输入生成器得到重构样本,更新 E 和 G。然后在公共表示 Z 上运行 k-means 获取初始簇中心 {μj}。

  • 步骤 2:联合训练 E、G 和判别器 D1,…,DV,优化 AE 损失与 GAN 损失之和。将生成样本与真实样本送入各判别器,交替更新生成网络与判别器。

  • 步骤 3:在步骤 2 的基础上,加入嵌入聚类层训练整个网络。每次迭代更新聚类中心,最终在获得的公共表示上使用谱聚类得到最终聚类结果。

实验


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92733.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis - 使用 Redis HyperLogLog 进行高效基数统计

文章目录引言HyperLogLog 工作原理Spring Boot 集成 Redis1. 添加依赖2. 配置 Redis 连接3. Redis 配置类HyperLogLog 实战应用1. 基础操作服务类2. 网站日活跃用户统计3. 性能测试与误差分析应用场景分析适用场景不适用场景性能优化技巧与传统方案对比结论引言 在数据分析和监…

後端開發技術教學(三) 表單提交、數據處理

上回:後端開發技術教學(二) 條件指令、循環結構、定義函數 -CSDN博客 必要資源: trae中文版下載網址: TRAE - The Real AI Engineer phpStudy 2018 : phpStudy - Windows 一键部署 PHP 开发环境 小皮出品 目錄 一、表單提交 1.1 get & post 1.…

Python训练Day39

浙大疏锦行 图像数据的格式:灰度和彩色数据模型的定义显存占用的4种地方 模型参数梯度参数优化器参数数据批量所占显存神经元输出中间状态 batchisize和训练的关系 一、 图像数据的介绍 图像数据,相较于结构化数据(表格数据)他的特…

十八、MySQL-DML-数据操作-插入(增加)、更新(修改)、删除

DML数据操作添加数据更新(修改)数据删除数据总结代码: -- DML:数据操作语言-- -- DML:插入数据-insert -- 1.为tb_emp表的username,name,gender 字股插入值insert into tb_emp(username,name,gender,create_time,update_time) values (Toki,小时,2,now()…

Linux 安装 JDK 8u291 教程(jdk-8u291-linux-x64.tar.gz 解压配置详细步骤)​

一、准备工作 ​下载 JDK 安装包​ 去 Oracle 官网或者可信的镜像站下载: ​jdk-8u291-linux-x64.tar.gz​ (这是一个压缩包,不是安装程序,解压就能用) ​jdk-8u291-linux-x64.tar.gz​下载链接:https://pa…

蓝桥杯----锁存器、LED、蜂鸣器、继电器、Motor

(七)、锁存器1、原理蓝桥杯中数据传入口都是P0,也就是数码管段选、位选数据、LED亮灭的数据、蜂鸣器启动或禁用的数据,外设启动或者关闭都需要通过P0写入数据,那么如何这样共用一个端口会造成冲突嘛,答案是肯定的。所以蓝桥杯加入…

AI热点周报(8.3~8.9):OpenAI重返开源,Anthropic放大招,Claude4.1、GPT5相继发布

名人说:博观而约取,厚积而薄发。——苏轼《稼说送张琥》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录一、OpenAI的"开源回归":时隔5年的战略大转弯1. GPT-OSS系列&a…

《Kubernetes部署篇:基于x86_64+aarch64架构CPU+containerd一键离线部署容器版K8S1.33.3高可用集群》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:企业级K8s集群运维实战 一、部署背景 由于业务系统的特殊性,我们需要针对不同的客户环境部署基于containerd容器版 K8S 1.33.3集群&a…

Linux抓包命令tcpdump详解笔记

文章目录一、tcpdump 是什么?二、基本语法三、常用参数说明四、抓包示例(通俗易懂)1. 抓所有数据包(默认 eth0)2. 指定接口抓包3. 抓取端口 80 的数据包(即 HTTP 请求)4. 抓取访问某个 IP 的数据…

抖音、快手、视频号等多平台视频解析下载 + 磁力嗅探下载、视频加工(提取音频 / 压缩等)

跟你们说个安卓上的下载工具,还挺厉害的。它能支持好多种下载方式,具体多少种我没细数,反正挺全乎的。​ 平时用得最多的就是视频解析,像抖音、快手、B 站上那些视频,想存下来直接用它就行,连海外视频的也能…

【iOS】JSONModel源码学习

JSONModel源码学习前言JSONModel的使用最基础的使用转换属性名称自定义错误模型嵌套JSONModel的继承源码实现initWithDictionaryinit__doesDictionaryimportDictionary优点前言 之前了解过JSONModel的一些使用方法等,但是对于底层实现并不清楚了解,今天…

SmartMediaKit 模块化音视频框架实战指南:场景链路 + 能力矩阵全解析

✳️ 引言:从“内核能力”到“模块体系”的演进 自 2015 年起,大牛直播SDK(SmartMediaKit)便致力于打造一个可深度嵌入、跨平台兼容、模块自由组合的实时音视频基础能力框架。经过多轮技术迭代与场景打磨,该 SDK 已覆…

【第5话:相机模型1】针孔相机、鱼眼相机模型的介绍及其在自动驾驶中的作用及使用方法

相机模型介绍及相机模型在自动驾驶中的作用及使用方法 相机模型是计算机视觉中的核心概念,用于描述真实世界中的点如何投影到图像平面上。在自动驾驶系统中,相机模型用于环境感知,如物体检测和场景理解。下面我将详细介绍针孔相机模型和鱼眼相…

推荐一款优质的开源博客与内容管理系统

Halo是一款由Java Spring Boot打造的开源博客与内容管理系统(CMS),在 GitHub上拥有超过36K Start的活跃开发者社区。它使用GPL‑3.0授权开源,稳定性与可维护性极高。 Halo的设计简洁、注重性能,同时保持高度灵活性&a…

【GPT入门】第43课 使用LlamaFactory微调Llama3

【GPT入门】第43课 使用LlamaFactory微调Llama31.环境准备2. 下载基座模型3.LLaMA-Factory部署与启动4. 重新训练![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/e7aa869f8e2c4951a0983f0918e1b638.png)1.环境准备 采购autodl服务器,24G,GPU,型号3090&am…

计算机网络:如何理解目的网络不再是一个完整的分类网络

这一理解主要源于无分类域间路由(CIDR)技术的广泛应用,它打破了传统的基于类的IP地址分配方式。具体可从以下方面理解: 传统分类网络的局限性:在早期互联网中,IP地址被分为A、B、C等固定类别,每…

小米开源大模型 MiDashengLM-7B:不仅是“听懂”,更能“理解”声音

目录 前言 一、一枚“重磅炸弹”:开源,意味着一扇大门的敞开 二、揭秘MiDashengLM-7B:它究竟“神”在哪里? 2.1 “超级耳朵” 与 “智慧大脑” 的协作 2.2 突破:从 “听见文字” 到 “理解世界” 2.3 创新训练&a…

mysql出现大量redolog、undolog排查以及解决方案

排查步骤 监控日志增长情况 -- 查看InnoDB状态 SHOW ENGINE INNODB STATUS;-- 查看redo log配置和使用情况 SHOW VARIABLES LIKE innodb_log_file%; SHOW VARIABLES LIKE innodb_log_buffer_size;-- 查看undo log信息 SHOW VARIABLES LIKE innodb_undo%;检查长时间运行的事务 -…

华为网路设备学习-28(BGP协议 三)路由策略

目录: 一、BGP路由汇总1、注:使用network命令注入的BGP不会被自动汇总2、主类网络号计算过程如下:3.示例 开启BGP路由自动汇总bgp100 开启BGP路由自动汇总import-route 直连路由 11.1.1.0 /24对端 为 10.1.12.2 AS 2004.手动配置BGP路…

微信小程序中实现表单数据实时验证的方法

一、实时验证的基本实现思路表单实时时验证通过监听表单元素的输入事件,在用户输入过程中即时对数据进行校验,并并即时反馈验证结果,主要实现步骤包括:为每个表单字段绑定输入事件在事件处理函数中获取当前输入值应用验证规则进行…