涉私数据安全与可控匿名化利用机制研究(下)

文章目录

  • 前言
  • 三、可信数据空间支撑可控匿名化机制
    • (一)基于政府可信根的可控匿名化
    • (二)可信数据空间“中国模式”保障数据全生命周期合规可控
    • (三)可控匿名化对大模型数据可逆风险的防御机制


前言

尽管《个人信息保护法》确立了“知情-决定”权优先原则,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)也构建了数据权益分层保护框架,但在数据要素市场化配置过程中,涉私数据仍面临双重挑战:一方面,传统数据脱敏技术难以平衡涉私数据效用与安全,存在身份重识别风险;另一方面,数据跨境流动、大模型训练等新场景衍生出更复杂的合规要求。

如何通过技术创新与制度设计,实现涉私数据“可用不可见、可控可计量”的可信流通利用,这既是数据要素市场建设的关键“瓶颈”,也是落实国家数据安全战略的重要课题。

在这里插入图片描述


三、可信数据空间支撑可控匿名化机制

以政府可信根为监管根基的可信数据空间,通过构建范围可控、环境可控与监管可控的三维保障机制,支撑可控匿名化在数据流通过程中的可信执行,确保涉私数据全生命周期安全合规。

(一)基于政府可信根的可控匿名化

可控匿名化的要点在于可控。具体而言,要求假名化数据控制在特定范围内,且无法借助额外信息让假名化数据还原,只有实现这种程度的控制,假名化数据才能成为真正意义上的可控匿名化数据。因此,可控匿名化要求数据利用的范围、环境及监管均处于可控状态,而这一目标的实现,其根本在于将可控匿名化置于可信数据空间内,即依托以可信数据空间为核心与边界的数据基础设施(数据平台)。可信数据空间是基于共识规则搭建的,旨在联接多方主体,实现数据资源共享共用的数据流通利用基础设施,具备数据可信管控、资源交互以及价值创造三类核心能力,其核心要义在于实现数据在不同主体之间的可信流通。首先,可信数据空间可以实现范围可控,所有数据交互均限定在其边界范围之内;其次,可信数据空间可实现环境可控,基于密码技术、区块链、隐私计算、使用控制、数据沙箱、零信任架构等机制,保障其执行环境的可控性;最后,可信数据空间能够实现监管可控,数据提供方、使用方及运营方均需经过可信认证,且运营方必须获得来自作为中立第三方的政府的可信授权,从而保证可信数据空间对各方的价值中立与公平公正,使其成为可信背书的最终依托,同时也便于对其进行独立监管。

(二)可信数据空间“中国模式”保障数据全生命周期合规可控

在数据保护领域,欧盟向来以重视个人信息保护而备受关注。值得一提的是,欧盟虽推行匿名化和假名化,但其假名化与我国所倡导的可控匿名化存在本质差异。

欧盟的假名化不同于匿名化,而是受到《通用数据保护条例》(GDPR)的严格规制。假名化数据是个人数据的一种特殊类型,借助一些额外信息即可归属于已识别或可识别个人。换言之,假名化数据是“可逆的”,日后可以通过额外信息与原始数据主体(关联对象)联系起来。如果从欧盟的共同数据空间获得假名化数据,这些数据是可以在共同数据空间以外加以利用的,也就难免与额外信息相联系而还原出数据主体(关联对象)。究其根源,欧盟的共同数据空间作为标准化的数据交换框架,虽以促进数据重用为目标,通过假名化或匿名化手段进行数据处理,但其应用场景具有开放性特征。这种开放的运行机制,客观上难以完全杜绝假名化数据被逆向还原的可能性。

欧盟的共同数据空间缺失“数据不出域”“可用不可见”“可控可计量”“可信可追溯”等机制,更没有构建起类似我国“海南模式”的数据产品化、数据产品瞬间集成等机制,因而无法做到涉私数据全生命周期的可信,无法对涉私数据的利用实施全过程的可信管控。而我国的可信数据空间虽然借鉴了共同数据空间的部分理念,如共识规则、多方主体、数据重用及价值共创等,但在本质层面存在显著差异,具备可信管控、数据交互和价值共创的整体功能。特别是可信管控能力,切实保障了“数据不出域”“可用不可见”原则的有效落地。在“海南模式”的数据产品超市实践中,通过数据产品化与数据产品瞬间集成等机制,保证真实涉私数据只有在关联对象(数据主体)授权时才能处理,并且是通过数据产品化方式处理。即便在可信数据空间内,数据处理者(如数据产品开发者等)也无法直接接触真实涉私数据,所能获取的仅是经过假名化处理的逻辑真实数据。由于这种假名化限定在可信数据空间内,不存在可供利用的额外信息来还原假名化数据,从实际效果来看则等同于匿名化数据。因此,只有以政府可信根背书、受政府侧监管的可信数据空间运营者可以掌握从假名化数据到真实涉私数据的映射表,并且这个加密的映射表甚至连运维管理人员也无从知悉,即便有所了解也并不掌握所映射的业务信息。此外,这里也有身份和业务的解耦,进一步确保了涉私数据的安全性。而只有在关联对象授权时,假名化数据才会通过映射表还原为真实涉私数据。

这便是通过政府可信根为背书的可信数据空间支撑的可控匿名化模式。在此模式下,数据对于监管侧的政府管理者是可控的;对于生产侧的数据处理者是匿名的,可在限定范围内作为非涉私数据进行数据处理;而对于应用侧的数据使用者和关联对象,则可以在授权条件下还原为真实涉私数据。这一机制能够有效促进涉私数据的开放利用,更好地实现数据产品的个体化利用。

基于可信数据空间、数据产品化和瞬间集成机制的可信管控,数据假名化得以转化为可控匿名化。这是欧盟共同数据空间做不到,而中国可信数据空间却能够做到的。简言之,中国的可控匿名化以政府可信根背书,有数据全生命周期的可信保障。中国与欧盟在数据处理方式上的根本区别在于:欧盟采取了去中心化方式,对数据环境和范围缺乏管控,没有数据全生命周期的可信管控流,其结果是在严格的个人数据法规规制下,其只能重复利用彻底匿名化的数据,所能生产的数据产品主要是分析类数据产品,而无法生产更高价值的个体化数据产品。反观中国方式,尤其是海南数据产品超市的模式创新,以局部中心化(即政府背书与监管)方式,让数据全生命周期在可信管控之下实现了涉私数据的安全利用。在此基础上,通过“高确定性网络+联盟链+零信任”等机制实现跨域互通和数据产品的规模扩张,利用可控匿名化机制,在可信数据空间内用逻辑真实数据支撑数据产品开发,让数据产品开发者探查数据质量,开发、测试数据产品,生产出分析类和高价值的个体化数据产品。

(三)可控匿名化对大模型数据可逆风险的防御机制

在人工智能大模型广泛应用的背景下,涉私数据安全问题亟待高度重视。针对通用大模型所处的开放应用场景,即使采用匿名化数据开展训练,由于生成式人工智能的概率性与不确定性,特别是在针对性的提示词诱导下,仍面临数据可逆的潜在风险。中国的可信数据空间的可信管控包括范围可控、环境可控、监管可控等,为涉私数据在人工智能领域的安全应用奠定了坚实基础。基于可信数据空间框架,通过产品化方式实现了涉私数据的合规利用,借助逻辑真实数据支持大模型私域应用,这一模式不仅更具可信度,还构成了抵御数据可逆风险的有效防线。

通过可控匿名化机制,严格将逻辑真实数据的使用范围限定在可信数据空间内,并将人工智能大模型以私域形式部署于该空间,利用逻辑真实数据作为私域数据(私域知识库),通过微调、强化学习及检索增强生成(RAG)等技术手段,构建适用于可信数据空间的专用小模型应用体系。由于整个数据处理流程均在可信环境内完成,有效规避了逻辑真实数据因额外信息介入导致的可逆风险。尤为关键的是,在数据产品化机制下,当应用场景延伸至可信数据空间外部时,出域的并不是数据本身,而是经过处理后的数据产品输出结果,这进一步降低了逆向推导原始真实数据的风险。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95481.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95481.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

More Effective C++ 条款25:将构造函数和非成员函数虚拟化

More Effective C 条款25:将构造函数和非成员函数虚拟化核心思想:通过虚拟构造函数和非成员函数,实现运行时的多态行为,允许在不知道对象具体类型的情况下创建新对象或执行操作,增强代码的灵活性和扩展性。 &#x1f6…

血缘元数据采集开放标准:OpenLineage Guides 在 Airflow 中使用 OpenLineage Proxy

OpenLineage 是一个用于元数据和血缘采集的开放标准,专为在作业运行时动态采集数据而设计。它通过统一的命名策略定义了由作业(Job)、运行实例(Run)和数据集(Dataset) 组成的通用模型&#xff0…

【Linux】网络(中)

目录1. 序列化和反序列化1.1 序列化1.2 反序列化2. 网络版本计算器(自定义协议)3. 再次理解OSI七层模型4. HTTP协议4.1 HTTP协议格式4.2 HTTP的方法4.3 HTTP的状态码4.4 HTTP常见Header4.5 长连接和短连接4.6 Cookie5. HTTPS协议5.1 对称加密和非对称加密…

AI 写作实战:用 GPT-4o+ Claude 3 生成小红书文案,转化率提升 30%

引言・AI 写作开启小红书营销新引擎在社交媒体营销的浪潮中,小红书以其独特的社区氛围和庞大的年轻用户群体,成为品牌推广的关键阵地。然而,撰写既吸引眼球又能高效转化的文案并非易事,传统人工编写不仅耗时费力,还难以…

一个月涨粉30万,Coze智能体一键生成民间传说爆款视频,3分钟上手

最近发现一个账号,用AI将民间传说故事转化为生动视频,短短一个月涨粉30万,条均播放 量破百万。这种视频制作真的需要专业团队吗?今天教大家用Coze智能体工作流,一键生成 爆款民间故事视频!工作流功能 用Coz…

Linux arm64 PTE contiguous bit

文章目录一、简介1.1 contiguous PTE1.2 demo二、Linux 内核中的实现2.1 宏定义2.2 __create_pgd_mapping2.2.1 alloc_init_cont_pmdinit_pmd2.2.2 alloc_init_cont_pteinit_pte2.3 hugetlbpage2.3.1 find_num_contig2.3.2 num_contig_ptes2.3.3 huge_pte_offset2.3.4 huge_pte…

深入分析 json2(新)与标准的 jsonrpc的区别

这两个模块都用于实现 JSON 风格的远程过程调用(RPC)接口,但设计哲学、使用方式、安全性和现代化程度有显著差异。 📂 对比背景 文件 功能 来源 jsonrpc.py 标准的 JSON-RPC 2.0 兼容接口 Odoo 内核已有逻辑 json2.py 自定…

IO_HW_9_3

一、使用消息队列实现两个程序间的相互通信二、思维导图三、牛客网

fastlio配置与过程中遇到的问题

🚀 Fast-LIO 安装与运行指南 我之前已经创建并使用原有的工作空间 catkin_ws,如果没有创建一个。 使用环境 ubantu20.04 ros1 noetic版本 我作的是要在已有的 ~/catkin_ws 中编译 原版 FAST-LIO(来自 HKU-MARS 官方仓库)。 最终下载官方文档中…

Python 工具: Windows 带宽监控工具

Python 工具: Windows 带宽监控工具环境介绍会使用的库多线程关键代码:系统流量采集:用 psutil 获取网络数据概念:网络流量的“增量”与“总量”代码中的流量采集逻辑Flask Web框架:搭建后端服务前端部分交互逻辑&…

【Java】Redis(中间件)

一、对Redis的理解Reids是一种基于内存的数据库,对数据的读写操作都在内存中完成,因此读写速度非常快,常用于缓存、消息队列、分布式锁等场景。除此之外,Redis还支持事务、持久化、Lua脚本、多种集群方案(主从复制模式…

【题解】洛谷P1776 宝物筛选 [单调队列优化多重背包]

二进制优化还是不够快,如果我们想时间复杂度为 ,还得找新的方法。 (W 为背包最大可承载量,N 为物品种类数) 例题:P1776 宝物筛选 - 洛谷 原来的转移式很普通: 注意到对于每个 ,有…

数据结构_循环队列_牺牲一个存储空间_不牺牲额外的存储空间 Circular Queue(C语言实现_超详细)

目录循环队列的引出区别普通队列和循环队列两种循环队列的概念循环队列深入理解题目:此题,分为牺牲一个额外空间和不牺牲一个额外空间不牺牲一个额外空间完成第一步完成第二步完成第三步完成第四步牺牲一个额外空间完成第一步完成第二步完成第三步完成第…

Linux_网络基础

✨✨ 欢迎大家来到小伞的大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:LInux_st 小伞的主页:xiaosan_blog 制作不易!点个赞吧!!谢谢喵!&a…

Portainer:Docker可视化管理神器部署与使用攻略

Portainer是一款优秀的Docker可视化管理工具,它提供了简洁美观的Web界面,可以通过点击鼠标轻松管理Docker环境。 一、Portainer简介 Portainer是一个轻量级的Docker管理界面,具有以下特点: 可视化操作:通过Web界面管…

OVITO3.13.1_ Mac中文_材料科学、物理及化学领域设计的数据可视化和分析软件_安装教程

软件下载 【名称】:****OVITO3.13.1Mac中文 【大小】:****154M 【语言】:简体中文 【安装环境】:****mac 【网站下载链接】: https://a-xing.top/3008.html软件应用 软件应用 Ovito能做什么? Ovito的功能十…

MySQL 开发避坑:DROP TABLE 前你必须知道的几件事

MySQL 中删除表主要使用 DROP TABLE 语句。这是一个需要非常谨慎的操作,因为一旦执行,表结构和表中的所有数据都会被永久删除。1. 基本语法:删除单个表sqlDROP TABLE [IF EXISTS] table_name;* DROP TABLE: 核心命令,用于删除表…

浅谈人工智能之阿里云搭建coze平台

浅谈人工智能之阿里云搭建coze平台 一、部署环境准备 阿里云服务器配置要求 ○ 规格:最低2核CPU 4GB内存(推荐4核8GB保障流畅运行),作者原先想要利旧,使用了2核2GB的服务器,但是跑不起来,后来自…

ego(2)---初始轨迹生成后的关键点采样

在初始的多项式轨迹生成后,是要经过一个关键点采样,使用关键点来进行后续的 B 样条曲线拟合的。即:初始多项式拟合->关键点采样->B样条拟合关键点采样的思路关键点采样使用时间步长 ts 来在初始轨迹方程中取点。在上一步的初始轨迹生成…

专项智能练习(信息安全防护措施)

3.以下属于网络安全威胁的是(A )。 A.非授权访问、病毒感染、信息泄露、拒绝网络服务 B.信息泄露、非授权访问、病毒感染、硬盘损坏 C.信息篡改、非授权访问、病毒感染、硬盘损坏 D.网络异常、非授权访问、信息篡改、病毒感染 解析本题考查网络安全威胁。…