中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载

北京大学“中国老年健康影响因素跟踪调查(简称‘中国老年健康调查’;英文名称为Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉学科研究由国家自然科学基金委主任基金应急项目、重大项目、重点项目及国际合作项目。1998-2018年在全国23个省/市/自治区随机抽取大约一半县市进行八次跟踪调查,累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;包括:2.01万人次百岁老人,2.68万人次90-99岁老人,2.93万人次80-89岁老人,2.01万人次65-79岁老人,1.12万人次35-64岁中年人;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

在这里插入图片描述

1998-2018年八次老龄健康跟踪调查累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。“中国老年健康调查”免费向学者们提供数据,跟踪调查数据在删除个人隐私信息后已向社会和学界免费开放,包括:存活老人生理心理健康、认知功能、社会参与、行为、饮食营养、生活习惯、社会经济状况、家庭结构、代际关系、老年家庭照料需求、照料提供和成本等非常丰富的个体微观数据、以及65+岁已死亡老人死亡前健康状况、照料成本与生活质量等丰富个体微观数据,除了为国家健康老龄化科学决策应用研究服务外,已通过北京大学开放研究数据平台(http://opendata.pku.edu.cn/)和中国人口与发展研究中心执行的“国家人口宏观管理与决策信息系统(PADIS)”和“全民健康保障信息化工程”数据库平台向学界和社会开放免费使用。
据不完全统计,截至2021年10月15日,10327位学者(不包括他们的项目组其他成员)正式注册免费使用1998-2018年“中国老年健康调查”数据; 这些学者们使用该调查数据已发表成果:专著17本;国际匿名评审SCI和SSCI学术刊物论文431篇; 国内期刊论文731篇; 通过答辩博士论文99篇和硕士论文678篇;递交政策咨询报告68篇。

在这里插入图片描述
CLHLS数据下载的网址是:

https://opendata.pku.edu.cn/dataverse/CHADS?spm=5176.28103460.0.0.40f7451e1r7NtX

数据需要先通过申请才能下载,下载到电脑的数据如下图

在这里插入图片描述
数据每个年份是分开的,以sav格式保存。中国健康长寿纵向调查(CLHLS)的有前八波(1998、2000、2002、2005、2008、2011、2014和2018)。这些受访者于1998年首次接受采访,后面是对这些患者的跟踪随访。

在编码系统中,“写入格式:F3”表示变量的代码长度为3位数字,没有小数点,而“写入格式∶F8.6”表示变量代码长度为8位数字,小数点后有6位数字。后一种格式(带小数点)用于权重。

在这里插入图片描述
数据集中,大多数变量都被视为“数字”变量,而其中一些变量则被视为字符串变量。年龄、年、月、人数和天数等变量被视为“规模”类型。剩余的大多数变量被视为“名义”变量,包括“是”或“否”二项式问题。B部分中的变量、E部分中与ADL、IADL功能能力相关的变量以及D部分中幸存的个人问卷中的一些变量被视为“顺序”变量。死者死亡前的ADL功能也被视为“序数”变量。更详细的信息可以在编码系统的“测量级别”中找到。变量名称中第一个字母为“r”的变量表示问题是由受访者亲自回答或者由代理人回答。

以“_0”、“_2”、“_5”、“_6”、”_11”、“_14”和“_18”为后缀的变量分别用于2000年、2002年、2005年、2008年、2011年、2014年和2018年仍然活着并再次接受采访的人,而以“d0”、第二年、第五年、第八年、第十一年、第十四年和第十八年为前缀的变量则分别用于1998-2000年、2000-2002年、2002-2005年、2005-2008年、2008-2011年、2011-2014年和2014-2018年调查间隔内死亡的已故受访者。

“-6”用于表示该变量仅用于在世人员,不适用于已故人员。“-7”表示该变量仅用于已故人员,不适用于幸存的受访者。“-8”用于表示受访者在早期浪潮中死亡或失访,“-9”用于定义失访。此数据集中使用“-1”表示问题不适用于受访者的情况。“9”、“99”、“999”和“9999”通常用于表示不同变量中的缺失信息,而在大多数情况下(但不是所有情况下),“8”、“88”、“888”和“8888”用于表示受访者不知道问题答案的情况。在进行分析之前,用户需要估算由“8”、“88”、“888”、“8888”、”9”、“99”、“999”和“9999”表示的缺失值,特别是当“缺失”或“不知道”的比例大于5%时。目前没有用估算值替换缺失数据的数据集。

在这里插入图片描述
最后我总结一下,CLHLS的患者年龄偏大,基本大于80岁,包含有饮食数据和生活数据,数据提取方法也和chals类似,可以看作是chals数据的一个补充,可以发一些膳食/饮食指数之类数据的文章,后续将继续进一步介绍CLHLS。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909299.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基本多线程编译make命令

背景: 在ffmpeg源码编译的时候要等很久,快下班了,等不及。 解决方法: 使用多线程编译。 make -j{n} 如: make -j8详解:(没时间看的可以返回了!) 在编译 FFmpeg 时使用…

MNIST数据集上朴素贝叶斯分类器(MATLAB例)

MNIST数据集上朴素贝叶斯分类器 Naive Bayes Classification fitcnb Train multiclass naive Bayes model Syntax Mdl fitcnb(Tbl,ResponseVarName) Mdl fitcnb(Tbl,formula) Mdl fitcnb(Tbl,Y) Mdl fitcnb(X,Y) Mdl fitcnb(___,Name,Value) [Mdl,AggregateOptimization…

网站设计小技巧:利用交互设计提升用户体验

现在很多企业朋友都会感觉到,做网站设计掌握不好设计网页的魂,换了很多设计方式可能效果都不理想。蒙特网站专注高端网站建设20多年,基于为华为、字节跳动、海康威视等头部企业打造网站的经验,今天将近期用户比较喜欢的网页设计方…

Github指南-Add .gitignore和Choose a license

Add .gitignore(添加忽略文件列表) 📌 作用: .gitignore 文件用于告诉 Git 哪些文件或文件夹**不要被上传(版本控制)**,例如: 编译生成的临时文件(如 .exe, .o&#x…

如何打造沉浸式文件操作体验

在操作系统长期运行后,本地文件系统往往会面临一个常见却棘手的问题:元数据管理效率下降,导致用户在海量文件中检索目标内容时出现显著的延迟与操作成本。这种现象在未使用标签化或语义化管理系统的情况下尤为明显。 而 Oversis 的出现&…

企业AI深水区突围:从星辰大海到脚下泥泞的进化论

一、业务价值旅程:从降本增效到价值跃迁 1.1 技术落地的"甜蜜陷阱" 企业在AI应用初期往往陷入"高配用不起,低配用不了"的困境。一台8卡A100服务器每月电费超3万元的成本,对制造业利润形成巨大挤压。即便跨过算力门槛&a…

PostgreSQL的扩展moddatetime

PostgreSQL的扩展moddatetime moddatetime 是 PostgreSQL 的一个内置扩展,用于自动维护表的最后修改时间字段。这个扩展可以自动更新指定字段为当前时间戳,非常适合需要跟踪记录最后修改时间的应用场景。 一、moddatetime 基本功能 核心特性 自动更新…

自己的电脑搭建外网访问网站服务器的步骤

文章目录 PC电脑做网站服务器的步骤1.前言2. 网站服务器系统的安装2.1个人电脑安装IIS(Windows7系统安装IIS7.0)2.1.1:打开控制面板,给Windows安装插件 2.2网站配置:2.2.1打开网站配置项:2.2.2开始配置&…

基于深度学习的智能语音合成系统:技术与实践

前言 随着人工智能技术的飞速发展,智能语音合成(Text-to-Speech, TTS)技术已经成为人机交互领域的重要组成部分。从智能助手到有声读物,语音合成技术正在改变我们与数字内容的交互方式。近年来,深度学习技术为语音合成…

铸铁平台的制造工艺复杂而精细

铸铁平台的制造工艺确实复杂而精细。首先,需要选择合适的铸铁材料,通常是灰铸铁或球墨铸铁,以满足平台的强度和耐磨性要求。然后,根据设计要求,制作模具,并在高温下将铁液倒入模具中进行铸造。在铸造过程中…

ArcPy 与 ArcGIS .NET SDK 读取 GDB 要素类坐标系失败?GDAL 外挂方案详解

ArcPy 与 ArcGIS .NET SDK 读取 GDB 要素类坐标系失败?GDAL 外挂方案详解 在ArcGIS Pro中正常显示的坐标系,为何通过ArcPy或.NET SDK却无法正确读取?本文将分享我在处理CGCS2000坐标系时的踩坑经历,以及最终通过GDAL外挂方案解决问…

Zabbix 高可用架构部署方案(2最新版)

Zabbix 高可用架构部署方案(MySQL 双 VIPHAProxyNginx) 前景提要:使用 MySQL 作为数据库,两个虚拟 IP(10.0.0.100 和 10.0.0.200),HAProxy 作为数据库负载均衡,Nginx 作为 Web 访问…

深入解析Linux分页机制:从虚拟内存到物理地址的魔法转换

目录 引言:为什么需要分页机制? 一、分页机制基础概念 1.1 虚拟地址与物理地址 1.2 页与页框 1.3 为什么是4KB? 二、多级页表结构 2.1 为什么需要多级页表? 2.2 x86_64的四级页表结构 2.3 页表项详解 三、Linux分页实现机…

使用python进行图像处理—图像变换(6)

图像变换是指改变图像的几何形状或空间位置的操作。常见的几何变换包括平移、旋转、缩放、剪切(shear)以及更复杂的仿射变换和透视变换。这些变换在图像配准、图像校正、创建特效等场景中非常有用。 6.1仿射变换(Affine Transformation) 仿射变换是一种…

NLP-数据集介绍(并不全,文本类介绍)

目录 第一章 STS(语义文本相似度) (重点)一、SemEval STS 年度任务(2012-2017)1. SemEval-2012 STS2. SemEval-2013 STS3. SemEval-2014 STS4. SemEval-2015 STS5. SemEval-2016 STS6. SemEval-2017 STS 二…

JS进阶 Day01

1.作用域和作用域链 let不可访问 var可访问,因为没有块作用域这一说法 2.JS垃圾回收机制以及算法 下图如上图同理 下图这个三个相互引用的,根部找不到,就进行清除。 3.JS闭包 4.变量和函数提升(了解) 5.函数剩余参数和展开运算符 还有种写法 …

详解Python当中的pip常用命令

想象一下,如果建造房屋时,每一块砖、每一根钢筋都需要你自己亲手烧制和打造,那会是怎样一番景象?软件开发也是如此。如果没有现成的、高质量的、可复用的代码库,开发者们就不得不重复“发明轮子”,效率低下…

LangChain面试内容整理-知识点10:文本嵌入模型(Embeddings)使用

文本嵌入(Embeddings)是将文字转换为向量(高维数值向量)的过程和结果。在LangChain中,Embeddings模块负责调用各种嵌入模型,将文本转化为向量表示,以便后续在向量空间执行相似度搜索、聚类等操作。这在实现语义搜索、RAG中非常关键,因为向量可以让计算机“理解”文本语…

To be or Not to be, That‘s a Token——论文阅读笔记——Beyond the 80/20 Rule和R2R

本周又在同一方向上刷到两篇文章,可以说,……同学们确实卷啊,要不卷卷开放场域的推理呢? 这两篇都在讲:如何巧妙的利用带有分支能力的token来提高推理性能或效率的。 第一篇叫 Beyond the 80/20 Rule: High-Entropy Mi…

bisheng系列(三)- 本地部署(后端 1.2版本)

一、导读 环境:Ubuntu 24.04、open Euler 23.03、Windows 11、WSL 2、Python 3.10 、bisheng 1.2.0 背景:需要bisheng二开商用,故而此处进行本地部署,便于后期调试开发 时间:20250612 说明:bisheng的1.2…