pandas 优雅处理值类型为list的列的csv读写问题

文章目录

  • 直接存储
  • join list 变成字符串存储
  • json.dumps序列化存储以及json.loads反序列化读取
  • 总结

之所以分析这个问题,是因为读者在跟第三方数据供应商对接数据的时候,老是会遇到数据加载都会出错的问题,其中一个原因就是list类型数据没有正确储存,于是笔者在这篇文章里面详细分析一下list数据怎么优雅的写入csv以及读取.

直接存储

第一种方法,直接存,不做任何转换

def direct_write_read():path = Path(__file__).parent.joinpath('direct.csv')df = pd.DataFrame({'id': [1,2,3],'tags': [['tag1', 'tag2'], ['tag3'], ['tag4', 'tag5']]})df.to_csv(path, index=False, encoding='utf-8')rd_df = pd.read_csv(path, encoding='utf-8')print(rd_df['tags'])

csv文件内容

id,tags
1,"['tag1', 'tag2']"
2,['tag3']
3,"['tag4', 'tag5']"

程序打印结果

0    ['tag1', 'tag2']
1            ['tag3']
2    ['tag4', 'tag5']
Name: tags, dtype: object

整个程序能运行,应为都是用的python写文件读取文件,但是csv文件内容不标准,这种处理方式存在潜在问题,容易出现python语言能读写,但是换成其它语言程序读取此csv就可能出现错误,因此不推荐这种处理方式.

join list 变成字符串存储

第二种方法,使用','.join(list)方法将列表连接成字符串存csv,读取的时候再将字符串按照连接字符进行分割.

def join_write_read():path = Path(__file__).parent.joinpath('join.csv')df = pd.DataFrame({'id': [1,2,3],'tags': [['tag1', 'tag2'], ['tag3'], ['tag4', 'tag5']]})df['append'] = df['tags'].apply(lambda x: ','.join(x))df[['id', 'append']].to_csv(path, index=False, encoding='utf-8')rd_df = pd.read_csv(path, encoding='utf-8')rd_df['tags'] = rd_df['append'].apply(lambda x: x.split(','))print(rd_df['tags'])

csv文件内容:

id,append
1,"tag1,tag2"
2,tag3
3,"tag4,tag5"

注意这里自动加入了双引号 文本限定符,因为连接字符为逗号和csv分割符号一致,使用双引号限定符避免因为逗号问题破坏csv结构.
程序输出结果:

0    [tag1, tag2]
1          [tag3]
2    [tag4, tag5]

这种方法只能正对简单的字符串列表,且列表中每一个元素字符串不能存再链接字符,不然读取的数据split后就错误
所以这种方法只能在你确定了列表中元素字符串都不可能有用于连接的字符时,才使用.总之,此方法也有其局限性.

json.dumps序列化存储以及json.loads反序列化读取

这是目前最好的处理方法,将列表使用json.dumps方法序列化为json字符串存储,读取的时候反序列化成列表即可:

def json_write_read():path = Path(__file__).parent.joinpath('json.csv')df = pd.DataFrame({'id': [1,2,3],'tags': [['tag1', 'tag2'], ['tag3'], ['tag4', 'tag5']]})df['json'] = df['tags'].apply(json.dumps)df[['id', 'json']].to_csv(path, index=False, encoding='utf-8')rd_df = pd.read_csv(path, encoding='utf-8')rd_df['tags'] = rd_df['json'].apply(json.loads)print(rd_df['tags'])print(rd_df['tags'][0])

csv文本内容:

id,json
1,"[""tag1"", ""tag2""]"
2,"[""tag3""]"
3,"[""tag4"", ""tag5""]"

非常标准的list字符串存csv
程序输出结果

0    [tag1, tag2]
1          [tag3]
2    [tag4, tag5]
Name: tags, dtype: object

此方法还可以用来存储以及读取向两数据,如下例子处理向量数据的读写问题

def vec_write_read():path = Path(__file__).parent.joinpath('vec.csv')df = pd.DataFrame({'id': [1,2,3],'vec': [[1, 2, 3], [2, 0, 1], [1, 1, 2]]})df['vec_s'] = df['vec'].apply(json.dumps)df[['id', 'vec_s']].to_csv(path, index=False)rd_df = pd.read_csv(path)rd_df['vec'] = rd_df['vec_s'].apply(json.loads)print(rd_df['vec'])

csv文件内容:

id,vec_s
1,"[1, 2, 3]"
2,"[2, 0, 1]"
3,"[1, 1, 2]"

输出结果:

0    [1, 2, 3]
1    [2, 0, 1]
2    [1, 1, 2]
Name: vec, dtype: object

如果这个场景还在用第二种join方式转成字符串还需要把每个维度数值转为字符串才能join,实现起来就不太合适了.

总结

所以pandas里面list数据列存csv最佳做法还是将该列数据json.dumps成json字符串保存,读取的时候使用json.loads还原

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86663.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一种解决 OpenWrt 安装 docker 之后局域网的设备之间无法互相访问通信的方法

文章目录 一、问题背景二、解决方案(方法一)修改全局设置的 转发( forward) 为 接受(ACCEPT)(方法二)设置 net.bridge.bridge-nf-call-iptables0 并将 docker 的容器网络设置为host …

Leetcode百题斩-贪心

贪心也是一个很有意思的专题,能遇到很多神奇的思路。 但这个专题,leetcode也没放Hard,果然是怕这种玄学专题上点难度大家罩不住。那就很快了,直接过 763. Partition Labels[Medium] 思路:将字母串分组,相…

基于多径信道的分集接收技术性能优化与仿真分析

基于多径信道的分集接收技术性能优化与仿真分析 一、多径信道建模与仿真 1. 多径信道建模(MATLAB实现) classdef MultipathChannel < handlepropertiesSampleRate = 1e6; % 采样率 (Hz)MaxDoppler = 100; % 最大多普勒频移 (Hz)DelayVector = [0

LeetCode 713.乘积小于K的子数组

给你一个整数数组 nums 和一个整数 k &#xff0c;请你返回子数组内所有元素的乘积严格小于 k 的连续子数组的数目。 示例 1&#xff1a; 输入&#xff1a;nums [10,5,2,6], k 100 输出&#xff1a;8 解释&#xff1a;8 个乘积小于 100 的子数组分别为&#xff1a;[10]、[5…

打破网络安全孤岛:实现防御数据协作

作者&#xff1a;来自 Elastic Crossley McEwen, Oksana Abramovych 现代网络战场不再受组织边界的限制。在各类防御网络中&#xff0c;关键的结构化、非结构化和半结构化数据分布在不同的专业环境中&#xff0c;形成孤岛 —— 从机密情报系统到作战指挥平台&#xff0c;再到战…

给定一个没有重复元素的数组,写出生成这个数组的MaxTree的函数

题目&#xff1a; 给定一个没有重复元素的数组arr&#xff0c;写出生成这个数组的MaxTree的 函数&#xff0c;要求如果数组长度为N&#xff0c;则时间复杂度为O(N)、额外空间复杂度 为O(N)。 一个数组的MaxTree定义如下。 ● 数组必须没有重复元素。 ● MaxTree是一棵二叉…

iOS 抓包实战:时间戳偏差导致的数据同步异常排查记录

“这条数据不是我填的”“我的更新被覆盖了”“两个设备显示不一致”——这些是产品上线后最令人头疼的反馈。 最近我们在一次用户同步问题排查中&#xff0c;发现表面是“数据丢失”问题&#xff0c;实则是多端数据提交时间戳处理不一致&#xff0c;导致后台认为老数据为新&a…

一款支持多日志器、多级别、多落地方式的同异步日志系统

文章目录 简介项目特点项目实现基础功能模块实现文件操作以及日期时间获取日志等级日志信息描述 异步功能模块实现缓冲区实现异步线程实现 核心功能模块实现日志格式解析落地操作实现日志器实现 测试测试环境测试参数测试结果性能分析 附件 简介 在现代软件开发与系统运维领域…

加固笔记本在户外勘探行业的应用:探索与科技的融合

在自然资源勘探、地质调查、石油天然气开发、矿产资源测绘等户外勘探行业中&#xff0c;作业环境常常复杂多变&#xff1a;风沙漫天的戈壁、雨雪交加的山区、湿热潮湿的丛林&#xff0c;甚至是极寒与高温并存的极端气候条件。面对这些挑战&#xff0c;普通的办公设备早已无法胜…

MySQL 连接指定端口后,为什么实际仍是 3306?

文章目录 MySQL 连接指定端口后&#xff0c;为什么实际仍是 3306&#xff1f;问题现象复现原因分析没有指定 -h&#xff0c;默认走的是本地 Unix Socket多实例环境中未显式指定目标地址 正确的连接方法方法一&#xff1a;添加 -h 127.0.0.1方法二&#xff1a;添加 --protocolTC…

【Android当用户两次打断息屏操作后,屏幕将会在10分钟内无法熄灭并持续点亮(关闭Android13新增的dim功能)】

UndimDetectorWakeLock持锁导致屏幕不灭问题处理SOP 问题描述 在Android T版本中&#xff0c;系统新增了SCREEN_BRIGHT_WAKE_LOCK&#xff08;UndimDetectorWakeLock&#xff09;机制。当设备处于低亮度&#xff08;dim&#xff09;状态时&#xff0c;用户两次打断屏幕熄灭操…

Tailwind CSS自定义用法

文章目录 前言✅ 一、集成 Tailwind CSS 到 React 项目1. 安装依赖2. 配置 tailwind.config.js3. 创建全局样式文件&#xff08;如 src/index.css&#xff09;tailwind base;tailwind components;tailwind utilities; 4. 在 main.tsx 或 main.jsx 中引入样式 ✅ 二、自定义样式…

linux面试常考

常用指令 常见题

Spring Boot 2.2.6调用DeepSeek API并通过SSE将流式响应推送给前端的完整实现

1. 添加依赖 (pom.xml) <dependencies><!-- Spring Boot Web --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- SSE 支持 --><depe…

LM1117-ADJ 简单介绍

LM1117-ADJ是一款可调输出电压的低压差线性稳压器&#xff08;LDO&#xff09;&#xff0c;具有以下关键特性和应用要点&#xff1a; 核心特性 可调输出电压 通过外部分压电阻&#xff08;R1和R2&#xff09;调节输出电压&#xff0c;范围为1.25V至13.8V。输出电压公式&#…

知名流体控制解决方案供应商“永盛科技”与商派ShopeX达成B2B商城项目合作

2025年6月&#xff0c;全球知名的工业流体控制解决方案服务商——永盛科技&#xff08;股票&#xff1a;874497&#xff09;&#xff0c;与商派ShopeX正式达成B2B商城项目合作。 此次合作将共同推动永盛科技B2B业务的数字化变革&#xff0c;提高B2B业务运营效率&#xff0c;同…

jvm简单八股

1、jvm中内存分为那几个区域&#xff0c;1.7和1.8 jvm 中主要有 程序计数器、虚拟机栈、本地方法栈、堆、方法区、直接内存。 线程私有的有&#xff1a;程序计数器、虚拟机栈、本地方法栈 线程共有的有&#xff1a;堆、方法区、直接内存 堆空间又可以分为&#xff1a;新时代、…

contOS7安装docker命令及yum源更换为国内源

docker介绍 Docker是一个开源的容器化平台,通过将应用程序及其依赖打包成轻量级、可移植的容器,确保开发、测试和部署环境的一致性。Docker的核心概念包括容器、镜像、Dockerfile和镜像仓库。容器是轻量级的虚拟化技术,共享宿主机内核但保持独立运行环境,启动快且资源占用少…

SpringBoot集成Redis-6.x版本流程

SpringBoot集成Redis是我们常见的功能&#xff0c;今天我们分享一下&#xff1a; 前言&#xff1a; 1、pom包引用 <!-- Redis Starter (默认使用 Lettuce) --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boo…

zookeeper Curator(3):Watch事件监听

文章目录 Curator API 常用操作 Watch事件监听NodeCachePathChildrenCacheTreeCache 本章代码已分享至Gitee: https://gitee.com/lengcz/curator01 Curator API 常用操作 Watch事件监听 zookeeper 允许用户在指定节点上注册一些Watcher &#xff0c;并且在一些特定事件触发的时…