从 JSON 到 Python 对象:一次通透的序列化与反序列化之旅

目录

一、为什么要谈 JSON

二、最快速上手:两把钥匙 dumps 与 loads

三、深入 dumps:参数是魔法棒

四、深入 loads:把风险挡在门外

五、文件级序列化:dump 与 load

六、处理中文与编码陷阱

七、异常场景与调试技巧

八、实战案例:增量保存爬虫结果

九、对比其他序列化方案

十、总结


一、为什么要谈 JSON

如果把程序运行时的内存比喻成热闹的城市,那么 JSON 就是连接城市与乡村的高速公路。城市需要把新鲜果蔬送往乡村冷库(持久化),乡村也要把冷藏好的货物送回城市(加载)。JSON 凭借“纯文本、语言无关、可读性高”三大优势,成为公路网中最繁忙的一条。Python 标准库自带的高速收费站 json 模块,让我们在不安装任何第三方包的情况下,即可顺畅通行。

二、最快速上手:两把钥匙 dumps 与 loads

json 模块最常用的两把钥匙只有四个字母:

dumps 把 Python 对象变成 JSON 字符串

loads 把 JSON 字符串还原成 Python 对象

下面给出一段“零门槛”代码,让你瞬间体会二者的默契配合。

import jsonperson = {"name": "Alice", "age": 28, "skills": ["Python", "Go"]}# 序列化:Python dict -> JSON str
json_str = json.dumps(person, ensure_ascii=False, indent=2)
print("序列化结果:")
print(json_str)# 反序列化:JSON str -> Python dict
new_person = json.loads(json_str)
print("\n反序列化结果:")
print(new_person, type(new_person))

控制台会打印出整齐缩进的 JSON,再原封不动地回到字典。ensure_ascii=False 让中文不再被转义成 \uXXXX,indent=2 则满足了人类阅读的需求。短短七行,就完成了内存与文本之间的第一次握手。

三、深入 dumps:参数是魔法棒

很多人止步于 dumps(obj),却不知道它还有五个常用参数,可以让输出更优雅、体积更小。

  • separators

    默认情况下 dumps 使用 (', ', ': ') 作为分隔符,空格让 JSON 更美观,却让字节数膨胀。若要把数据塞进网络包,可以去掉空格。

compact = json.dumps(person, separators=(',', ':'))
print(compact)  # {"name":"Alice","age":28,"skills":["Python","Go"]}
  • sort_keys

    当接口文档要求字段顺序固定时,sort_keys=True 一键升序排序,避免肉眼比对差异时抓狂。

  • default

    Python 世界里不只有 dict、list、str、int、float、bool、None,还有 datetime、Decimal、自定义类。JSON 标准并不认识它们,于是 default 充当翻译官。

from datetime import datetimedef time_converter(o):if isinstance(o, datetime):return o.isoformat()raise TypeError(f"Object of type {type(o)} is not JSON serializable")event = {"created": datetime.utcnow()}
print(json.dumps(event, default=time_converter))
  • skipkeys

    当字典的 key 不是 str、int、float、bool、None 时,默认会抛出 TypeError。设置 skipkeys=True 则静默跳过这些 key,继续序列化其余内容,这在调试日志中尤为实用。

四、深入 loads:把风险挡在门外

JSON 字符串可能来自不可信来源,因此 json.loads 提供了严格的语法校验,拒绝一切非法值。除此之外,还有两个冷门但实用的参数。

  • parse_float

    默认会把带小数点的数字解析成 float,若你使用 Decimal 避免精度误差,可以指定解析器。

from decimal import Decimal
data = '{"price": 19.99}'
obj = json.loads(data, parse_float=Decimal)
print(obj["price"], type(obj["price"]))  # 19.99 <class 'decimal.Decimal'>
  • object_hook

    JSON 中的对象都是字典,若你希望直接映射成自定义类,可在反序列化阶段动手脚。

class User:def __init__(self, name, age):self.name, self.age = name, agedef __repr__(self):return f"User(name={self.name}, age={self.age})"def dict_to_user(d):if {"name", "age"} <= d.keys():return User(d["name"], d["age"])return djson_user = '{"name": "Bob", "age": 30}'
user_obj = json.loads(json_user, object_hook=dict_to_user)
print(user_obj)  # User(name=Bob, age=30)

五、文件级序列化:dump 与 load

当数据量较大或需要持久化到硬盘时,推荐用 dump 与 load 直接操作文件句柄,避免先把整个 JSON 字符串读入内存。

data = {"users": [{"id": i, "name": f"user{i}"} for i in range(3)]}# 写文件
with open("users.json", "w", encoding="utf-8") as f:json.dump(data, f, indent=2, ensure_ascii=False)# 读文件
with open("users.json", encoding="utf-8") as f:data_back = json.load(f)
print(data_back["users"][0]["name"])  # user0

注意文件必须以文本模式打开,Windows 下若出现换行符困惑,可添加 newline='' 让 Python 自动处理。

六、处理中文与编码陷阱

浏览器或 Node.js 服务常把中文转成 \u4e2d\u6587,导致日志不可读。此时只需在 dumps 中设置 ensure_ascii=False,即可保留原始 UTF-8 字符。此外,文件读写显式指定 encoding='utf-8' 可防止跨平台乱码。

七、异常场景与调试技巧

  1. TypeError: Object of type set is not JSON serializable
    集合 set 不是 JSON 基本类型,可先用 list() 转换。

  2. JSONDecodeError: Expecting property name
    字符串末尾多余逗号、单引号未转义都会导致解析失败,可使用 json.tool 命令行工具格式化校验。

  3. 性能瓶颈
    大量数据循环调用 dumps 会触发频繁内存分配,可一次性构建大字典再序列化,或改用第三方库 orjson、ujson。

八、实战案例:增量保存爬虫结果

假设我们在爬取 GitHub API,每 100 条记录保存一次中间结果,防止程序崩溃丢失进度。

import requests, json, osdef crawl_and_save(keyword, pages=5):all_items = []for page in range(1, pages + 1):url = f"https://api.github.com/search/repositories?q={keyword}&page={page}"resp = requests.get(url, timeout=10)resp.raise_for_status()items = resp.json()["items"]all_items.extend(items)# 增量保存with open(f"github_{keyword}_page{page}.json", "w", encoding="utf-8") as f:json.dump(items, f, ensure_ascii=False, indent=2)# 合并结果with open(f"github_{keyword}_all.json", "w", encoding="utf-8") as f:json.dump(all_items, f, ensure_ascii=False, indent=2)if __name__ == "__main__":crawl_and_save("python", 3)

九、对比其他序列化方案

JSON 的优势是“人读、跨语言”,劣势是“不支持复杂类型、体积较大”。如果需要更高性能或支持 Python 特有对象,可考虑:

  • pickle:速度快、支持任意对象,但仅限 Python 且存在安全风险。

  • MessagePack:二进制 JSON,体积更小,跨语言。

  • Protobuf:IDL 驱动,适合大型分布式系统。
    选择方案时,不要只追求技术酷炫,而应结合可读性、兼容性、性能三角平衡。

十、总结

序列化是把“活的” Python 对象变成“可运输”文本的过程,反序列化则是逆向复活。json 模块提供了简洁而强大的 API,让我们以极低的成本完成数据持久化、网络传输、配置管理。掌握 dumps、loads、dump、load 的细粒度参数,就能在优雅、安全、高效之间游刃有余。下次当你写接口、写爬虫、写工具脚本时,别忘了这条最熟悉也最容易被忽视的 JSON 高速通道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914505.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode 3315. 构造最小位运算数组 II

1.题目基本信息 1.1.题目描述 给你一个长度为 n 的质数数组 nums 。你的任务是返回一个长度为 n 的数组 ans &#xff0c;对于每个下标 i &#xff0c;以下 条件 均成立&#xff1a; ans[i] OR (ans[i] 1) nums[i] 除此以外&#xff0c;你需要 最小化 结果数组里每一个 a…

黑搜小知识 | DNS域名解析过程是什么样的?

什么是DNS&#xff1f;DNS( Domain Name System)是“域名系统”的英文缩写&#xff0c;是一种组织成域层次结构的计算机和网络服务命名系统&#xff0c;它用于TCP/IP网络&#xff0c;它所提供的服务是用来将主机名和域名转换为IP地址的工作。举例来说&#xff0c;如果你要访问域…

MyBatis 使用教程及插件开发

作者&#xff1a;小凯 沉淀、分享、成长&#xff0c;让自己和他人都能有所收获&#xff01; 本文的宗旨在于通过简单干净实践的方式教会读者&#xff0c;使用 SpringBoot 配置 MyBatis 并完成对插入、批量插入、修改、查询以及注解事务和编程事务的使用&#xff0c;通过扩展插件…

Maui劝退:用windows直接真机调试iOS,无须和Mac配对

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…

【极客日常】后端任务动态注入执行策略的一种技术实现

近期做项目时遇到一个场景&#xff0c;是需要在后端任务执行时动态注入策略。具体而言&#xff0c;笔者负责的后端服务&#xff0c;可以理解是会在线上服务发布时&#xff0c;对服务风险做实时扫描&#xff0c;那么这个扫描就需要根据当前线上服务发布上下文&#xff0c;匹配对…

8. JVM类装载的执行过程

1. JVM介绍和运行流程-CSDN博客 2. 什么是程序计数器-CSDN博客 3. java 堆和 JVM 内存结构-CSDN博客 4. 虚拟机栈-CSDN博客 5. JVM 的方法区-CSDN博客 6. JVM直接内存-CSDN博客 7. JVM类加载器与双亲委派模型-CSDN博客 8. JVM类装载的执行过程-CSDN博客 9. JVM垃圾回收…

Linux操作系统之信号:信号的产生

前言&#xff1a;上篇文章我们大致讲解了信号的有关概念&#xff0c;为大家引入了信号的知识点。但光知道那些是远远不够的。本篇文章&#xff0c;我将会为大家自己的讲解一下信号的产生的五种方式&#xff0c;希望对大家有所帮助。一、键盘&#xff08;硬件&#xff09;产生信…

pdf拆分

文章目录 背景目标实现下载 背景 好不容易下载的1000页行业报告&#xff0c;领导非要按章节拆分成20份&#xff01;学术论文合集需要按作者拆分投稿&#xff0c;手动分页到怀疑人生…客户发来加密合同&#xff0c;要求每5页生成独立文档&#xff0c;格式还不能乱&#xff01; …

vue3使用mermaid生成图表,并可编辑

效果图实际代码<template><div class"mermaid-container" style"z-index: 99999" ref"wrapperRef"><!-- 控制栏 --><div class"control-bar"><div class"control-bar-flex control-bar-tab-wrap"…

tcp/quic 的滑动窗口

一、滑动窗口 rwnd&#xff1a; 接收端窗口&#xff0c;接收方在每次发送ACK确认报文时&#xff0c;会包含一个 rwnd (Receive Window Size) 字段&#xff0c;指明自己当前剩余的接收缓冲区大小&#xff08;即可用窗口&#xff09;&#xff0c;这里是否是socket的接收缓冲区&am…

JVM监控及诊断工具-命令行篇

18.1. 概述 性能诊断是软件工程师在日常工作中需要经常面对和解决的问题&#xff0c;在用户体验至上的今天&#xff0c;解决好应用的性能问题能带来非常大的收益。 Java 作为最流行的编程语言之一&#xff0c;其应用性能诊断一直受到业界广泛关注。可能造成 Java 应用出现性能…

Jenkins 版本升级与插件问题深度复盘:从 2.443 到 2.504.3 及功能恢复全解析

前言&#xff1a;问题溯源与升级必要性 在 Jenkins 持续集成体系中&#xff0c;插件生态是其强大功能的核心驱动力。然而&#xff0c;某次例行维护中&#xff0c;团队对 Jenkins 2.443 环境的插件进行批量升级后&#xff0c;意外触发连锁反应 &#xff1a; SSH Server 插件功能…

Ribbon实战

一、前置知识 1.1 负载均衡定义 负载均衡指的是将网络请求通过不同的算法分配到不同的服务器上的技术&#xff0c;从而提升系统的性能。 1.2 负载均衡工具 负载均衡工具可以分分为客户端负载均衡工具和服务端负载均衡工具&#xff0c;它们的区别如下。 表1-1 负载均衡工具…

cs285学习笔记(一):课程总览

根据 Fall 2023 学期的官方课程日程&#xff0c;这里是 CS 285 全课程的 Lecture 大纲及内容摘要&#xff0c;详细对应周次和主题&#xff0c;方便你快速定位每节课要点、相关作业与视频资源 &#x1f3af; 官方课程地址 YouTobe 视频地址 blibli视频(带中文字幕) &#x…

OkHttp SSE 完整总结(最终版)

1. SSE 基础概念 什么是 SSE&#xff1f; SSE&#xff08;Server-Sent Events&#xff09;是一种 Web 标准&#xff0c;允许服务器向客户端推送实时数据。 核心特点 单向通信&#xff1a;服务器 → 客户端 基于 HTTP 协议&#xff1a;使用 GET 请求 长连接&#xff1a;连…

聚宽sql数据库传递

自建数据库从聚宽到Q-MT自动化交易实战 从接触聚宽以来一直都是手动跟单&#xff0c;在网上看到许多大佬的自动交易文章&#xff0c;心里也不禁十分痒痒。百说不如一练&#xff0c;千讲不如实干。经过一番努力&#xff0c;终于成功实盘了&#xff0c;效果还可以&#xff0c;几…

es里为什么node和shard不是一对一的关系

提问&#xff1a; 既然多个shard会被分配到同一个node上&#xff0c;那么为什么不把多个shard合并成一个然后存在当前node上呢&#xff0c;简而言之也就是让node和shard形成一对一的关系呢 &#xff1f;非常好的问题&#xff0c;这正是理解Elasticsearch分片&#xff08;shard…

浅谈npm,cnpm,pnpm,npx,nvm,yarn之间的区别

首先做一个基本的分类 名称描述npm,cnpm,yarn,pnpm都是Javascript包管理器nvm是Node.js版本控制器npx命令行工具 I.npm,cnpm,yarn,pnpm npm (Node Package Manager) npm是Node.js默认的包管理器&#xff0c;随Node.js的安装会一起安装。使用npm可以安装&#xff0c;发布&…

滑动窗口-76.最小覆盖子串-力扣(LeetCode)

一、题目解析1.不符合要求则返回空串("")2.子串中重复字符的数量要不少于t中该字符的数量二、算法原理解法1&#xff1a;暴力枚举哈希表这里的暴力枚举也可以优化&#xff0c;即在包含t中元素处枚举&#xff0c;如在A、B和C处开始枚举&#xff0c;减少不必要的枚举 解…

从零构建搜索引擎 build demo search engine from scratch

从零构建搜索引擎 build demo search engine from scratch 我们每天都会使用搜索引擎&#xff1a;打开google等搜索引擎&#xff0c;输入关键词&#xff0c;检索出结果&#xff0c;这是一次搜索&#xff1b;当打开历史记录旁边的&#x1f50d;按钮&#xff0c;输入关键词&#…