Python将Word转换为Excel

现有大量的Word文档,每个文档中有大量的表格,需要将其转换为Excel。

Python处理源码

# 需要安装pip install xlsxwriter
import pandas as pd
from docx import Document
from pathlib import Path
from datetime import datetimedef process_docx(filepath):# 处理Word文档的主函数doc = Document(filepath)# 示例处理逻辑:提取所有段落文本content = [p.text for p in doc.paragraphs if p.text.strip()]print(f"成功处理文档: {filepath}")data = []monitor_time = ""# 提取监测时间for paragraph in doc.paragraphs:# print(paragraph.text)if "第12次:" in paragraph.text:monitor_time = parse_monitor_time(paragraph.text)print(f"提取监测时间: {monitor_time}")break# 处理所有表格index = 0for table in doc.tables:# 检查是否为数据表格(包含房屋编号列)if len(table.columns) >= 7 and "成果表" in table.cell(0,0).text:# print(table.cell(0,0).text)for row in table.rows[2:]:  # 跳过标题行first_cell_text = row.cells[0].text.strip()  # 获取第一个单元格的文本并去除首尾空格if "备注" in first_cell_text:  # 如果第一个单元格包含"备注"continue  # 跳过该行cells = [cell.text.replace("\n", "").replace("\r", "").strip() for cell in row.cells]if len(cells) >= 7:  # 确保数据完整# 构建输出记录record = {'点号': f"{cells[0].replace(" ", "")}-{cells[1]}",'初始值': cells[2],'检测值': cells[3],'累计值': cells[4],'监测时间': monitor_time,'上次监测时间': "2025/6/17 03:00"  # 根据备注补充}# print(record)data.append(record)return datadef generate_excel(data, output_path):# 生成标准格式Exceldf = pd.DataFrame(data) # 补充固定字段df['备注'] = '无'# 字段顺序调整columns_order = [ '点号', '初始值', '检测值', '累计值', '监测时间', '上次监测时间', '备注' ]df = df.reindex(columns=columns_order)# 填充空值df['上次监测时间'] = '2025-06-01'# 保存Excel# df.to_excel(output_path, index=False)with pd.ExcelWriter(output_path, engine='xlsxwriter') as writer:df.to_excel(writer, index=False, sheet_name='Sheet1')  # 导出数据worksheet = writer.sheets['Sheet1']# 手动设置列宽(单位:字符宽度)worksheet.set_column('A:A', 38)  # 设置A列为15字符宽度worksheet.set_column('B:B', 12)  # 设置B列为10字符宽度print(f"Excel文件已生成: {output_path}")print(f"Excel开始生成")
filepath=r"C:\Users\admin\Desktop\test.docx"
output_path=r"C:\Users\admin\Desktop\test.xlsx"
data = process_docx(filepath)
generate_excel(data, output_path)
print(f"Excel生成结束")

输入Word文档

word文档格式如下所示
在这里插入图片描述

输出Excel文档

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91452.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

攀爬误报率↓82%!陌讯多模态算法在周界防护的实战解析

​摘要​​ 原创声明 本文解析边缘计算优化下陌讯视觉算法在攀爬识别场景的鲁棒性提升,实测数据来自陌讯技术白皮书(2025)。针对传统安防系统在复杂光影、姿态变化中的误检问题,重点阐述动态决策机制与轻量化部署方案,…

Redis 存在哪些问题

内存相关问题 1. 内存消耗大 无压缩机制:数据以明文形式存储,占用内存较大元数据开销:每个key-value对都有额外的元数据开销内存碎片:频繁的更新操作可能产生内存碎片 2. 内存容量限制 单机容量受限:受限于单台服务器的…

ECMAScript2025(ES16)新特性

概述 ECMAScript2025于2025年6月26日正式发布, 本文会介绍ECMAScript2025(ES16),即ECMAScript的第16个版本的新特性。 以下摘自官网:ecma-262 ECMAScript 2025, the 16th edition, added a new Iterator global with associated static and…

Vim 编辑器工作模式及操作指南

Vim 编辑器工作模式及操作指南 一、工作模式概述 Vim编辑器主要包含四种工作模式,分别是: 命令模式(默认进入模式)输入模式(编辑模式)末行模式(指令模式)可视模式 二、模式切换及操作…

Rabbitmq中常见7种模式介绍

p:生成者,生成消息的程序c:消费者,消费消息的程序Queue:消息队列,用于缓存消息,生产者向里面投递消息,消费者从里面拿取消息消费X:交换机,在rabbitMQ中&#…

SpringAI 1.0.0发布:打造企业级智能聊天应用

官方文档 gitee的demo 1、前言 2025年5月,SpringAI 1.0.0终于正式发布。这不仅是另一个普通的库,更是将Java和Spring推向AI革命前沿的战略性举措。给Java生态带来了强大且全面的AI工程解决方案。众多企业级应用在SpringBoot上运行关键业务&#xff0c…

全球各界关注与讨论鸽姆智库的多维视角分析​

【摘要】全球各界对鸽姆智库的关注与讨论主要集中在以下多维视角: 一、技术创新维度 ‌通用思维框架(GTF)与中文智慧编程系统(CWPS)‌ GTF通过模拟人类格式塔认知,实现模式补全与图形-背景分离功能&#xf…

1️⃣4️⃣ OOP:类、封装、继承、多态

文章目录一、类与实例:从抽象到具体1️⃣ 类(Class):抽象的模板2️⃣ 实例(Instance):具体的对象3️⃣ __init__ 方法:初始化实例属性二、封装:数据与逻辑的“打包”1️⃣…

静态链接 qt 失败

配置静态构建 qt 如下所示,执行配置的时候添加 -static 选项即可。 $skiped_modules ("qttools""qtdoc""qttranslations""qtlanguageserver""qtdeclarative""qtquicktimeline""qtquick3d"…

Qt 多线程界面更新策略

在Qt开发中,界面(UI)更新是高频操作——无论是后台任务的进度展示、传感器数据的实时刷新,还是网络消息的即时显示,都需要动态更新界面元素。但Qt对UI操作有一个核心限制:所有UI组件的创建和更新必须在主线…

1.09---区块链节点到底做了什么?从全节点到轻客户端

鲲志博主出品 Web2 开发者的 Web3 修炼之路 ➡️【好看的灵魂千篇一律,有趣的鲲志一百六七!】- 欢迎认识我~~ 作者:鲲志说 (公众号、B站同名,视频号:鲲志说996) 科技博主:极星会 星辉大使 全栈研发:java、go、python、ts,前电商、现web3 主理人:COC杭州开发者…

Linux线程概念与控制(下)

目录 前言 2.线程控制 1.验证理论 2.引入pthread线程库 3.linux线程控制的接口 3.线程id及进程地址空间布局 4.线程栈 前言 本篇是紧接着上一篇的内容,在有了相关线程概念的基础之上,我们将要学习线程控制相关话题!! 2.线程…

力扣面试150题--只出现一次的数字

Day 91 题目描述## 思路 交换律&#xff1a;a ^ b ^ c <> a ^ c ^ b 任何数于0异或为任何数 0 ^ n > n 相同的数异或为0: n ^ n > 0 根据以上 很容易想到做法&#xff0c;将数组中所有的数异或起来&#xff0c;得到的就是只出现一次的数 class Solution {public in…

【运维基础】Linux 进程调度管理

Linux 进程调度管理 进程调度器 现代计算机系统中既包含只有单个CPU且任何时候都只能处理单个指令的低端系统到具有几百个cpu、每个cpu有多个核心的高性能超级计算机&#xff0c;可以并行执行几百个指令。所有这些系统都有一个共同点&#xff1a;系统进程线程数量超出了CPU数量…

深度学习篇---层与层之间搭配

在深度学习中&#xff0c;各种层&#xff08;比如卷积层、激活函数、池化层等&#xff09;的搭配不是随意的&#xff0c;而是像 “搭积木” 一样有规律 —— 每一层的作用互补&#xff0c;组合起来能高效提取特征、稳定训练&#xff0c;最终提升模型性能。下面用通俗易懂的方式…

服务器多线主要是指什么?

在数字化的网络环境当中&#xff0c;服务器已经成为各个企业提升线上业务发展的重要网络设备&#xff0c;其中服务器多线则是指一台服务器中能够同时接入多个网络运营商&#xff0c;并且通过智能路由技术实现用户访问请求的自动化分配&#xff0c;大大提高了用户访问数据信息的…

从0到1学PHP(三):PHP 流程控制:掌控程序的走向

目录一、条件语句&#xff1a;程序的 “抉择路口”1.1 if 语句家族&#xff1a;基础与进阶1.2 switch 语句&#xff1a;精准匹配的 “导航仪”二、循环语句&#xff1a;程序的 “重复舞步”2.1 for 循环&#xff1a;有序的 “征程”2.2 while 与 do - while 循环&#xff1a;条…

uni-app框架基础

阐述 MVC 模式1, MVC与MVVMMVC 他是后端的一个开发思想MVVM是基于MVC中的view这层所分离出来的一种设计模式。MVC架构详解MVC&#xff08;Model-View-Controller&#xff09;是一种广泛使用的软件设计模式&#xff0c;主要用于分离应用程序的业务逻辑、用户界面和输入控制。这种…

智慧收银系统开发进销存库存统计,便利店、水果店、建材与家居行业的库存汇总管理—仙盟创梦IDE

在零售与批发行业的数字化转型中&#xff0c;当前库存汇总作为进销存管理的核心环节&#xff0c;直接影响着企业的资金周转、销售决策和客户满意度。现代收银系统已超越传统的收款功能&#xff0c;成为整合多渠道数据、实现实时库存汇总的中枢神经。本文将深入剖析便利店、水果…

selenium(WEB自动化工具)

定义解释 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。支持的浏览器包括IE&#xff08;7, 8, 9, 10, 11&#xff09;&#xff0c;Mozilla Firefox&#xff0c;Safari&#xff0c;Google Chrome&#xff0…