RAG 分块中表格填补简明示例:Markdown、HTML、Excel、Doc

表格填补是RAG分块中常见的需求,但不同格式的表格处理方式有所不同。本文将对 Markdown、HTML、Excel 的合并单元格进行说明,并给出 Python 示例,演示如何解析和填补。

1. Markdown 表格

Markdown 只能用空值表示合并单元格。(只有列方向的合并表格

示例

| 姓名 | 科目 | 分数 |
|------|------|------|
| 张三 | 数学 | 90   |
|      | 语文 | 85   |
| 张三 | 英语 | 88   |
| 李四 | 数学 | 92   |
|      | 语文 | 80   |

Python 解析

import pandas as pd
from io import StringIOmarkdown_table = """
姓名|科目|分数
张三|数学|90
|语文|85
张三|英语|88
李四|数学|92
|语文|80
"""df = pd.read_csv(StringIO(markdown_table), sep="|")
df['姓名'] = df['姓名'].ffill()
print(df)

输出

    姓名  科目  分数
0   张三  数学   90
1   张三  语文   85
2   张三  英语   88
3   李四  数学   92
4   李四  语文   80

2. HTML 表格

HTML 可以用 rowspancolspan进行填补

示例

<table><tr><td rowspan="2">张三</td><td>数学</td><td>90</td></tr><tr><td>语文</td><td>85</td></tr><tr><td rowspan="2">李四</td><td>数学</td><td>92</td></tr><tr><td>语文</td><td>80</td></tr>
</table>

Python 解析(BeautifulSoup + 填补 rowspan)

from bs4 import BeautifulSouphtml = """
<table><tr><td rowspan="2">张三</td><td>数学</td><td>90</td></tr><tr><td>语文</td><td>85</td></tr><tr><td rowspan="2">李四</td><td>数学</td><td>92</td></tr><tr><td>语文</td><td>80</td></tr>
</table>"""soup = BeautifulSoup(html, "html.parser")
rows = soup.find_all("tr")# 构建空表格
table = []
for r, row in enumerate(rows):cols = row.find_all("td")current_row = []for col in cols:value = col.get_text()rowspan = int(col.get("rowspan", 1))colspan = int(col.get("colspan", 1))current_row.append({"value": value, "rowspan": rowspan, "colspan": colspan})table.append(current_row)# 计算总列数
max_cols = max(sum(cell["colspan"] for cell in row) for row in table)# 初始化填补后的表格
filled_table = [[None]*max_cols for _ in range(len(table))]# 填充逻辑
for r, row in enumerate(table):c_idx = 0for cell in row:# 找到当前行可用位置while filled_table[r][c_idx] is not None:c_idx += 1# 填充 rowspan 和 colspanfor i in range(cell["rowspan"]):for j in range(cell["colspan"]):filled_table[r+i][c_idx+j] = cell["value"]c_idx += cell["colspan"]# 打印结果
for r in filled_table:print(r)

输出

['张三', '数学', '90']
['张三', '语文', '85']
['李四', '数学', '92']
['李四', '语文', '80']

3. Excel 表格

Excel 合并单元格读取后用 pandas 填补即可。

姓名科目分数
张三 (合并两行)数学90
语文85
李四 (合并两行)数学92
语文80
import pandas as pddf = pd.read_excel("example.xlsx")
df['姓名'] = df['姓名'].ffill()
print(df)

输出

     姓名  科目  分数
0   张三  数学   90
1   张三  语文   85
2   李四  数学   92
3   李四  语文   80

4. Word 表格合并单元格特点

在 Word 文档里,表格同样支持“合并单元格”,类似于 Excel,但它有自己的特点:

  • 可以 合并行(rowspan)合并列(colspan)

  • 合并单元格的内容只保留左上角的单元格,其余单元格为空

  • Python 读取 Word 表格通常用 python-docx

  • 读取后的表格数据需要手动填补合并单元格的空值,类似 Excel

示例 Word 表格

姓名科目分数
张三 (合并两行)数学90
语文85
李四 (合并两行)数学92
语文80

Python 解析 Word 表格并填补

from docx import Documentdoc = Document("example.docx")
table = doc.tables[0]# 先读取表格内容
data = []
for row in table.rows:data.append([cell.text.strip() if cell.text.strip() else None for cell in row.cells])# 填补合并单元格(垂直填充)
for col in range(len(data[0])):last_val = Nonefor row in data:if row[col]:last_val = row[col]else:row[col] = last_valfor row in data:print(row)

输出

['张三', '数学', '90']
['张三', '语文', '85']
['李四', '数学', '92']
['李四', '语文', '80']

结论:

  • Markdown:用空值表示合并单元格,再 ffill()

  • HTML:用 rowspan,需要逻辑填补

  • Excel:合并单元格读取后是 NaN,用 ffill()

  • Word 表格合并单元格读取后非首单元格为 None

  • 可以用 逐列垂直填充(类似 Excel ffill()

  • Python 最常用库是 python-docx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93696.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA创建一个VUE项目

由于新手学习VUE&#xff0c;所以使用手动初始化项目 步骤&#xff1a; 创建项目文件夹&#xff1a;在 IDEA 中点击 File > New > Project&#xff0c;选择 Empty Project&#xff0c;指定项目路径。初始化 npm&#xff1a;在终端中&#xff1a;npm init -y安装vue&#…

Chrome插件开发实战:todoList 插件

以下是一个适合小团队自用的 Chrome TodoList 插件开发示例&#xff0c;包含基础功能&#xff08;增删改查、本地存储、统计&#xff09;和简洁的交互设计。代码结构清晰&#xff0c;适合新手学习或快速上手。 一、项目准备 创建插件项目目录 todo-list-extension&#xff0c;…

【Redis数据库开启SSL加密】【小白指南】【生产环境可用】附带Docker服务器配置和python连接Redis数据库代码(加密通讯版)

【Redis数据库开启SSL加密】【填坑指南】附带服务器配置和python连接测试代码 本教程转为小白提供设置Redis安全访问&#xff0c;自签名证书进行安全访问你的Redis数据库&#xff0c;轻松实现安全访问和保护数据库不被非法入侵。 本文原创&#xff0c;转载请注明出处&#xff0…

笔记本电脑键盘失灵【已解决】

配置环境硬件详情笔记本电脑联想拯救者y7000 2019 PG0&#xff08;已更新为win11&#xff09;外接键盘colorful ckb-p100问题今天笔记本开机后&#xff0c;进入登录页面输入密码&#xff0c;突然发现笔记本自带键盘&#xff08;我通常不用外接键盘&#xff09;的键失灵了&#…

postgresql运维问题解决:PG集群备节点状态异常告警处理

小亦平台会持续给大家科普一些运维过程中常见的问题解决案例&#xff0c;运维朋友们可以在常见问题及解决方案专栏查看更多案例 问题概述&#xff1a; 故障&#xff1a; pg数据库备节点状态异常现象&#xff1a; 一般为集群间心跳超时导致,现象为集群有fail-count失败数告警&…

Maven 开发实践

文章目录1. 搭建私服&#xff08;windows)2.上传依赖3.多个远程仓库配置4.其它1. 搭建私服&#xff08;windows) 软件下载 https://help.sonatype.com/en/download.html修改端口 etc/nexus-default.properties启动程序 管理员身份进入进入bin目录下执行.\nexus.exe /run创建Ma…

设计心得——如何架构选型

一、架构的作用 可能对于很多的公司&#xff0c;其实架构本身的重要性并不大。大家一定明白这回事&#xff0c;架构在实际的开发&#xff0c;在大多数的场景下其实用处并没有书籍和资料中讲的那样重要&#xff0c;甚至是可有可无。这样讲是不有些可笑&#xff1f;是不是觉得挺意…

vba学习系列(12)--反射率通过率计算复杂度优化25/8/17

系列文章目录 文章目录系列文章目录前言一、反射率通过率1.整体通过率2.整体通过率3.客户工艺匹配4.机台通过率分析5.镜片通过率罩次分析分析1.1分析1.26.镜片通过率圈数分析分析1.1分析1.28.镜筒通过率圈数分析分析1.1分析1.29.镜筒通过率罩次分析分析1.2总结前言 一、反射率通…

Microsoft WebView2

运行效果 代码如下 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Diagnostics; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Form…

GitCode 疑难问题诊疗:全方位指南

一、问题诊断与解决框架1.1 通用问题排查流程在面对 GitCode 问题时&#xff0c;遵循一套科学的排查流程至关重要。首先&#xff0c;详细记录问题出现时的具体操作步骤与相关报错信息&#xff0c;这有助于精准定位问题根源。例如&#xff0c;若在执行git push命令时出现错误&am…

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

本文介绍使用四块Framework主板构建AI推理集群的完整过程&#xff0c;并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max 395处理器&#xff0c;采用mini ITX规格设计&#xff0c;可部署在10英寸标准机架中。 Jeff Geerling大佬还开发了名…

深度学习·GFSS

GFSS General Few-Shot Segmentation 任务实现方式与zero-shot有所不同本篇论文只涉及同一个模态(图像)&#xff0c;训练过程中&#xff0c;novel class有几个图像提供&#xff0c;提供k个就称之为k-shot。先从图像中提取class prototype&#xff0c;然后这个原型向量作为查询&…

Transformer架构的数学本质:从注意力机制到大模型时代的技术内核

系列专栏推荐&#xff1a;零基础学Python&#xff1a;Python从0到100最新最全教程 深入浅出讲解神经网络原理与实现&#xff0c;从基础的多层感知机到前沿的Transformer架构。包含完整的数学推导、代码实现和工程优化技巧。 写在前面&#xff1a;为什么理解Transformer如此重要…

最新微信小程序一键获取真实微信头像和昵称方法

使用公开免费插件&#xff0c;快速实现获取用户头像和昵称&#xff0c;已附uniapp、微信开发工具开发详细教程。前言为了保护用户隐私&#xff0c;wx.getUserInfo、wx.getUserProfile都没法获取到用户头像和昵称了&#xff0c;只能通过设计用户主动选择/输入形式&#xff0c;操…

路由器配置之模式

文章目录配置路由器时&#xff0c;有一个模式选择最佳实践各个选项的区别11b only11g only11n only11bg mixed11bgn mixed配置路由器时&#xff0c;有一个模式选择 最佳实践 • 追求速度&#xff1a;选 11n only&#xff08;需所有设备支持&#xff09;。 • 兼容性优先&…

评测系统构建

合成数据更“科研驱动”&#xff0c;强调 controllability 和 generalization evaluation&#xff1a; 之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路 该思想从现有真实数据中学习参数&#xff0c;再构造类似但分布略异的数据集&#xff0c;验证模…

【计算机网络面试】TCP/IP网络模型有哪几层

参考&#xff1a; 2.1 TCP/IP 网络模型有哪几层&#xff1f; | 小林coding | Java面试学习 以下为自己做的笔记 应用层 专注于为用户提供应用功能&#xff0c;如HTTP、FTP、Telnet、DNS、SMTP等。应用层不关心用户是怎么传输的&#xff0c;当两个设备间的应用需要通信时&…

3 种方式玩转网络继电器!W55MH32 实现网页 + 阿里云 + 本地控制互通

目录 1 前言 2 项目环境 2.1 硬件准备 2.2 软件准备 2.3 方案图示 3 例程修改 4 功能验证 5. 总结 1 前言 HTTP&#xff08;超文本传输协议&#xff0c;HyperText Transfer Protocol&#xff09;是一种用于分布式、协作式、超媒体信息系统的应用层协议&#xff0c; 基于 TCP/IP…

第四篇:科技封锁与文化渗透篇——T-501 与 M-208 双引擎布局(节奏增强版)

科技封锁与文化渗透篇——T-501 与 M-208 双引擎布局&#xff08;节奏增强版&#xff09; 引子 在全球竞争中&#xff0c;光有资本和市场远远不够。 • 科技封锁&#xff08;T-501&#xff09;&#xff1a;通过技术标准、专利网络、供应链控制&#xff0c;让对手进入成本极高的…

python实现梅尔频率倒谱系数(MFCC) 除了傅里叶变换和离散余弦变换

语音识别第4讲&#xff1a;语音特征参数MFCC https://zhuanlan.zhihu.com/p/88625876/ Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-Between https://haythamfayek.com/2016/04/21/speech-processing-…