美团龙猫利用expat库实现的保存xml指定范围数据到csv的C程序

用自己代码逐个字符解析的速度较慢,尝试了libxml2也比较慢,它需要一次性读入内存,而expat库支持流式读取。就让龙猫写了一个程序,毕竟是久经考验的库,程序很快就调试通过了。要不是我一开始没信心,让他先输出10行试试,还能少走很多弯路。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <expat.h>#define MAX_CELL_CONTENT 256// 解析范围
typedef struct {int start_row;int end_row;char start_col;char end_col;
} ParseRange;// 全局结果存储
typedef struct {int row;char col;char value[MAX_CELL_CONTENT];
} CellResult;// 范围检查
int is_cell_in_range(int row, char col, ParseRange range) {return (row >= range.start_row && row <= range.end_row &&col >= range.start_col && col <= range.end_col);
}
// 全局结果存储(动态数组)
typedef struct {CellResult *data;     // 动态数组int count;            // 当前数量int capacity;         // 当前容量
} DynamicResults;DynamicResults all_results = {0}; // 全局变量// 初始化动态数组
void init_results() {all_results.capacity = 1024;  // 初始容量all_results.data = malloc(all_results.capacity * sizeof(CellResult));all_results.count = 0;
}// 扩容动态数组
void ensure_capacity(int needed) {if (all_results.count + needed >= all_results.capacity) {all_results.capacity *= 2;  // 翻倍扩容all_results.data = realloc(all_results.data, all_results.capacity * sizeof(CellResult));}
}// 添加结果(无限制版本)
void add_cell_result(int row, char col, const char *value, int is_empty) {ensure_capacity(1);  // 确保有空间all_results.data[all_results.count].row = row;all_results.data[all_results.count].col = col;strncpy(all_results.data[all_results.count].value, value, MAX_CELL_CONTENT - 1);all_results.count++;
}// 释放内存
void free_results() {free(all_results.data);all_results.data = NULL;all_results.count = all_results.capacity = 0;
}// 解析Excel范围 (如"A1:Z100")
int parse_excel_range(const char *range_str, ParseRange *range) {if (sscanf(range_str, "%c%d:%c%d", &range->start_col, &range->start_row,&range->end_col, &range->end_row) != 4) {return -1;}if (range->start_col > range->end_col) return -1;if (range->start_row > range->end_row) return -1;return 0;
}// 解析器状态
typedef struct {ParseRange range;int in_row;int current_row;char current_col;int value_started;char temp_value[MAX_CELL_CONTENT];int value_len;int rows_parsed;  // 已解析行数
} ParserState;// 开始标签回调
void XMLCALL start_element(void *user_data, const XML_Char *name, const XML_Char **attrs) {ParserState *state = (ParserState*)user_data;if (strcmp(name, "row") == 0) {state->in_row = 1;state->current_row = -1;// 解析行号属性for (int i = 0; attrs[i]; i += 2) {if (strcmp(attrs[i], "r") == 0) {state->current_row = atoi(attrs[i+1]);state->rows_parsed++;break;}}if(1==0)printf("解析行 %d\n", state->current_row);}else if (strcmp(name, "c") == 0 && state->in_row) {// 解析列属性for (int i = 0; attrs[i]; i += 2) {if (strcmp(attrs[i], "r") == 0) {state->current_col = attrs[i+1][0];break;}}}else if (strcmp(name, "v") == 0 || strcmp(name, "t") == 0) {if (state->current_row >= state->range.start_row && state->current_row <= state->range.end_row) {state->value_started = 1;state->value_len = 0;state->temp_value[0] = '\0';}}
}// 文本内容回调
void XMLCALL character_data(void *user_data, const XML_Char *s, int len) {ParserState *state = (ParserState*)user_data;if (state->value_started && state->value_len + len < MAX_CELL_CONTENT - 1) {memcpy(state->temp_value + state->value_len, s, len);state->value_len += len;state->temp_value[state->value_len] = '\0';}
}// 结束标签回调
void XMLCALL end_element(void *user_data, const XML_Char *name) {ParserState *state = (ParserState*)user_data;if (strcmp(name, "row") == 0) {state->in_row = 0;}else if ((strcmp(name, "v") == 0 || strcmp(name, "t") == 0) && state->value_started) {if (is_cell_in_range(state->current_row, state->current_col, state->range)) {if(1==0)printf("  单元格 %c%d: '%s'\n", state->current_col, state->current_row, state->temp_value);add_cell_result(state->current_row, state->current_col, state->temp_value, 0);}state->value_started = 0;}
}// 主解析函数
int parse_sheet_xml(const char *filename, ParseRange range) {XML_Parser parser = XML_ParserCreate(NULL);ParserState state = {0};state.range = range;XML_SetUserData(parser, &state);XML_SetElementHandler(parser, start_element, end_element);XML_SetCharacterDataHandler(parser, character_data);FILE *file = fopen(filename, "rb");if (!file) {printf("错误: 无法打开文件 %s\n", filename);XML_ParserFree(parser);return -1;}char buffer[8192];int done;do {size_t len = fread(buffer, 1, sizeof(buffer), file);done = (len < sizeof(buffer));if (XML_Parse(parser, buffer, len, done) == XML_STATUS_ERROR) {printf("解析错误: %s (行 %d)\n", XML_ErrorString(XML_GetErrorCode(parser)),XML_GetCurrentLineNumber(parser));break;}} while (!done);fclose(file);XML_ParserFree(parser);return 0;
}
/*** 输出CSV文件* @param filename 输出文件名*/
int save_results_to_csv(const char *filename) {FILE *csv = fopen(filename, "w");if (!csv) {printf("错误: 无法创建CSV文件 %s\n", filename);return -1;}// 计算列范围char min_col = all_results.data[0].col;char max_col = all_results.data[0].col;for (int i = 1; i < all_results.count; i++) {if (all_results.data[i].col < min_col) min_col = all_results.data[i].col;if (all_results.data[i].col > max_col) max_col = all_results.data[i].col;}// 输出标题fprintf(csv, "Row");for (char col = min_col; col <= max_col; col++) {fprintf(csv, ",%c", col);}    fprintf(csv, "\n");// 数据行int current_row = all_results.data[0].row;int row_start_idx = 0;for (int i = 0; i < all_results.count; i++) {	if (all_results.data[i].row != current_row) {// 输出当前行fprintf(csv, "%d", current_row);for (char col = min_col; col <= max_col; col++) {int found = 0;for (int j = row_start_idx; j < i; j++) {if (all_results.data[j].col == col) {fprintf(csv, ",%s", all_results.data[j].value);found = 1;break;}}if (!found) fprintf(csv, ",");}fprintf(csv, "\n");// 下一行current_row = all_results.data[i].row;row_start_idx = i;}}fclose(csv);printf("CSV已保存到 %s\n", filename);return 0;
}// 主函数
int main(int argc, char *argv[]) {if (argc != 3) {printf("用法: %s <xml文件> <范围(A1:Z100)>\n", argv[0]);return 1;}ParseRange range;if (parse_excel_range(argv[2], &range) != 0) {printf("错误: 无效范围格式,应为 A1:Z100\n");return 1;}printf("解析范围: %c%d:%c%d\n", range.start_col, range.start_row, range.end_col, range.end_row);init_results();   if (parse_sheet_xml(argv[1], range) == 0) {// 生成CSV文件名(替换.xml为.csv)char csv_filename[256];strncpy(csv_filename, argv[1], sizeof(csv_filename) - 1);char *ext = strrchr(csv_filename, '.');if (ext) strcpy(ext, ".csv");else strncat(csv_filename, ".csv", sizeof(csv_filename) - strlen(csv_filename) - 1);// 输出CSVsave_results_to_csv(csv_filename);}   free_results();   return 0;
}

编译执行

gcc -o expatxml3 expatxml3.c -lexpat -O3
time ./expatxml3 lineitem/xl/worksheets/sheet1.xml A1:Z10000
解析范围: A1:Z10000
CSV已保存到 lineitem/xl/worksheets/sheet1.csvreal    0m6.508s
user    0m2.132s
sys     0m0.392s
time ./expatxml3 lineitem/xl/worksheets/sheet1.xml A100001:Z110000
解析范围: A100001:Z110000
CSV已保存到 lineitem/xl/worksheets/sheet1.csvreal    0m6.534s
user    0m2.111s
sys     0m0.431s
time ./expatxml3 lineitem/xl/worksheets/sheet1.xml A1:Z1000000
解析范围: A1:Z1000000
CSV已保存到 lineitem/xl/worksheets/sheet1.csvreal    0m10.207s
user    0m3.046s
sys     0m1.795s
time ./expatxml3 lineitem/xl/worksheets/sheet1.xml A300000:Z660000
解析范围: A300000:Z660000
CSV已保存到 lineitem/xl/worksheets/sheet1.csvreal    0m9.378s
user    0m2.574s
sys     0m1.030s

针对60万行16列,300MB xml, 这个时间还不错,但是没有考虑sharedstrings.xml,否则会慢一些。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95736.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Transformer核心—自注意力机制

Transformer基础—自注意力机制 当我们处理文本、语音这类序列数据时&#xff0c;总会遇到一个老问题&#xff1a;模型到底该怎么理解“前后文”呢&#xff1f; RNN 和 LSTM 曾经是热门的答案&#xff0c;它们沿着时间顺序一点点地读数据&#xff0c;但读得太慢&#xff0c;还容…

分片上传-

分片上传原理&#xff1a;客户端将选择的文件进行切分&#xff0c;每一个分片都单独发送请求到服务端&#xff1b;断点续传 & 秒传原理&#xff1a;客户端 发送请求询问服务端某文件的上传状态 &#xff0c;服务端响应该文件已上传分片&#xff0c;客户端再将未上传分片上传…

零知开源——基于STM32F103RBT6的智能风扇控制系统设计与实现

✔零知IDE 是一个真正属于国人自己的开源软件平台&#xff0c;在开发效率上超越了Arduino平台并且更加容易上手&#xff0c;大大降低了开发难度。零知开源在软件方面提供了完整的学习教程和丰富示例代码&#xff0c;让不懂程序的工程师也能非常轻而易举的搭建电路来创作产品&am…

ReACT Agent概述

目录 1. 核心思想&#xff1a;解决传统方法的局限性 2. ReACT 的工作原理&#xff1a;一个循环过程 3. 技术实现的关键要素 4. ReACTAgent 在任务中的具体工作流程 5. 优势与重要性 6. 挑战与局限性 总结 ReACT 是一个非常重要的框架&#xff0c;它代表了构建能够推理&a…

必知!机器人的分类与应用:RPA、人形与工业机器人

每当提及“机器人”这三个字&#xff0c;许多人的第一反应或许仍是科幻电影中那种具备人类外形、可自由行走与对话的仿生装置。然而&#xff0c;一个值得深入探讨的科技现实是&#xff1a;我们对于人形机器人的迷恋&#xff0c;更多源自文化叙事与情感投射&#xff0c;而非真实…

最快的 C 语言 JSON 库 - yyjson

文章目录DOM 模式下的性能比对一、AWS EC2 (AMD EPYC 7R32, gcc 9.3)二、iPhone (Apple A14, clang 12)持续更新中 持续更新中 持续更新中一个用 ANSI C(C89) 编写的高性能 JSON 库 API.md DOM 模式下的性能比对 DOM 模式&#xff0c;即构建完整 JSON 内存结构后访问数据的模…

TP8 模型save更新不成功

一、User文件头部代码class User extends Model {const TITLE_NAME 用户;//名称//不能删除protected $name user_; //表名 protected $connection \app\services\database\model\DbConnModel::CONN_DB_SITE; //数据库的连接二、更新部分我要更新user_1用户表中的用户信息$se…

中囯移动电视盒子(魔百和)B860AV2.1-A2和CM311-5-zg刷机手记

文章目录B860AV2.1-A2电视盒子情况打开隐藏或屏蔽的功能进入Recovery模式打开WiFi&#xff08;如果被隐藏&#xff09;打开运维调试打开ADB调试安装第三方应用、设置第三方桌面等&#xff08;Fiddler抓包替换官方App安装包&#xff09;开启ADB和使用ADB禁止“首次启动设置”刷机…

【系统架构设计(14)】项目管理下:软件质量与配置管理:构建可靠软件的基础保障

文章目录一、核心思想二、软件质量属性&#xff1a;定义"好软件"的标准三、质量保证与控制&#xff1a;实现质量标准的方法四、CMMI模型&#xff1a;组织质量能力的演进路径五、软件配置管理&#xff1a;质量成果的保护机制六、软件工具&#xff1a;质量管理的技术支…

码农的“必修课”:深度解析Rust的所有权系统(与C++内存模型对比)

在软件开发的世界里&#xff0c;内存管理是至关重要的一个环节。它是程序运行的基础&#xff0c;直接关系到程序的性能、稳定性和安全性。一个糟糕的内存管理策略&#xff0c;可能导致内存泄漏、野指针、缓冲区溢出等一系列令人头疼的问题&#xff0c;甚至带来灾难性的安全漏洞…

Java全栈学习笔记30

# MySQL 卸载安装版电脑管家/360/控制面板卸载mysql服务即可删除ProgramData中的MySQL目录解压版winr 输入 services.msc 打开服务管理。查看是否存在MySQL&#xff0c;如果存在则删除注册表 winR regedit 打开注册表计算机\HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Servic…

Transformers 学习入门:前置知识补漏

在学习 Transformers 之前&#xff0c;打好神经网络和自然语言处理的基础至关重要。本文整理了需要掌握的核心前置知识&#xff0c;用通俗的例子帮你快速理解复杂概念&#xff0c;为后续学习铺平道路。​ 一、神经网络基础​ 1. 多层感知机&#xff08;MLP&#xff09;&#xf…

双摄工业相机的主要特点和应用场景

双摄工业相机&#xff08;双目摄像头&#xff09;在工业领域中的应用非常广泛&#xff0c;其核心优势在于通过双镜头模拟人眼立体视觉&#xff0c;能够获取深度信息并实现高精度三维重建。 一、双摄工业相机的核心优势 深度感知与三维重建 双目摄像头通过两个镜头从不同角度拍…

YOLOv11改进:FocalModulation替换SPPF(精度更高的空间金字塔池化)

YOLOv11&#xff1a;FocalModulation替换SPPF&#xff08;精度更高的空间金字塔池化&#xff09; 引言 在目标检测领域&#xff0c;YOLO系列算法以其高效性和准确性广受欢迎。作为YOLO系列的最新成员之一&#xff0c;YOLOv11在多个方面进行了优化和改进。其中&#xff0c;空间金…

LLM与数据工程的融合:衡石Data Agent的语义层与Agent框架设计

在数字经济浪潮中&#xff0c;企业数据智能正经历从"工具辅助"到"智能协同"的范式跃迁。传统BI系统受限于静态报表与预设指标&#xff0c;难以应对动态业务场景的复杂需求。衡石科技发布的HENGSHI SENSE 6.0通过"Data AI Agent"架构创新&#x…

假设一个算术表达式中包含圆括号、方括号和花括号3种类型的括号,编写一个算法来判别,表达式中的括号是否配对,以字符“\0“作为算术表达式的结束符

思想:这道题是栈的应用类型&#xff0c;我们可以建立一个栈来保存(,[,{,通过遍历字符串如果是三个左括号其中一个则入栈&#xff0c;当遇到)]}则出栈配对&#xff0c;如果左右匹配&#xff0c;则遍历下一个元素&#xff0c;如果不匹配直接返回&#xff0c;如果遍历字符串结束&a…

鸿蒙Next的UI国际化与无障碍适老化实践:构建全球包容的数字世界

科技不应让任何人掉队&#xff0c;鸿蒙Next正将这一理念变为现实在全球化日益深入的今天&#xff0c;应用的国际化与无障碍设计不再是"锦上添花"&#xff0c;而是不可或缺的核心竞争力。华为鸿蒙Next系统从设计之初就深入考虑了这些需求&#xff0c;为开发者提供了完…

深度学习——迁移学习

迁移学习作为深度学习领域的一项革命性技术&#xff0c;正在重塑我们构建和部署AI模型的方式。本文将带您深入探索迁移学习的核心原理、详细实施步骤以及实际应用中的关键技巧&#xff0c;帮助您全面掌握这一强大工具。迁移学习的本质与价值迁移学习的核心思想是"站在巨人…

RAG|| LangChain || LlamaIndex || RAGflow

大模型&#xff1a;预训练模型 外挂知识库&#xff1a;知识库->向量数据库 输入-》预处理成向量 提示词-》llm归纳总结 离线&#xff1a;企业原文本存到向量数据库 向量&#xff1a; 同一个向量模型&#xff08;第二代检索&#xff0c;推荐&#xff0c;个人助理&#xff0c;…

mcp_clickhouse代码学习

引言:当ClickHouse遇上MCP 作为一个基于Model Context Protocol(MCP)框架的ClickHouse查询服务器,mcp_clickhouse不仅在技术实现上展现了优雅的设计思路,更在架构层面提供了许多值得借鉴的解决方案。 一、项目概览:架构初探 mcp_clickhouse是一个专为ClickHouse数据库设计…