以下当前比较知名的RAG的文档解析辅助工具的开源项目汇总,包含核心功能、License信息及GitHub地址:
1. RAGFlow
- 核心功能:支持PDF/扫描件/CAD等23种格式解析,OCR准确率98%,知识图谱融合,混合检索(BM25+向量),工业级部署,单节点日处理超10万页文档。
- 开源信息:
- GitHub:GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.
- License:Apache-2.0
2. Chonkie
- 核心功能:提供5种文本切分方式(Token/Word/Sentence/Semantic/SDPM),支持自定义分块策略,适配LangChain/LlamaIndex等框架。
- 开源信息:
- GitHub:https://github.com/bhavnicksm/chonkie
- License:未明确标注,但代码库公开可访问。
3. VARAG
- 核心功能:多模态RAG实践平台,支持OCR文本检索、视觉信息检索、跨模态嵌入(如JinaCLIP),适用于复杂布局文档(如信息图表)。
- 开源信息:
- GitHub:GitHub - adithya-s-k/VARAG: Vision-Augmented Retrieval and Generation (VARAG) - Vision first RAG Engine
- License:未明确标注。
4. Kotaemon
- 核心功能:基于RAG的文档问答工具,支持多模态解析、混合检索、复杂推理(如多跳问题),提供Web-UI界面及高亮引用。
- 开源信息:
- GitHub:GitHub - Cinnamon/kotaemon: An open-source RAG-based tool for chatting with your documents.
- License:未明确标注。
5. Haystack
- 核心功能:模块化框架,支持文档检索、问答、摘要,集成Elasticsearch/FAISS/SQL存储及BERT/RoBERTa等模型。
- 开源信息:
- GitHub:GitHub - deepset-ai/haystack: AI orchestration framework to build customizable, production-ready LLM applications. Connect components (models, vector DBs, file converters) to pipelines or agents that can interact with your data. With advanced retrieval methods, it's best suited for building RAG, question answering, semantic search or conversational agent chatbots.
- License:Apache-2.0
6. txtai
- 核心功能:AI驱动的数据平台,支持语义搜索、多语言处理、自定义工作流,覆盖文本/图像/视频联合检索。
- 开源信息:
- GitHub:GitHub - neuml/txtai: 💡 All-in-one open-source AI framework for semantic search, LLM orchestration and language model workflows
- License:Apache-2.0
7. QAnything
- 核心功能:网易开源项目,支持文档解析、多模态问答,但具体技术细节需参考代码库。
- 开源信息:
- GitHub:GitHub - netease-youdao/QAnything: Question and Answer based on Anything.
- License:未明确标注。
8. ragflow-upload
- 核心功能:RAGFlow的辅助工具,支持批量上传/解析文档,简化知识库构建流程。
- 开源信息:
- GitHub:GitHub - Samge0/ragflow-upload: 自动批量上传并解析文档至 RagFlow 知识库,省去手动操作,提升效率。
- License:MIT
9. UnstructuredPaddleOCR
- 核心功能:基于PaddlePaddle的OCR工具包,支持80+语言文本识别,适用于PDF/Word等文档提取。
- 开源信息:
- GitHub:GitHub - Unstructured-IO/unstructured.PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
- License:未明确标注,但工具包开源可商用。
选型建议:
- 企业级部署:优先选择 RAGFlow(Apache-2.0)或 Haystack(Apache-2.0),功能全面且支持工业级负载。
- 轻量级使用:Chonkie 适合文本切分,txtai 适合语义搜索,ragflow-upload 简化批量操作。
- 多模态场景:VARAG 或 Kotaemon 支持跨模态检索,但需注意License兼容性。