开源，LangExtract-Python库用LLM从非结构化文本提取结构化信息

摘要：
LangExtract是一个Python库，利用大语言模型（LLM）根据用户定义指令从非结构化文本文档中提取结构化信息。它具备精确源定位、可靠结构化输出、长文档优化、交互式可视化、灵活LLM支持、适应任意领域等特点。可通过几行代码快速开始提取，支持云模型和本地LLM，还提供多种安装方式、API密钥设置方法、自定义模型提供商方式等。有丰富示例，如罗密欧与朱丽叶全文提取、药物提取等，且欢迎贡献，有测试和开发相关流程。

LangExtract

简介

LangExtract是一个Python库，它使用大语言模型（LLM）根据用户定义的指令从非结构化文本文档中提取结构化信息。它能处理临床笔记或报告等材料，识别并组织关键细节，同时确保提取的数据对应源文本。

为何选择LangExtract？

精确的源定位：将每个提取内容映射到源文本中的准确位置，支持视觉突出显示，便于追溯和验证。
可靠的结构化输出：基于少量示例强制实施一致的输出架构，利用Gemini等支持模型的受控生成来保证可靠、结构化的结果。
适用于长文档：通过文本分块、并行处理和多次传递的优化策略，克服大文档提取中“大海捞针”的挑战，提高召回率。
交互式可视化：立即生成自包含的交互式HTML文件，可视化并查看数千个提取实体在原始上下文中的情况。
灵活的LLM支持：支持多种模型，从谷歌Gemini系列等云托管LLM到通过内置Ollama接口的本地开源模型。
适应任何领域：仅用少量示例就能为任何领域定义提取任务，无需模型微调即可适应需求。
利用LLM世界知识：利用精确的提示措辞和少量示例来影响提取任务对LLM知识的利用。任何推断信息的准确性及其对任务规范的遵守情况取决于所选LLM、任务复杂度、提示指令清晰度和提示示例性质。

快速开始

注意：使用Gemini等云托管模型需要API密钥。有关获取和配置密钥的说明，请参阅API密钥设置部分。

只需几行代码就能提取结构化信息。

1. 定义提取任务

首先，创建一个清晰描述要提取内容的提示。然后，提供高质量示例来指导模型。

import langextract as lx
import textwrap# 1. 定义提示和提取规则
prompt = textwrap.dedent("""\按出现顺序提取角色、情绪和关系。提取时使用文本原文。不要改写或重叠实体。为每个实体提供有意义的属性以添加上下文。""")# 2. 提供高质量示例来指导模型
examples = [lx.data.ExampleData(text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.",extractions=[lx.data.Extraction(extraction_class="character",extraction_text="ROMEO",attributes={"emotional_state": "wonder"}),lx.data.Extraction(extraction_class="emotion",extraction_text="But soft!",attributes={"feeling": "gentle awe"}),lx.data.Extraction(extraction_class="relationship",extraction_text="Juliet is the sun",attributes={"type": "metaphor"}),])
]

2. 运行提取

将输入文本和提示材料提供给lx.extract函数。

# 要处理的输入文本
input_text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"# 运行提取
result = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",
)

模型选择：gemini-2.5-flash是推荐的默认值，在速度、成本和质量之间提供了良好平衡。对于需要更深入推理的高度复杂任务，gemini-2.5-pro可能提供更优结果。对于大规模或生产使用，建议使用二级Gemini配额以提高吞吐量并避免速率限制。有关详细信息，请参阅速率限制文档。

模型生命周期：请注意，Gemini模型有定义的退休日期的生命周期。用户应咨询官方模型版本文档以了解最新的稳定和旧版本。

3. 可视化结果

提取结果可以保存到.jsonl文件（一种用于处理语言模型数据的流行格式）。然后，LangExtract可以从该文件生成交互式HTML可视化，以在上下文中查看实体。

# 将结果保存到JSONL文件
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl", output_dir=".")# 从文件生成可视化
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:if hasattr(html_content, 'data'):f.write(html_content.data)  # 适用于Jupyter/Colabelse:f.write(html_content)

这将创建一个动画和交互式HTML文件：罗密欧与朱丽叶基本可视化。

关于LLM知识利用的说明：

此示例演示了与文本证据密切相关的提取：提取“longing”作为朱丽叶女士的情绪状态，并从“gazed longingly at the stars”识别出“yearning”。可以修改任务以生成更多利用LLM世界知识的属性（例如，添加“identity”: “Capulet family daughter”或“literary_context”: “tragic heroine”）。文本证据和知识推断之间的平衡由提示指令和示例属性控制。

扩展到更长文档

对于较大的文本，可以直接通过URL处理整个文档，并使用并行处理和增强的敏感性：

# 直接从Project Gutenberg处理罗密欧与朱丽叶全文
result = lx.extract(text_or_documents="https://www.gutenberg.org/files/1513/1513-0.txt",prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",extraction_passes=3,    # 通过多次传递提高召回率max_workers=20,         # 并行处理以提高速度max_char_buffer=1000    # 较小的上下文以提高准确性
)

这种方法可以从完整的小说中提取数百个实体，同时保持高准确性。交互式可视化无缝处理大型结果集，使探索输出JSONL文件中的数百个实体变得容易。请参阅完整的罗密欧与朱丽叶提取示例以获取详细结果和性能见解。

安装

从PyPI安装

pip install langextract

推荐大多数用户使用。对于孤立环境，可考虑使用虚拟环境：

python -m venv langextract_env
source langextract_env/bin/activate  # 在Windows上：langextract_env\Scripts\activate
pip install langextract

从源码安装

LangExtract使用现代Python打包，通过pyproject.toml进行依赖管理：

以开发模式安装（-e）可让您在不重新安装的情况下修改代码。

git clone https://github.com/google/langextract.git
cd langextract# 基本安装：
pip install -e .# 开发安装（包括代码检查工具）：
pip install -e ".[dev]"# 测试安装（包括pytest）：
pip install -e ".[test]"

Docker安装

docker build -t langextract .
docker run --rm -e LANGEXTRACT_API_KEY="your-api-key" langextract python your_script.py

API密钥设置（用于云模型）

当使用LangExtract与云托管模型（如Gemini或OpenAI）时，需要设置API密钥。设备上的模型不需要API密钥。对于使用本地LLM的开发者，LangExtract内置支持Ollama，并可通过更新推理端点扩展到其他第三方API。

API密钥来源

从以下地方获取API密钥：

用于Gemini模型的AI Studio
用于企业使用的Vertex AI
用于OpenAI模型的OpenAI平台

在环境中设置API密钥

选项1：环境变量

export LANGEXTRACT_API_KEY="your-api-key-here"

选项2：.env文件（推荐）

将API密钥添加到.env文件：

# 将API密钥添加到.env文件
cat >> .env << 'EOF'
LANGEXTRACT_API_KEY=your-api-key-here
EOF# 确保API密钥安全
echo '.env' >> .gitignore

在Python代码中：

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash"
)

选项3：直接API密钥（不推荐用于生产）

也可以在代码中直接提供API密钥，但不推荐用于生产：

result = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash",api_key="your-api-key-here"  # 仅用于测试/开发
)

添加自定义模型提供商

LangExtract通过轻量级插件系统支持自定义LLM提供商。您可以在不更改核心代码的情况下添加对新模型的支持。

独立于核心库添加新模型支持
将您的提供商作为单独的Python包分发
隔离自定义依赖项
通过基于优先级的解析覆盖或扩展内置提供商

请参阅提供商系统文档中的详细指南，了解如何：

使用@registry.register(…)注册提供商
发布入口点以进行发现
可选地通过get_schema_class()提供具有结构化输出的架构
通过create_model(…)与工厂集成

使用OpenAI模型

LangExtract支持OpenAI模型（需要可选依赖项：pip install langextract[openai]）：

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gpt-4o",  # 自动选择OpenAI提供商api_key=os.environ.get('OPENAI_API_KEY'),fence_output=True,use_schema_constraints=False
)

注意：OpenAI模型需要fence_output=True和use_schema_constraints=False，因为LangExtract目前还没有为OpenAI实现架构约束。

使用本地LLM与Ollama

LangExtract支持使用Ollama进行本地推理，允许您在没有API密钥的情况下运行模型：

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemma2:2b",  # 自动选择Ollama提供商model_url="http://localhost:11434",fence_output=False,use_schema_constraints=False
)

快速设置：从ollama.com安装Ollama，运行ollama pull gemma2:2b，然后ollama serve。

有关详细安装、Docker设置和示例，请参阅examples/ollama/。

贡献

欢迎贡献！请参阅CONTRIBUTING.md以开始开发、测试和拉取请求。提交补丁前必须签署贡献者许可协议。

测试

要从源码本地运行测试：

# 克隆仓库
git clone https://github.com/google/langextract.git
cd langextract# 安装带有测试依赖项的包
pip install -e ".[test]"# 运行所有测试
pytest tests

或使用tox重现完整的CI矩阵：

tox  # 在Python 3.10和3.11上运行pylint + pytest

Ollama集成测试

如果本地安装了Ollama，可以运行集成测试：

# 测试Ollama集成（需要运行带有gemma2:2b模型的Ollama）
tox -e ollama-integration

此测试将自动检测Ollama是否可用并运行真实推理测试。

开发

代码格式化

该项目使用自动化格式化工具来保持一致的代码风格：

# 自动格式化所有代码
./autoformat.sh# 或单独运行格式化程序
isort langextract tests --profile google --line-length 80
pyink langextract tests --config pyproject.toml

预提交钩子

用于自动格式化检查：

pre-commit install  # 一次性设置
pre-commit run --all-files  # 手动运行