摘要:
LangExtract是一个Python库,利用大语言模型(LLM)根据用户定义指令从非结构化文本文档中提取结构化信息。它具备精确源定位、可靠结构化输出、长文档优化、交互式可视化、灵活LLM支持、适应任意领域等特点。可通过几行代码快速开始提取,支持云模型和本地LLM,还提供多种安装方式、API密钥设置方法、自定义模型提供商方式等。有丰富示例,如罗密欧与朱丽叶全文提取、药物提取等,且欢迎贡献,有测试和开发相关流程。
LangExtract
简介
LangExtract是一个Python库,它使用大语言模型(LLM)根据用户定义的指令从非结构化文本文档中提取结构化信息。它能处理临床笔记或报告等材料,识别并组织关键细节,同时确保提取的数据对应源文本。
为何选择LangExtract?
- 精确的源定位:将每个提取内容映射到源文本中的准确位置,支持视觉突出显示,便于追溯和验证。
- 可靠的结构化输出:基于少量示例强制实施一致的输出架构,利用Gemini等支持模型的受控生成来保证可靠、结构化的结果。
- 适用于长文档:通过文本分块、并行处理和多次传递的优化策略,克服大文档提取中“大海捞针”的挑战,提高召回率。
- 交互式可视化:立即生成自包含的交互式HTML文件,可视化并查看数千个提取实体在原始上下文中的情况。
- 灵活的LLM支持:支持多种模型,从谷歌Gemini系列等云托管LLM到通过内置Ollama接口的本地开源模型。
- 适应任何领域:仅用少量示例就能为任何领域定义提取任务,无需模型微调即可适应需求。
- 利用LLM世界知识:利用精确的提示措辞和少量示例来影响提取任务对LLM知识的利用。任何推断信息的准确性及其对任务规范的遵守情况取决于所选LLM、任务复杂度、提示指令清晰度和提示示例性质。
快速开始
注意:使用Gemini等云托管模型需要API密钥。有关获取和配置密钥的说明,请参阅API密钥设置部分。
只需几行代码就能提取结构化信息。
1. 定义提取任务
首先,创建一个清晰描述要提取内容的提示。然后,提供高质量示例来指导模型。
import langextract as lx
import textwrap# 1. 定义提示和提取规则
prompt = textwrap.dedent("""\按出现顺序提取角色、情绪和关系。提取时使用文本原文。不要改写或重叠实体。为每个实体提供有意义的属性以添加上下文。""")# 2. 提供高质量示例来指导模型
examples = [lx.data.ExampleData(text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.",extractions=[lx.data.Extraction(extraction_class="character",extraction_text="ROMEO",attributes={"emotional_state": "wonder"}),lx.data.Extraction(extraction_class="emotion",extraction_text="But soft!",attributes={"feeling": "gentle awe"}),lx.data.Extraction(extraction_class="relationship",extraction_text="Juliet is the sun",attributes={"type": "metaphor"}),])
]
2. 运行提取
将输入文本和提示材料提供给lx.extract
函数。
# 要处理的输入文本
input_text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"# 运行提取
result = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",
)
模型选择:gemini-2.5-flash
是推荐的默认值,在速度、成本和质量之间提供了良好平衡。对于需要更深入推理的高度复杂任务,gemini-2.5-pro
可能提供更优结果。对于大规模或生产使用,建议使用二级Gemini配额以提高吞吐量并避免速率限制。有关详细信息,请参阅速率限制文档。
模型生命周期:请注意,Gemini模型有定义的退休日期的生命周期。用户应咨询官方模型版本文档以了解最新的稳定和旧版本。
3. 可视化结果
提取结果可以保存到.jsonl文件(一种用于处理语言模型数据的流行格式)。然后,LangExtract可以从该文件生成交互式HTML可视化,以在上下文中查看实体。
# 将结果保存到JSONL文件
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl", output_dir=".")# 从文件生成可视化
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:if hasattr(html_content, 'data'):f.write(html_content.data) # 适用于Jupyter/Colabelse:f.write(html_content)
这将创建一个动画和交互式HTML文件:罗密欧与朱丽叶基本可视化。
关于LLM知识利用的说明:
此示例演示了与文本证据密切相关的提取:提取“longing”作为朱丽叶女士的情绪状态,并从“gazed longingly at the stars”识别出“yearning”。可以修改任务以生成更多利用LLM世界知识的属性(例如,添加“identity”: “Capulet family daughter”或“literary_context”: “tragic heroine”)。文本证据和知识推断之间的平衡由提示指令和示例属性控制。
扩展到更长文档
对于较大的文本,可以直接通过URL处理整个文档,并使用并行处理和增强的敏感性:
# 直接从Project Gutenberg处理罗密欧与朱丽叶全文
result = lx.extract(text_or_documents="https://www.gutenberg.org/files/1513/1513-0.txt",prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",extraction_passes=3, # 通过多次传递提高召回率max_workers=20, # 并行处理以提高速度max_char_buffer=1000 # 较小的上下文以提高准确性
)
这种方法可以从完整的小说中提取数百个实体,同时保持高准确性。交互式可视化无缝处理大型结果集,使探索输出JSONL文件中的数百个实体变得容易。请参阅完整的罗密欧与朱丽叶提取示例以获取详细结果和性能见解。
安装
从PyPI安装
pip install langextract
推荐大多数用户使用。对于孤立环境,可考虑使用虚拟环境:
python -m venv langextract_env
source langextract_env/bin/activate # 在Windows上:langextract_env\Scripts\activate
pip install langextract
从源码安装
LangExtract使用现代Python打包,通过pyproject.toml进行依赖管理:
以开发模式安装(-e)可让您在不重新安装的情况下修改代码。
git clone https://github.com/google/langextract.git
cd langextract# 基本安装:
pip install -e .# 开发安装(包括代码检查工具):
pip install -e ".[dev]"# 测试安装(包括pytest):
pip install -e ".[test]"
Docker安装
docker build -t langextract .
docker run --rm -e LANGEXTRACT_API_KEY="your-api-key" langextract python your_script.py
API密钥设置(用于云模型)
当使用LangExtract与云托管模型(如Gemini或OpenAI)时,需要设置API密钥。设备上的模型不需要API密钥。对于使用本地LLM的开发者,LangExtract内置支持Ollama,并可通过更新推理端点扩展到其他第三方API。
API密钥来源
从以下地方获取API密钥:
- 用于Gemini模型的AI Studio
- 用于企业使用的Vertex AI
- 用于OpenAI模型的OpenAI平台
在环境中设置API密钥
选项1:环境变量
export LANGEXTRACT_API_KEY="your-api-key-here"
选项2:.env文件(推荐)
将API密钥添加到.env文件:
# 将API密钥添加到.env文件
cat >> .env << 'EOF'
LANGEXTRACT_API_KEY=your-api-key-here
EOF# 确保API密钥安全
echo '.env' >> .gitignore
在Python代码中:
import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash"
)
选项3:直接API密钥(不推荐用于生产)
也可以在代码中直接提供API密钥,但不推荐用于生产:
result = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash",api_key="your-api-key-here" # 仅用于测试/开发
)
添加自定义模型提供商
LangExtract通过轻量级插件系统支持自定义LLM提供商。您可以在不更改核心代码的情况下添加对新模型的支持。
- 独立于核心库添加新模型支持
- 将您的提供商作为单独的Python包分发
- 隔离自定义依赖项
- 通过基于优先级的解析覆盖或扩展内置提供商
请参阅提供商系统文档中的详细指南,了解如何:
- 使用@registry.register(…)注册提供商
- 发布入口点以进行发现
- 可选地通过get_schema_class()提供具有结构化输出的架构
- 通过create_model(…)与工厂集成
使用OpenAI模型
LangExtract支持OpenAI模型(需要可选依赖项:pip install langextract[openai]):
import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gpt-4o", # 自动选择OpenAI提供商api_key=os.environ.get('OPENAI_API_KEY'),fence_output=True,use_schema_constraints=False
)
注意:OpenAI模型需要fence_output=True和use_schema_constraints=False,因为LangExtract目前还没有为OpenAI实现架构约束。
使用本地LLM与Ollama
LangExtract支持使用Ollama进行本地推理,允许您在没有API密钥的情况下运行模型:
import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemma2:2b", # 自动选择Ollama提供商model_url="http://localhost:11434",fence_output=False,use_schema_constraints=False
)
快速设置:从ollama.com安装Ollama,运行ollama pull gemma2:2b,然后ollama serve。
有关详细安装、Docker设置和示例,请参阅examples/ollama/。
更多示例
LangExtract的其他应用示例:
罗密欧与朱丽叶全文提取
LangExtract可以直接从URL处理完整文档。此示例演示了从Project Gutenberg的罗密欧与朱丽叶全文(147,843个字符)中提取,展示了并行处理、顺序提取传递和长文档处理的性能优化。
查看罗密欧与朱丽叶全文示例→
药物提取
免责声明:此演示仅用于说明LangExtract的基线能力。它不代表已完成或批准的产品,不用于诊断或建议任何疾病或病症的治疗,也不应用于医疗建议。
LangExtract擅长从临床文本中提取结构化医疗信息。这些示例演示了基本实体识别(药物名称、剂量、途径)和关系提取(将药物与其属性连接),展示了LangExtract在医疗保健应用中的有效性。
查看药物示例→
放射学报告结构化:RadExtract
探索RadExtract,这是一个在HuggingFace Spaces上的实时交互式演示,展示了LangExtract如何自动结构化放射学报告。无需设置即可直接在浏览器中尝试。
查看RadExtract演示→
贡献
欢迎贡献!请参阅CONTRIBUTING.md以开始开发、测试和拉取请求。提交补丁前必须签署贡献者许可协议。
测试
要从源码本地运行测试:
# 克隆仓库
git clone https://github.com/google/langextract.git
cd langextract# 安装带有测试依赖项的包
pip install -e ".[test]"# 运行所有测试
pytest tests
或使用tox重现完整的CI矩阵:
tox # 在Python 3.10和3.11上运行pylint + pytest
Ollama集成测试
如果本地安装了Ollama,可以运行集成测试:
# 测试Ollama集成(需要运行带有gemma2:2b模型的Ollama)
tox -e ollama-integration
此测试将自动检测Ollama是否可用并运行真实推理测试。
开发
代码格式化
该项目使用自动化格式化工具来保持一致的代码风格:
# 自动格式化所有代码
./autoformat.sh# 或单独运行格式化程序
isort langextract tests --profile google --line-length 80
pyink langextract tests --config pyproject.toml
预提交钩子
用于自动格式化检查:
pre-commit install # 一次性设置
pre-commit run --all-files # 手动运行