用算法实现 用统计的方式实现 用自然语言处理的方法实现 用大模型实现 专利精益化统计分析

我们可以从算法、统计、自然语言处理(NLP)和大型语言模型(LLM)这四个方面,探讨如何实现对专利社区、作者重要性以及共同作者贡献度的分析。


1. 如何体现专利的社区 (社群效应)

🤖 用算法实现

  • 网络分析算法:
    • 社群检测 (Community Detection): 应用如 Louvain 算法、Girvan-Newman 算法等在专利引用网络(专利A引用专利B形成连接)或合作网络(共同发明人、共同受让人)中识别出紧密连接的专利集群或机构集群,这些集群可以被视为一个“社区”。
    • 中心性算法 (Centrality Algorithms): 使用 PageRank、介数中心性 (Betweenness Centrality)、度中心性 (Degree Centrality) 等算法,识别社区中的核心专利、关键连接者(发明人/机构)。
  • 聚类算法 (Clustering Algorithms):
    • 基于专利的技术分类号 (IPC/CPC)、关键词、摘要文本特征等,使用 K-Means、DBSCAN 等算法将相似的专利聚集在一起,形成技术主题社区。

📊 用统计的方式实现

  • 引文分析 (Citation Analysis):
    • 统计前向/后向引用的数量、频率、引用机构的多样性等,高频互引的专利集合可视为一个社区。
    • 计算共被引分析 (Co-citation Analysis) 和文献耦合分析 (Bibliographic Coupling),识别共同关注或共同基础的专利群组。
  • 共现分析 (Co-occurrence Analysis):
    • 统计技术关键词、IPC/CPC 分类号、发明人、受让人的共现频率。高频共现的实体对表明它们可能属于同一技术社区或合作网络。
  • 地理空间统计:
    • 分析发明人或受让人的地理位置分布,识别创新活动的地理聚集区,即地理上的创新社区。
  • 趋势分析:
    • 分析特定技术领域内或特定机构群体的专利申请量随时间的变化,观察社区的形成、发展和演变。

🗣️ 用自然语言处理 (NLP) 的方法实现

  • 主题建模 (Topic Modeling):
    • 应用 LDA (Latent Dirichlet Allocation)、NMF (Non-negative Matrix Factorization) 等模型从专利的摘要、权利要求或全文中提取隐藏的主题。具有相似主题分布的专利可以被认为属于同一技术社区。
  • 文本相似度计算:
    • 使用词袋模型 (Bag-of-Words)、TF-IDF、词嵌入 (Word Embeddings like Word2Vec, GloVe, BERT embeddings) 等技术计算专利文献之间的文本相似度,将高度相似的专利归为一类。
  • 命名实体识别 (NER):
    • 从专利文本中自动抽取出关键的技术术语、化学物质、基因序列、组织机构名等,用于构建更精细的知识图谱,从而识别和定义社区。
  • 关系抽取 (Relation Extraction):
    • 识别专利文本中实体之间的关系(例如,“技术A应用于产品B”,“公司X与大学Y合作研发”),构建社区内的关系网络。

🧠 用大模型 (LLM) 实现

  • 语义聚类与检索:
    • 利用 LLM 强大的语义理解能力,对专利摘要或权利要求进行向量化表示 (embeddings),然后在向量空间中进行聚类,比传统 NLP 方法能更好地捕捉深层语义联系,形成概念上更相关的社区。
    • 通过自然语言提问,LLM 可以检索出与特定技术问题或概念相关的专利集合,间接定义一个围绕该问题的“社区”。
  • 社区描述生成:
    • 在识别出专利社区后,LLM 可以分析社区内专利的共同特征(如核心技术点、主要参与者、发展趋势),并自动生成对该社区的描述性摘要。
  • 知识图谱构建辅助:
    • LLM 可以从大量专利文本中提取实体和关系,辅助构建专利知识图谱,更全面地展现社区结构和动态。

2. 如何体现一个作者在这个领域的重要度

🤖 用算法实现

  • 基于引文的排序算法:
    • 计算发明人的 H-index、G-index 等学术评价指标(应用于专利引用)。
    • 在发明人合作网络或其专利被引网络中,使用 PageRank 或其他中心性算法给发明人打分,排名靠前的可能更重要。
  • 机器学习预测模型:
    • 构建一个模型,输入发明人的多维度特征(专利数量、被引次数、合作者数量、专利技术领域广度等),输出其重要性评分或等级。

📊 用统计的方式实现

  • 基础指标统计:
    • 专利数量: 该发明人在特定领域的专利申请/授权总量。
    • 被引次数: 其名下专利被后续专利引用的总次数或平均次数。
    • 专利家族大小: 其专利在多少个国家/地区获得保护,反映国际影响力。
    • 独立发明占比: 独立完成发明的比例。
  • 高级指标统计:
    • 领域加权影响力指数 (Category Normalized Citation Impact - CNCI): 考虑不同技术领域引用行为的差异,进行标准化后的影响力评估。
    • 核心专利持有情况: 统计发明人是否拥有在其领域内被认为是开创性或颠覆性的高价值专利(通常通过高被引、专利审查员引用、或在标准中的地位等判断)。
    • 合作网络广度与深度: 合作发明人数量、合作机构的多样性等。

🗣️ 用自然语言处理 (NLP) 的方法实现

  • 专利文本分析:
    • 分析发明人专利权利要求的广度、新颖性和技术先进性。例如,使用 NLP 技术评估其专利描述的技术方案与现有技术的差异程度。
    • 对其专利组合进行主题建模,识别其核心技术贡献领域和影响力范围。
  • 情感与影响力分析(间接):
    • 如果能获取到关于其专利的法律诉讼文件、许可协议新闻等,可以分析其中的描述来间接判断其专利的重要性和市场影响力。

🧠 用大模型 (LLM) 实现

  • 贡献总结与评估:
    • LLM 可以阅读分析一个发明人的所有专利(至少是摘要和权利要求),并生成对其技术贡献、创新点和潜在影响力的总结性描述。
    • 通过与领域内其他专利进行语义比较,LLM 可以辅助判断其发明的独特性和先进性。
  • 问答式影响力探究:
    • 向 LLM 提问,例如:“[发明人A]在[某领域]最重要的贡献是什么?”或“[发明人A]的哪些专利对后续技术发展影响最大?” LLM 结合其知识库和分析能力给出答案。
  • 影响力叙事生成:
    • LLM 可以基于该发明人的专利数据、引用情况、合作网络等信息,撰写一段关于其领域重要性的叙事性报告。

3. 如何体现同一篇专利不同作者的贡献度

前提:如前所述,仅从公开的专利文件本身很难直接、准确地判断不同发明人的具体贡献比例。专利法通常赋予所有列名发明人平等的权利。以下方法更多是探索性的,或依赖于额外信息。

🤖 用算法实现

  • 基于排序的启发式方法(高度依赖约定):
    • 如果某个组织内部有明确且一致的关于发明人排序与其贡献度相关的规则(例如,主要贡献者排第一),那么可以简单地根据排序来赋予权重。但这缺乏普遍适用性。
  • 基于外部数据的算法:
    • 如果能获取到与专利相关的内部贡献声明(如某些公司要求发明人填写的表格)或关联的学术论文(其中有作者贡献声明),可以设计算法来解析这些结构化或半结构化数据,并量化贡献。

📊 用统计的方式实现

  • 基于历史数据的间接推断(非常粗略):
    • 分析一个发明人在其所有专利中通常处于什么位置(第一发明人、中间发明人、最后发明人),以及不同位置的发明人其专利的平均被引次数等。但这只能反映一般模式,不能确定单篇专利的具体贡献。
    • 对于单篇专利,统计方法几乎无法直接区分贡献度。

🗣️ 用自然语言处理 (NLP) 的方法实现

  • 基于权利要求和发明人专长的关联分析(高难度、主观):
    • 如果能将专利的每项权利要求(或技术点)通过 NLP 技术与每位发明人已知的技术专长领域(通过分析他们各自的其他专利或论文获得)进行匹配,或许可以推测谁对哪个技术点贡献更大。这非常复杂且主观性强。
  • 分析实验室笔记或内部文档(需额外数据源):
    • 如果能获得详细记录发明过程的内部文档(如实验室记录、项目报告),NLP 可以尝试从中提取描述各个发明人具体行动和贡献的文本片段,然后进行量化或定性评估。

🧠 用大模型 (LLM) 实现

  • 基于文本理解的贡献推测(非常依赖上下文和额外信息):
    • 如果LLM能够访问到描述发明过程的详细文本(例如,发明人提交给专利代理人的技术交底书,其中可能非正式地描述了各自的角色),LLM 或许可以从中提炼出关于贡献度的线索。但这同样超出了标准专利数据范围。
    • 直接询问(如果模型被特定数据训练过): 如果一个LLM被用包含明确贡献度声明的数据集进行了微调(这在当前是不现实的通用场景),或许可以直接提问。
    • 角色识别与归因(探索性): 比如,如果一个发明人主要负责实验验证,另一人主要负责理论构建,LLM 在理解了技术细节后,结合发明人各自的背景,或许能做出一些非常初步的、启发式的贡献角色划分,但这不能等同于法律或实际意义上的贡献度比例。

总结来说,对于前两个问题(专利社区和作者重要性),算法、统计、NLP 和 LLM 都有较多可行的实现路径。但对于第三个问题(共同作者贡献度),由于专利制度本身的设计,仅靠公开数据用任何技术手段都难以精确实现,更多时候需要依赖机构内部的约定或补充信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/82063.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出IIC协议 - 从总线原理到FPGA实战开发 -- 第五篇:多主仲裁与错误恢复

第五篇:多主仲裁与错误恢复 副标题 :从总线冲突到故障自愈——构建高可靠I2C系统的终极指南 1. 多主仲裁机制 1.1 仲裁原理与硬件实现 仲裁流程图解 : 仲裁失败处理 : 立即切换为从机模式 监测总线空闲后重试(随机…

146. LRU Cache

题目描述 146. LRU Cache 哈希表双向链表 详见代码和注释: class LRUCache { private:int capacity_{0};int size_{0};struct Node{int key{0};int val{0};Node* pre{nullptr};Node* next{nullptr};Node(int k,int v,Node* pr,Node* nex):key(k),val(v),pre(pr),…

docker network 自定义网络配置与管理指南

Docker 自定义网络配置与管理指南 1. 网络基础概念 Docker 网络是容器间通信和与外部世界交互的基础。通过自定义网络,可以实现容器间的隔离、静态 IP 分配和服务发现。 关键术语: 子网(Subnet):IP 地址的逻辑分组,例如 172.1…

linux strace调式定位系统问题

strace 的基本功能 strace 的主要功能包括: 跟踪系统调用:显示进程执行时调用的系统函数及其参数和返回值。监控信号:记录进程接收到的信号。性能分析:统计系统调用的执行时间和次数。调试支持:帮助定位程序崩溃、性…

告别手抖困扰:全方位健康护理指南

手抖,医学上称为震颤,是常见的身体症状,可能由多种原因引发,了解其成因并采取科学护理措施,对改善症状、维护健康至关重要。 生理性手抖往往因情绪激动、过度劳累、大量饮用咖啡或酒精等引起,这种手抖通常较…

华为2025年校招笔试真题手撕教程(一)

一、题目 输入: 第一行为记录的版本迭代关系个数N,范围是[1,100000]; 第二行到第N1行:每行包含两个字符串,第一个字符串为当前版本,第二个字符串为前序版本,用空格隔开。字符串包含字符个数为…

Qt 的多线程

Qt 中的多线程主要用于处理耗时操作,避免阻塞主线程(UI 线程),从而提高程序的响应性和运行效率。以下是 Qt 多线程的相关技术总结: 常见的多线程实现方式 继承 QThread 类 :最基础的实现方式,具…

基于ITcpServer/IHttpServer框架的HTTP服务器

https://www.cnblogs.com/MuZhangyong/p/16839231.html 在基于ITcpServer/IHttpServer框架的HTTP服务器实现中,OnBody方法主要用于接收HTTP请求体数据,而触发HTTP响应通常是在OnMessageComplete方法中完成。以下是完整的响应触发机制说明: sequenceDiagramClient->>…

Windows 下 Qt 项目配置 FFmpeg 简明指南

一、作用 在qt项目中配置ffmpeg库 二、步骤 1、直接使用已经编译好的ffmpeg库文件,分为win32版本和win64版本; 2、win32版本下载地址:https://github.com/sudo-nautilus/FFmpeg-Builds-Win32/releases/tag/latest 3、win64版本下载地址&a…

Attu下载 Mac版与Win版

通过Git地址下载 Mac 版选择对于的架构进行安装 其中遇到了安装不成功,文件损坏等问题 一般是两种情况导致 1.安装版本不对 2.系统权限限制 https://www.cnblogs.com/similar/p/11280162.html打开terminal执行以下命令 sudo spctl --master-disable安装包Git下载地…

SpringBoot3集成Oauth2.1——5资源地址配置

配置问题说明 如下所示,代码配置了两个,过滤器,一个是资源保护,一个是不保护。 /** Description: 配置需要保护的资源* author: 胡涛* mail: hutao_2017aliyun.com* date: 2025年5月23日 下午2:28:20*/BeanOrder(2)public Securi…

Python urllib.parse 模块中的 urljoin 方法

Python urllib.parse 模块中的 urljoin 方法 urljoin 是 Python 标准库中 urllib.parse 模块的一个方法,用于将基础 URL 和相对路径拼接成完整的 URL。它会根据传入的基础 URL 自动处理协议、域名以及路径的部分匹配逻辑。 以下是关于该方法的具体说明和示例&…

AI大模型和SpringAI简介

一、Spring AI 简介 SpringAI整合了全球(主要是国外)的大多数大模型,而且对于大模型开发的三种技术架构都有比较好的封装和支持,开发起来非常方便。 不同的模型能够接收的输入类型、输出类型不一定相同。SpringAI根据模型的输入…

在TIA 博途中下载程序时找不到对应的网卡怎么办?

1. 检查物理连接 确认网线已正确连接PLC和PC,接口指示灯正常。 尝试更换网线或交换机端口,排除硬件故障。 2. 确认网卡驱动已安装 设备管理器检查: 右键点击“此电脑” → “管理” → “设备管理器”。 展开“网络适配器”,确…

Zabbix实践!客户端自动发现

在线答疑:乐维社区 一、客户端状态检查 1.检查客户端的zabbix-agent2是否正常 [rootnode1 ~]# systemctl is-active zabbix-agent2.service active 2.从服务端检查是否可以获得客户端信息 [rootIT-01 ~]# zabbix_get -s ‘192.168.200.135’ -p 10050 -k ‘agent.p…

动态规划中的 求“最长”、“最大收益”、“最多区间”、“最优策略” 双重 for + 状态转移

以最长递增子序列为例 🎯 首先明确目标 以最长上升子序列(LIS)为例,假设输入是: nums : []int{10, 9, 2, 5, 3, 7, 101, 18}我们定义: dp[i]:以 nums[i] 为结尾的最长上升子序列长度目标&…

SEO关键词与长尾词高效布局

内容概要 在SEO优化实践中,关键词布局的科学性与系统性直接影响流量的获取效率与可持续性。本文以核心关键词筛选为起点,结合长尾词挖掘工具与语义关联分析技术,逐步构建覆盖用户全搜索场景的内容矩阵。通过金字塔结构模型,实现高…

考研数一公式笔记

考研数学(一)核心结论与易错点详细笔记 第一部分:高等数学 一、函数、极限、连续 (一) 重要结论与公式 等价无穷小替换 (仅限乘除运算,极限过程为 x → 0 或某特定值导致因子→0): sin x ~ x tan x ~ x arcsin x …

Debezium TableSchemaBuilder详解

Debezium TableSchemaBuilder详解 1. 类的作用与功能 1.1 核心作用 TableSchemaBuilder是Debezium中负责构建表Schema的核心类,主要功能包括: Schema构建:将数据库表结构转换为Kafka Connect的Schema定义主键处理:生成表的主键Schema值Schema处理:生成表的非主键字段Sc…

49 python Matplotlib之Pandas 数据可视化

Pandas 是 Python 中用于数据处理的核心库,其内置了基于 Matplotlib 的可视化功能,可通过 DataFrame.plot() 和 Series.plot() 方法快速生成常见图表,无需手动编写绘图代码,大幅提升效率。 一、Pandas 核心绘图方法 基础语法如下:该代码为伪代码,仅做语法说明,无法执行…