1、自然语言处理任务全流程

自然语言处理黄金九步法,葵花宝典,请珍藏心间

目录

需求分析:问题定义

1.文本分类任务

2.序列标注任务

3.文本生成任务

4.文本理解任务

5.信息抽取任务

6.文本匹配任务

7.多模态任务

一、数据获取

1、发现可用数据集

2、常用的数据集

3、哪里去寻找数据集

4、数据集成

5、生成数据

6、网络爬虫

7、数据标注

二、数据探索(Exploratory Data Analysis,EDA)

三、数据清理与预处理

四、分割数据集

五、特征工程

六、建模

七、评估

八、推理

任务的工时占比


需求分析:问题定义

问题定义决定了整个项目的成败

1.文本分类任务

Text Classification Text Categorization TC

  1.情感分析应用场景

  •   情感分析广泛应用于电商领域,通过分析用户评论帮助企业了解产品口碑。在社交媒体上,情感   分析可监测品牌声誉,为品牌策略调整提供数据支持。

    2.主题分析应用场景

  •   通过主题分类管理海量文档,提供查询效率

2.序列标注任务

  •   命名实体识别NER

3.文本生成任务

Nature Language Generation NLG

  •   文本生成代码

  •   机器翻译

  •    自动摘要

4.文本理解任务

Natural Language Understanding NLU

  • 阅读理解
  • 自然语言推理任务 NLI

5.信息抽取任务

Information Extraction IE

  • 关系抽取
  • 事件抽取

6.文本匹配任务

text matching

  • 语义相似度计算

7.多模态任务

  • 图像描述生成

一、数据获取

人工智能是一门数据驱动的科学,数据决定我们能把这件事做的多好!

1、发现可用数据集

  • 寻找已有的数据集
    • 使用 benchmark 数据集来快速评估我们的想法
      • 使用多个小型或者中型数据集去进行超参的调整
      • 对于深度学习的模型使用超大规模的数据
  • 收集新数据

2、常用的数据集

根据不同任务,常用的数据集如下

3、哪里去寻找数据集

https://datasetsearch.research.google.com/

The latest in Machine Learning | Papers With Code

Open Data on AWS

Kaggle: Your Machine Learning and Data Science Community

4、数据集成

  • 把多个数据源的数据结合到一个数据存储中
  • 生成数据一般分散的存储在不同的数据表中
    • 比如:一张表存储房屋数据,一张表存储销售记录,一张表列出中介
  • Join 数据表

5、生成数据

  • GAN
  • 数据增强

6、网络爬虫

7、数据标注

  • 使用数据标注平台标注数据

label-studiohttps://github.com/heartexlabs/label-studio

  • 众包团队推荐:
    • 数据堂DATATANG
    • 龙猫数据
    • 科乐园
    • MagicData

二、数据探索(Exploratory Data Analysis,EDA)

获取数据后,我们需要持续了解数据

工具:Python (Pandas, Matplotlib, Seaborn)

  • 文本统计
  • 停用词分析
  • 词频分析
  • Ngram分析
  • 主题分析
  • 情感分析
  • NER分析
  • 词性探索
  • 文本复杂度分析

三、数据清理与预处理

了解数据后我们要清理掉没用的数据,修正不好的数据,补充不够的数据,构建高质量数据集

  • 去除换行 清除html标签  清除链接 清除空格 去停用词

四、分割数据集

分割方法:独立分割、时间分割、交叉验证、蜂窝交叉验证

五、特征工程

六、建模

  • 选择合适的模型对数据进行建模
  • 选择模型后,要把数据格式处理成模型要求的格式
  • 分词
  • 标准化

七、评估

八、推理

任务的工时占比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84612.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可编程密码学(Part 1)

1. 引言 当前密码学正处于一次代际转变之中,从special-purpose cryptography专用密码学过渡到programmable cryptography可编程密码学。 1)所谓“专用密码学”,指的是那些只能执行单个操作且具有密码学安全保证的协议。 公钥加密和签名方案…

Linux运维新人自用笔记(Ubuntu磁盘命名规则、新磁盘分区、主流文件系统类型、mkfs命令格式化文件系统、临时和永久挂载、挂载报错、dd指令)

内容全为个人理解和自查资料梳理,欢迎各位大神指点! 每天学习较为零散。 day21 一、磁盘维护流程 新硬盘(虚拟机可添加) 新硬盘需要做lvm管理 数据库迁移(夜间网站停机维护): 停止数据库监…

腾讯云轻量级服务器Ubuntu系统与可视化界面

以云服务器的方式搭建Linux workstation对比在电脑本地安装虚拟机的优势在于,不需要占用本地电脑资源空间,网络环境等相对稳定,可以用手机等轻量移动设备连接管理等。本文主要介绍使用腾讯云服务器,搭建Ubuntu Linux系统以及可视化…

如何在MacOS系统和Windows系统安装节点小宝远程工具

如何在MacOS系统和Windows系统安装节点小宝远程工具 摘要 本文讲述如何在MacOS系统和Windows系统安装节点小宝远程工具,并详细介绍了配置和使用远程控制的步骤。无论是在个人电脑还是手机、平板设备之间的远程连接,您都可以通过本教程轻松实现。 文章…

60天python训练营打卡day38

学习目标: 60天python训练营打卡 学习内容: DAY 38 Dataset和Dataloader类 知识点回顾: 1.Dataset类的__getitem__和__len__方法(本质是python的特殊方法) 2.Dataloader类 3.minist手写数据集的了解 作业&#xff1a…

Python 邻接表详细实现指南

邻接表是图数据结构的一种高效表示方法,特别适合表示稀疏图。下面我将用 Python 详细讲解邻接表的多种实现方式、操作方法和实际应用。 一、邻接表基础概念 邻接表的核心思想是为图中的每个顶点维护一个列表,存储与该顶点直接相连的所有邻接顶点。 邻…

Nginx反向代理解决跨域问题详解

Nginx反向代理解决跨域问题详解 核心原理 Nginx反向代理解决跨域的核心思路是让客户端请求同域名下的接口,由Nginx将请求转发到目标服务器,从而规避浏览器的同源策略限制。 客户端(同源:www.domain.com)↓Nginx&…

单片机测ntc热敏电阻的几种方法

在单片机中测量NTC(负温度系数)热敏电阻的阻值,通常需要将其转换为电压或频率信号,再通过单片机进行采集和处理。以下是几种常见的方法及其详细说明: 1. 分压法(最常用)​​ ​​原理​​&…

一套基于粒子群优化(PSO)算法的天线波束扫描MATLAB实现方案

以下是一套基于粒子群优化(PSO)算法的天线波束扫描MATLAB实现方案,包含完整代码、数学原理和详细注释。该方案针对均匀线性阵列(ULA)的波束方向图优化,通过调整阵元相位实现主瓣指向目标方向并抑制旁瓣。 %% 天线波束扫描的PSO算法实现 % 作者:DeepSeek % 创建日期:20…

增量学习ASAP的源码剖析:如何实现人形的运动追踪和全身控制(核心涉及HumanoidVerse中的agents模块)

前言 过去一周,我司「七月在线」长沙分部的具身团队在机械臂和人形上并行发力 关于机械臂 一方面,在IL和VLA的路线下,先后采集了抓杯子、桌面收纳、插入耳机孔的数据,然后云端训-本地5090推理 二方面,在RL的路线下&a…

计算机网络学习笔记:应用层概述、动态主机配置协议DHCP

文章目录 一、应用层概述1.1、C/S架构1.2、P2P架构 二、动态主机配置协议DHCP2.1、DHCP发现报文2.2、DHCP提供报文2.3、DHCP请求报文2.4、DHCP确认报文2.5、DHCP的续约与终止 总结 一、应用层概述 应用层位于计算机网络结构的最上层,用于解决应用进程的交互以实现特…

为服务器SSH登录增加2FA验证

安装NTP模块并设置时区 安装NTP模块 一般的服务器NTP服务默认是不安装的,需要安装NTP模块【7】并启用。 运行以下指令检查你的NTP模块是否已启用,已启用则忽略安装NTP模块的内容 timedatectl 如果你的返回内容和以下图片一样,则表示NTP未…

AI大模型提示词工程研究报告:长度与效果的辩证分析

一、核心问题:提示词长度与模型性能的平衡 核心矛盾:提示词长度增加 → 信息丰富度↑ & 准确性↑ ↔ 计算成本↑ & 响应延迟↑ 二、详细机制分析 (一)长提示词的优势(实证数据支持) 案例类型短提…

HttpServletResponse源码解析

Java Servlet API 中 HttpServletResponse 接口的源码,这是 Java Web 开发中非常核心的一个接口,用于向客户端(通常是浏览器)发送 HTTP 响应。 public interface HttpServletResponse extends ServletResponse {int SC_CONTINUE …

AI基础概念

目录 1、ASR和STT区别 2、流式输出 定义 原理 应用场景 优点 缺点 3、Ollama 4、mindspore和deepseek r1 v3 5、DeepSeek R1/V3 用的哪个底层AI框架 6、HAI-LLM比tensorflow、pytorch还强么 1. 核心优势对比 2. 性能表现 3. 适用场景 总结 7、openai用的什么底层…

ubuntu20.04速腾聚创airy驱动调试

1.下载相关资料 下载包括:速腾airy产品手册.pdf、RSView(用于显示激光雷达数据)、3d数模文件、 RS-LiDAR-16用户手册 以下链接进行下载 https://www.robosense.cn/resources 2.连接线路后通过Wireshark抓包后进行本地IP配置 2.1按照线路连…

Redis的大key和热key如何解决

文章目录 Redis大Key一、什么是Redis大Key二、大Key的产生原因三、大Key的影响四、大Key的解决方案1. 检测大Key2. 解决方案(1) 数据拆分(2) 使用压缩算法(3) 使用合适的数据结构(4) 设置合理的过期时间(5) 合理清理(6) 配置优化 五、预防措施总结 Redis热key一、热Key问题的本…

恒温晶振与温补晶振的区别

在电子设备领域,晶振如同精准的“心脏起搏器”,为电路提供稳定的时钟信号。恒温晶振(OCXO)和温补晶振(TCXO)作为两类重要的晶体振荡器,在不同的应用场景中发挥着关键作用,它们的区别…

基于SpringBoot的在线考试智能监控系统设计与实现

目录 一.🦁前言二.🦁开源代码与组件使用情况说明三.🦁核心功能1. ✅算法设计2. ✅Java开发语言3. ✅Vue.js框架4. ✅部署项目 四.🦁演示效果1. 管理员模块1.1 用户管理 2. 教师模块2.1 考试管理2.2 浏览试题列表2.3 添加试题2.4 成…

0基础学Python系列【16】自动化邮件发送的终极教程:Python库smtplib与email详解

大家好,欢迎来到Python学习的第二站!🎉 Python自带了一些超好用的模块,可以让你不必从头写代码就能实现很多功能。比如数学计算、文件操作、网络通信等。花姐会挑选常用的一些模块来讲解,确保你能在实际项目中用到。🎉 本章要学什么? 接下来花姐会深入浅出的讲解下面…