【软件系统架构】系列四:嵌入式软件-NPU(神经网络处理器)系统及模板

 目录

一、什么是 NPU?

二、NPU 与 CPU/GPU/DSP 对比

三、NPU 的工作原理

核心结构:

数据流架构:

四、NPU 芯片架构(简化图)

五、NPU 的优势

六、NPU 应用场景

视觉识别

语音识别

自动驾驶

智能监控

AIoT 设备

七、主流 NPU 芯片/架构实例

八、开发者工具生态(通用)

九、NPU 集成建议(嵌入式开发场景)

十、NPU 芯片选型对比 + 模型部署流程 + 嵌入式工程模板

1.主流 NPU 芯片选型对比表

2.模型部署流程(以 TFLite/ONNX 格式为例)

步骤一:模型训练(PC端)

步骤二:模型转换

步骤三:模型编译(目标平台)

步骤四:模型部署

步骤五:运行推理 & 优化

3.工程集成模板(以 ESP32 + K210 为例)

工程结构

通信协议示例(K210 → ESP32)

4.安全部署建议


一、什么是 NPU?

NPU(Neural Processing Unit) 是专门用于人工神经网络推理与训练的处理器,具备高并行、低功耗、低延迟等特点。它是边缘 AI、自动驾驶、智能摄像头、语音识别等场景中的关键硬件。


二、NPU 与 CPU/GPU/DSP 对比

项目CPUGPUDSPNPU
设计目标通用处理图形/矩阵并行处理信号处理神经网络推理与训练
指令结构顺序执行SIMD并行定制指令专用指令/硬件卷积引擎
并行能力高(数千线程)中等极高(面向神经元并行)
能效比普通高功耗中低高性能 + 低功耗
适用场景通用任务图像渲染、AI训练音频处理、滤波AI推理、图像识别、语音识别等

三、NPU 的工作原理

核心结构:

  • MAC 单元阵列:用于矩阵乘法(Multiply-Accumulate),神经网络的基本计算单元

  • 权重缓存:高速 SRAM 缓存神经网络权重

  • 激活函数单元:支持 ReLU、Sigmoid、Softmax 等

  • 数据流引擎:优化读写路径,实现并行流水线

数据流架构:

采用数据驱动计算模型(Dataflow),按“张量”级别在芯片内流动,实现卷积、池化等操作的硬件加速。


四、NPU 芯片架构(简化图)

             ┌──────────────┐│  输入接口     │◀──── 图像、音频数据└────┬─────────┘▼┌───────────────────────┐│  NPU 主体结构(MAC阵列+激活+控制器) │└────────┬──────────────┘▼┌──────────────┐│   权重缓存    │└──────────────┘▼┌──────────────┐│ 输出缓冲区    │───▶ 输出分类结果 / 特征图└──────────────┘

五、NPU 的优势

1.吞吐量高:比 CPU/GPU 更高效地完成推理任务

2.能效比高:适用于边缘设备(如摄像头、IoT终端)

3.专用优化指令集:支持 INT8、FP16 等低精度计算

4.定制性强:可结合 FPGA/SoC 嵌入式系统协同工作

5.低延迟响应:适合实时检测任务


六、NPU 应用场景

视觉识别

  • 人脸识别、车牌识别、目标检测(如 YOLO、SSD、Mobilenet)

语音识别

  • 本地离线语音命令识别(wake-word、ASR 模块)

自动驾驶

  • 路况识别、避障策略、本地图像处理推理模块

智能监控

  • 视频结构化分析(人形识别、动作检测、行为判断)

AIoT 设备

  • 智能门锁、扫地机器人、智能门铃、安防摄像头等


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86322.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】使用 LangGraph 构建 RAG 的Research Multi-Agent

本文中,我们介绍了一个使用LangGraph开发的RAG的Research Multi-Agent工具的实际项目。该工具旨在解决需要多个来源和迭代步骤才能得出最终答案的复杂问题。它使用混合搜索和rerank步骤来检索文档,还结合了自我纠正机制,包括幻觉检查过程&…

【Docker基础】Docker容器管理:docker restart详解

目录 1 docker restart命令概述 1.1 命令作用 1.2 与相关命令对比 2 命令语法详解 2.1 基础语法 2.2 核心参数说明 3 核心原理深度解析 3.1 信号传递机制 3.2 状态转换 4 典型应用场景 4.1 服务配置更新 4.2 故障恢复流程 5 进阶使用技巧 5.1 组合命令应用 5.2 …

mongoDB服务本地化部署

mongoDB服务本地化部署 前言mongoDB下载选择版本安装 前言 mongoDB数据库解释 MongoDB 是由C语言编写的,是一个基于分布式文件存储的开源数据库系统;在高负载的情况下,添加更多的节点,可以保证服务器性能;MongoDB 旨在…

YOLOv10tensorRT推理代码C++

最近实现了YOLOv10的tensorRT推理代码除了后处理部分只适合YOLOv10之外&#xff0c;其余部分基本可以在yolo系列通用~学习记录~。 #include <fstream> #include <iostream> #include <vector> #include <opencv2/opencv.hpp> #include "NvInfer.…

软件定时器详解:RTOS 中的“软时钟”机制与源码解析

在嵌入式实时系统开发中&#xff0c;定时器是不可或缺的工具。软件定时器&#xff08;Software Timer&#xff09; 提供了一种无需创建独立任务、便可在特定延时后执行回调函数的机制。它适用于那些不要求高精度、但需要周期性或一次性延时执行操作的场景。 一、什么是软件定时…

从Yocto中获取源码用传统的方式单独编译

要获取 Yocto 构建后的 Linux 内核和 U-Boot 源码,并进行独立编译,需获取完整的源码树(包含所有应用补丁和配置)及原始配置信息。以下是具体步骤: 获取最终源码路径确定构建目录位置: 内核工作目录 KERNEL_WORKDIR=$(bitbake -e virtual/kernel | grep ^WORKDIR= | cut…

【记录】服务器|常见的八种硬盘接口的简介和清晰的接口图片(2025年6月)

硬盘接口很多&#xff0c;在管服务器的时候总是要买&#xff0c;但是偶尔会忘记自己的服务器支持什么接口&#xff0c;此时就需要看引脚。 如果没插满&#xff0c;就可以直接拍接口的图片&#xff0c;与下面这些图片对照一下【文字介绍是AI直接生成的&#xff0c;图片是我到处…

在一个成熟产品中,如何设计数据库架构以应对客户字段多样化,确保系统的可维护性、可扩展性和高性能。

在SaaS系统、平台型应用或高度可配置的企业级软件中&#xff0c;我们常常会遇到一个现实问题&#xff1a;不同客户对同一个业务表存在差异化字段需求。例如&#xff0c;A客户需要一个“业务员等级”字段&#xff0c;B客户不需要&#xff1b;C客户希望订单表中增加“海外仓编码”…

社群营销应该怎么玩

现在做营销&#xff0c;光靠打广告可不行了。大家都喜欢扎堆儿&#xff0c;找志同道合的人一起玩&#xff0c;这就是社群的力量。那怎么用好这股力量呢&#xff1f;咱们慢慢聊。 首先得明白&#xff0c;社群不是拉个群就完事了。关键是要让大家觉得这里有意思&#xff0c;有收…

【论文阅读笔记】TransparentGS:当高斯溅射学会“看穿”玻璃,如何攻克透明物体重建难题?

文章目录 TransparentGS: Fast Inverse Rendering of Transparent Objects with GaussiansInfoAbstractIntroductionMethod预备知识3D GS的概念不再赘述渲染方程透明高斯Gaussian Light Field Probes多阶段重建实验结果和评估消融实验应用讨论和限制结论TransparentGS: Fast In…

某视频网站运维工程师面试题

某视频网站运维工程师面试题 1、 简单写下Xeon和Itanium这两个产品的本质区别&#xff1f; 2、 ECC内存每Bank的颗粒数是单数还是双数的&#xff1f; 3、 假如有5块1T的硬盘&#xff0c;要求组合成尽量多的实际使用空间并至少容忍坏2盘而不影响raid组工作。请问有几种模式来组…

Java底层原理:深入理解JVM性能调优与监控

一、JVM性能调优概述 JVM性能调优是Java应用优化的重要环节&#xff0c;通过合理配置JVM参数&#xff0c;可以提高Java应用的性能和稳定性。JVM性能调优的主要目标是减少垃圾回收的频率和时间&#xff0c;提高线程的运行效率&#xff0c;优化内存的使用。 &#xff08;一&…

Joblib库多进程/线程使用(一):使用generator参数实现边响应边使用

进程与线程的基本概念 特性进程 (Process)线程 (Thread)定义 操作系统分配资源的基本单位&#xff08;独立的内存空间&#xff09; 多进程可真正并行&#xff08;利用多核 CPU&#xff09; 进程内的执行单元&#xff08;共享进程资源&#xff09;独立性完全独立&#xff0c;崩…

css上下滚动文字

效果图 取得是数组里的数据 上下滚动切换 css .notice-new {background: #222222;border-radius: 19rpx;margin-top: 28rpx;font-size: 24rpx;color: white;font-weight: 500;padding: 0 20rpx;height: 55rpx;line-height: 55rpx;overflow: hidden;.notice-scroll-wrapper {pos…

概念篇: 01-带你认识Dockerfile

在本篇文章中&#xff0c;我们将带你认识 Dockerfile —— 构建 Docker 镜像的"蓝图"。我们会介绍它的基本概念和常用指令&#xff0c;帮助你理解如何使用它来打包你的应用。 简单了解 Docker&#xff08;背景知识&#xff09; 在我们深入 Dockerfile 之前&#xf…

技术伦理之争:OpenAI陷抄袭风波,法院强制下架宣传视频

在AI巨头OpenAI宣布以65亿美元天价收购苹果前设计总监Jony Ive的硬件公司IO仅一个月后&#xff0c;一场抄袭指控将这家科技明星企业推上风口浪尖。 源自谷歌X实验室的初创企业IYO将OpenAI告上法庭&#xff0c;指控其窃取智能耳塞核心技术&#xff0c;并通过巨额收购试图掩盖抄袭…

前沿解读:缺陷如何操控二维半导体中的电子摩擦耗散超快动力学

摩擦能耗约占全球一次能源损耗的1/3&#xff0c;在微纳器件中尤为突出。二维半导体&#xff08;如WS₂&#xff09;因其独特的电子特性成为研究热点&#xff0c;但电子摩擦的动态机制因电子行为的超快特性长期难以捕捉。近期清华团队在Nature Communications发表的研究[1]&…

什么是物联网 (IoT)?

你家是否安装了智能恒温器&#xff1f;或者你属于三分之一的美国健身追踪器用户&#xff0c;通过设备记录运动习惯&#xff1f;如果是&#xff0c;你已在使用物联网技术。这项技术不仅融入日常生活&#xff0c;更深刻改变着组织的运营方式。物联网通过多种技术连接数字与物理世…

[特殊字符] Windows 查看端口占用及服务来源教程(以 9018 端口为例)

下面是一份详细的 Windows 系统中排查 某端口&#xff08;如 9018&#xff09;被哪个程序占用 并确定其具体服务来源的完整教程&#xff0c;适合用于日常运维、开发部署排障等场景。 &#x1f3af; Windows 查看端口占用及服务来源教程&#xff08;以 9018 端口为例&#xff09…

异步爬虫 原理与解析

先遍历100遍一个程序 import requests import logging import timelogging.basicConfig(levellogging.INFO, format%(asctime)s - %(levelname)s: %(message)s) TOTAL_NUMBER 100 BASE_URL https://ssr4.scrape.center/start_time time.time() for id in range(1,TOTAL_NUM…