音频中采样率和帧是什么?怎么理解?

视频中的“帧”是指一张图片,那么在音频中,“帧”的含义就完全不同了。理解音频中的“帧”概念,对做音视频处理、流媒体开发非常关键。

一、声音是怎么采集的?

音频采集是指通过麦克风等设备捕捉周围环境中的声波,并将其转换为电信号,再通过模数转换器(ADC)将这些模拟电信号转换为数字信号的过程。这样,计算机就能对音频数据进行处理、存储或传输。

简单理解下:
1、声音的产生
麦克风是采集到周围环境中的声音。那声音是怎么产生的?实际上,声音是由振动产生的。人说话是通过声带产生了对周围的空气的振动;走路等运动也会根据幅度等因素产生不同等级的振动;各种振动混合造成了我们周围的声音。
2、声音数据怎么传输和存储
麦克风获取到周围的声音后,通过电信号的方式来标识采集到的数据。为了将数据在网络中进行传输,需要借助模数转化器,将模拟信号转化为数字信号,这样就可以在网络中传输了。
3、声音的存储
此时接收端收到的音频数据就是123456…这样的数字。实际上是一个非常大的浮点数组,对这些数据进行不同格式编码(wav,mp3等),在保存到磁盘上。
4、声音数据播放
存储的音频文件通过数模转换器(DAC)转换回模拟信号。在将模拟信号放大并通过扬声器或耳机等设备转换成声波,人耳就可以听到了。

二、采样率是什么?

采样率指的是每秒钟从连续信号中提取并组成离散信号的样本数量,通常以赫兹(Hz)为单位表示。例如,44.1kHz意味着每秒采集44,100个样本。
根据奈奎斯特定理,为了准确地重建原始音频信号而不产生混叠失真,采样率至少需要是最高音频频率的两倍。对于人类听觉范围(大约20Hz到20kHz),常用的CD质量音频采样率为44.1kHz。

三、音频中的帧是什么?

在音频处理中,“帧”通常指的是一组样本集合,这些样本可能来自单声道或多声道。帧的概念主要用于编码和解码过程中,作为最小处理单元。它不像视频帧那样是“图像”,而是一段短时间内的声音数据。

公式:

- 一个音频帧 = 所有声道在一个时间点上的采样值。
- 每个音频帧包含:- 采样数(samples per frame)- 声道数(channels)

假设你有一个立体声(2声道)音频,每个音频帧包含1024个采样点:

  • 那么这个帧中就有:1024 × 2 = 2048个采样值
  • 左右声道各 1024 个采样

帧的作用:
不同的音频编码格式可能有不同的帧大小。帧不仅包含音频样本数据,还可能包括用于同步、错误检测等功能的额外信息。

扩展一下:
位深度(Bit Depth)是什么?
位深度决定了每次采样所用的数据位数,直接影响到音频动态范围的大小。常见的位深度有16位、24位等。较大的位深度允许更大的动态范围和更低的噪音底。
比特率是什么?
比特率指的是每秒钟音频数据的传输速率。对于未压缩音频格式,比如WAV,比特率由采样率、位深度和通道数决定。例如,CD质量的音频具有44.1kHz的采样率、16位的位深度和2个声道(立体声),其比特率为 44100×16×2=1411.2 kbps。
公式:
比特率 = 采样率 × 位深度 × 声道数
提高任意一个参数(比特率、采样率或位深度)都可以提升音频的质量,但这也会增加文件的大小。
简单来说,比特率越高,音质也就越好。

四、音频帧和时间的关系

音频帧并不是以“每秒多少帧”来衡量的(像视频那样),而是通过采样率(Sample Rate)和每帧的采样数(Samples Per Frame)来计算它的持续时间。

计算公式:
在这里插入图片描述
示例:

  • 采样率 = 48000 Hz(即每秒采集48000个样本)
  • 每帧采样数 = 1024

那么一帧音频的时长为:
在这里插入图片描述
也就是说,每一帧音频大约持续21ms。

简单理解下:
假如你用麦克风采集了10秒的音频数据,采样率是48000Hz,帧的大小为1024。
那么这10秒内,每秒采集48000个采样值,10秒共采集480000个采样值。每秒包含48000/1024≈46.8个帧。音频的处理通常都是按照帧的大小来处理的。

五、常见音频帧大小(采样数)

不同编码格式或协议中,每帧的采样数可能不同:
在这里插入图片描述

六、音频帧的重要性?

1、同步音视频:

  • 视频通常是以固定帧率(如25 FPS)播放;
  • 音频则按帧的时间长度进行对齐,才能与视频同步。

2、网络传输:

  • 在RTMP、RTP等流媒体协议中,音频是以帧为单位打包发送的;
  • 每帧对应一定时间的声音,便于控制延迟和缓冲。

3、音频编码/解码:

  • 多数音频编码器(如FFmpeg中的aac, opus)都要求输入的是完整的音频帧;
  • 如果数据不够一帧,就不能编码。

七、类比理解(视频 vs 音频)

在这里插入图片描述

八、总结

音频采集是一个将声波转换为数字信号的过程,其中采样率决定了信号的质量,而帧则是在编码和解码过程中使用的结构化数据单元。要播放采集的数据,需先通过DAC将数字信号转回模拟信号,再通过物理设备如扬声器播放出来。理解帧和采样率的作用有助于更好在声音领域的相关研发。

向阳而生,Dare To Be!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87742.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第三方检测护航软件登记:企业合规的技术通行证与市场信任基石

一、软件产品登记测试:合规化的必经之路 根据《软件产品管理办法》,所有上市软件必须通过第三方检测机构的专业评估,确保功能、性能、安全性等指标符合国家标准(如GB/T 25000系列)。这一强制性要求不仅规避了法律风险…

产品页不被收录的6个技术原因(非重复内容/爬虫限制类)

页面未被收录的原因可能藏在代码架构或服务器配置中 比如爬虫无法“看懂”你的动态内容,或是某个参数设置错误导致页面被判定为重复。 本文从技术排查角度出发,整理6个最易被忽视但直接影响收录的实操问题。 页面加载速度拖慢爬虫抓取 例如&#xff0…

如何在FastAPI中打造一个既安全又灵活的权限管理系统?

title: 如何在FastAPI中打造一个既安全又灵活的权限管理系统? date: 2025/06/16 08:17:05 updated: 2025/06/16 08:17:05 author: cmdragon excerpt: FastAPI权限系统通过依赖注入实现三级验证:身份认证、角色验证和权限校验。数据库模型包括用户、角色和权限注册表,支持…

通过Radius认证服务器实现飞塔/华为防火墙二次认证:原理、实践与安全价值解析

引言:数字化转型中的身份认证挑战 在数字化转型加速的今天,企业网络边界日益模糊,混合云架构、远程办公、物联网设备接入等场景对网络安全提出全新挑战。传统防火墙基于IP/端口的访问控制已无法满足动态安全需求,如何构建"持…

golang--context的使用指南与核心特性

Go 语言 context 包:使用指南与核心特性 一、context 的本质与设计目的 context 是 Go 语言中管理请求生命周期的核心机制,它提供了一套统一的方式来: 传递请求范围数据(如用户认证信息)控制跨 goroutine 的生命周期…

耗时3小时,把这两天做好的爬虫程序,用Python封装成exe文件

先执行命令如下: pip install pyinstaller py -m PyInstaller --log-levelDEBUG --add-data "config.ini;." nmpa_gui.py很快在dist目录下就有生成一个nmpa_gui文件夹,运行 nmpa_gui.exe,报错: 1️⃣初始化爬虫… 程序…

Linux下nginx访问路径页面

第一步:通过Xshell在虚拟机中下载nginx sudo apt-get install nginx 第二步:进入nginx配置页面 cd /etc/nginx 我这里创建了一个html文件夹 在进入去创建页面并且重新加载 boahuboahu-VMware-Virtual-Platform:/$ cd /etc/nginx boahuboahu-VMware-Vir…

三维视频融合怎么弄?三步实现精准投射与自由修剪

分享大纲: 1、场景引入:为什么你的三维场景视频融合效果不理想? 2、解决方案:捷码视频融合三步操作指南 3、捷码平台:低代码构建动态三维视界 在智慧城市中的安防领域,将实时视频与三维场景融合已是大势需求…

探索阿里云网络与CDN产品:解锁高效网络体验

阿里云网络产品概述 在云计算蓬勃发展的当下,网络作为连接计算、存储与用户的关键纽带,其重要性不言而喻。阿里云作为全球知名的云计算服务提供商,凭借其丰富且强大的网络产品体系,为企业数字化转型筑牢了坚实的网络根基&#xf…

深入理解C语言指针(二):从数组到多级指针的全面解析

作为C语言的核心概念,指针常常让初学者感到困惑。本文将从数组与指针的关系入手,逐步揭开指针在数组操作、函数传参以及多级指针中的神秘面纱,帮助你建立系统的指针知识体系。 一、数组名的双重身份:首地址与整体标识 在C语言中&a…

Windows PPT/word怎么pdf不降低分辨率,插入可编辑

Windows PPT/word怎么pdf不降低分辨率 下载软件Inkscape:Inkscape - Draw Freely. | Inkscape 然后使用Inkscape将你的PDF转为svg, 然后用office的PPT打开,将svg复制进PPT/word,然后保存就可以了 插入可编辑的(只能通过Mac的才可…

vue3 select 选中值时,即获得id,也获得name值并且输入框正确选中

1.获取 name和id 直接绑定对象 将 value 绑定为整个对象&#xff0c;通过 change 事件获取完整数据 value-key 绑定唯一标识 value 绑定为整个对象&#xff0c;通过 change 事件获取完整数据 <el-select v-model"selectedItem" change"handleChange"…

什么是Seata

Seata的实现原理主要围绕其核心架构&#xff08;TC/TM/RM&#xff09;和事务模式&#xff08;如AT、TCC等&#xff09;展开&#xff0c;通过协调全局事务与分支事务的协作保证数据一致性。以下是核心实现原理的详细解析&#xff1a; ⚙️ ​​一、核心架构协作机制​​ Seata通…

linux ARM64架构用户空间和内核空间的区分

一、ARM64 架构地址空间的「黄金分割」 ARM64&#xff08;ARMv8-A&#xff09;采用 48 位虚拟地址&#xff08;Linux 默认配置&#xff09;&#xff0c;总空间为 256TB&#xff0c;分为高低两个 128TB 区域&#xff1a; 1. 地址空间整体布局 虚拟地址空间&#xff08;48位&a…

51单片机重要知识点1

1. 在读IO口状态前必须先写该IO口1. 即让下拉MOS高阻断路。如&#xff1a; P221; KEYP22; 复位状态各IO口1的。另外大多数情况都不会IO口即做输入又做输出的。设计思想永远不要复杂化高难度编程&#xff0c;而要简单明了。 2.

【解析法与几何法在阻尼比设计】自控

解析法与几何法在阻尼比设计中的详细对比 一、解析法&#xff1a;基于数学方程的定量求解 核心思想&#xff1a;通过特征方程与根轨迹条件建立代数关系&#xff0c;直接求解满足阻尼比要求的系统参数。 1. 适用场景 二阶系统或可简化为二阶系统的高阶系统&#xff08;主导极…

搭建pikachu靶场

文章目录 一、pikachu是什么?二、搭建环境1.下载链接三、安装教程phpstudy安装配置pikachu 靶场安装配置总结一、pikachu是什么? Pikachu 靶场是一个专门为网络安全爱好者和学习者设计的 Web 安全靶场。它旨在帮助用户学习和实践常见的 Web安全漏洞和攻击手法。Pikachu 靶场通…

OpenStack Dashboard在指定可用域(Availability Zone)、指定节点启动实例

通过OpenStack Dashboard在指定可用域&#xff08;Availability Zone&#xff09;中创建实例的完整配置&#xff0c;涵盖可用域创建、节点管理、关系与限制的详细步骤&#xff1a; 一、可用域&#xff08;Availability Zone&#xff09;的概念与关系 0.指定域、指定节点、指定…

6.时间序列预测的模型部署

6.1实验设置和python版的Azure机器学习SDK介绍 6.1.1 WorkSpace 6.1.2 Experiment 6.1.3 Run 6.1.4 Model 6.1.5 ComputeTarget、RunConfiguration和ScriptRunConfig 6.1.6 Image 和 Webservice 6.2 机器学习模型部署 6.3 时间序列预测的解决方案体系结构部署示例 6.3.1 训练…

加密货币:比特币

比特币&#xff08;Bitcoin&#xff0c;简称BTC是一种去中心化的数字货币&#xff0c;由中本聪&#xff08;Satoshi Nakamoto&#xff09;在2008年提出&#xff0c;并于2009年正式推出。它是首个基于区块链技术的加密货币&#xff0c;旨在实现点对点的价值传输&#xff0c;无需…