《语音识别基础知识》

声波的特性
声波是一种在空气中传播的纵波,其振动方向与传播方向一致。声音在空气中的振动产生压力波,形成压强,然后通过传感器接收并转化为时变的电压信号。
声波的特性主要包括频率和声强。声压级(Sound Pressure Level, SPL)用于测量声音的强度,通常参考极小的声压值p0=2X10^(-5)Pa。声压级是将要测量的声压p与参考声压的比值,取对数后再乘以20得到的数值。
根据国家标准,白天的住宅区噪音水平不应超过50分贝,夜间则应低于45分贝。
信噪比(Signal-to-Noise Ratio, SNR)也以分贝为单位来度量,数值越高表示声音更清晰,噪音比例更低。
声音的接受装置:动圈式/电容式麦克风

- 动圈式麦克风: 这种麦克风通常具有较低的精度和灵敏度,体积较大。不过,它的输出阻抗较低,这意味着即使使用较长的电缆,也不会降低其灵敏度。此外,动圈式麦克风对温度和湿度的变化影响较小。这种类型的麦克风通常用于语音广播和扩声系统。

- 电容式麦克风: 电容式麦克风具有更高的音质和灵敏度,但需要外部电源供应。这种麦克风通常用于舞台演出和录音室等专业应用。
麦克风的性能指标
1. 指向性: 麦克风对不同方向声音的灵敏度,被称为麦克风的指向性。通常,指向性是通过正面0°和背面180°方向上的灵敏度差值来表示。如果差值大于15分贝,麦克风被称为强指向性麦克风。
2. 频率响应: 描述麦克风拾音的频率范围,以及在这个范围内不同频率的灵敏度。一般来说,频率范围越宽,频响曲线越平坦越好。
3. 灵敏度: 衡量麦克风在受到一定强度的声音作用下输出的电信号大小。通常以分贝表示,以1V/Pa为0分贝。由于麦克风输出一般在毫伏级别,所以其灵敏度分贝值为负数。
4. 输出阻抗: 麦克风的输出阻抗描述了其输出电路的电阻程度。不同麦克风可能具有不同的输出阻抗,这会影响其与其他音频设备的匹配性。
麦克风阵列的功能
麦克风阵列采用不同的布局方式,如线性和圆形等,主要用于以下功能:
1. 语音增强(Speech Enhancement): 麦克风阵列可以通过声音信号处理技术提高语音的清晰度和质量。
2. 声源定位(Source Localization): 麦克风阵列有助于确定声音的来源方向,对于会议记录或音频捕捉非常有用。
3. 去除混响(Dereverberation): 麦克风阵列可以减少音频中的混响效应,提高音质。
4. 声源信号提取(分离): 麦克风阵列可以分离多个声源信号,使它们能够单独处理或记录。
声音的采样 — 奈奎斯特定理
采样声音需要遵循奈奎斯特定理,也叫奈奎斯特-香农采样定理。该定理规定,为了准确重建原始信号,采样率必须至少是信号中最高频率的两倍。如果采样率低于这个值,就会导致采样信号中出现混叠,损害信号的质量。
声音的量化
声音的量化是将连续的模拟信号幅度离散化的过程。这意味着将模拟信号的连续幅度范围分成有限个离散级别,然后用最接近的级别值来表示每个采样点。有均匀量化和非均匀量化两种方法。
语音文件格式的重要参数
- 采样率: 通常有8kHz(电话、嵌入式)、16kHz(PC)、44.1kHz(CD)等不同的采样率。
- 采样精度(量化位数): 用于表示每次采样的信息量。常见的是8位
和16位。
- 比特率(bps): 通常以比特每秒表示,例如,8k16bit对应于8,000 x 16 = 128,000 bps,或者128 kbps。
- 语音通道数: 描述语音文件中的声道数,可以是单声道或立体声道。
语音的编码
1. PCM编码: PCM是一种无损压缩的编码方式,用于保存原始音频数据,音质最高,但文件较大。
2. MP3编码: MP3采用有损压缩,具有高压缩率,适用于减小文件大小,但会略微损失音质。
3. A-law(A律)编码: 用于电话录音等窄带应用,与μ-law编码一起,是ITU-T定义的脉冲编码方式。
4. Speex编码: Speex是一种开源编解码库,适用于网络通信等多样化应用,支持多种比特率。
5. 其他常见格式: 包括AMR、WMA、AAC、M4A、FLAC等,每种格式都有其特点和应用领域。
WAV文件
WAV文件采用RIFF(Resource Interchange File Format)格式存储,包含文件头和数据。文件头由不同的Chunk组成,包括WAVECHUNK、FMTCHUNK、FACTCHUNK(可选)、DATACHUNK等。这些Chunk规定了WAV文件的格式和元数据。
在处理WAV文件之前,需要检查其格式是否符合要求,如采样率、采样精度等,以确保文件与特定应用场景相匹配。
无线麦克风,如名称所示,是一种无需物理连接的麦克风,通常通过无线技术传输音频信号,提供更大的灵活性和移动性。无线麦克风在许多应用中都非常有用,如舞台演出、会议记录以及一些专业录音需求。
免责声明: 本文借鉴原创改编,版权归原作者所有,本文所用图片、文字如涉及作品版权,请第一时间联系我们删除。
原文链接:https://blog.csdn.net/weixin_42103947/article/details/122088211
支持