音频压缩原理

音频压缩的规律

转自

援用:
音频通知鉴于其通知材料的特色。,会议压缩难以到达高压缩比,可是笔者缺少无穷的的工夫分辨和频率分辨系数。,其实,原始划分档次打旗语象征了笔者可以急切地寻求的少量教训。,完整屈从于镇压那对笔者毫无意思的教训。,这将达到高压缩比。。人类的这种应用 感触观念特点的畸变压缩某方面,就叫做 perceptual coding。
人耳的生理机构,从半圆屋顶R的耳壳中搜集的内容声波,继后三个小骨衔接前庭窗口到内容,这是鉴于耳壳的凹形。,半圆屋顶道的巨大和宽度。 附加物。,共振助推对差数频率的感动。,最最 2~5Khz 的频率,在刚过来的折术中会扩张物。。人耳听觉频率延伸,大概是 20~20KHz,音量延伸是 130dB SPL,大於 130dB 它产生苦楚的感触。,小於 0dB 将被款待哑巴。。如上所述,人耳对 2~5KHz 频率最敏感。,频率越高,回答速率越低。,音量必然的在必然限越过,这可以继后笔者的用力拖拉来检测。,可以听到的最小量界限值。,叫做 ATH(有无上权力或权威的) threshold of 听力)。内耳的声迷宫中有多的绒毛状细胞。,它们辩论回答差数的频率。,将击败痘苗的动摇替换为胆量电流打旗语。,交际给大脑。执意说,声迷宫的功能就像范围剖析仪。,把声波替变为差数频率的打旗语,每个特任所在地的绒毛细胞受特任频率使兴奋。,但当击败膜动摇时,四周绒毛细胞。执意说,假使有东西频率,音量正是大。,同时在其关于也在对立微弱的频率。,较弱的频率会被较强的颂扬所遮盖。,笔者无法发球者另东西微弱频率的颂扬。。刚过来的藏于树叶丛中行使职责被话筒联络。 frquency masking。除此更,击败膜被震动到不乱保持健康。,终止颂扬完毕后。,胸怀必要一段工夫。。因而假使有东西嘹亮的颂扬去掉,在颂扬开端屯积,这颂扬完毕后,一旦有一段工夫笔者达不到更颂扬。,这种职位效应,笔者称之为 temporal masking,上一次话筒联络 pre-masking,必要完毕后 post-masking。
后头提到的声迷宫像范围剖析仪。,或许像 band pass filter,它把颂扬分红多的差数的子带。,每个频带都有东西果核频率。,所有物越弱,所有物越弱。,同卵双胞频带内的频率将相互功能。,笔者对它们的观念也正是使移近。,这是人耳观念的波段。,笔者称之为 critical band。critical band 宽度不相等。,低频分开对立窄。,高频分开较宽。,总共分红 26 个 critical band。
要不是人耳的生理特点更,大脑的功能也起着正是重要的功能。。笔者都确信音高是由音高决议的。,使变调子是由融洽的决议的。,笔者突袭地毫不犹豫地布告,人脑自动行为结合音高。,虽然刚过来的带有某种腔调不在。。像,话筒的带宽是限制的。 300~3200Hz,可是当笔者听音高的时辰, 120Hz 当丈夫继后话筒相反的时,,笔者依然能听到他的本来的带有某种腔调。,男孩将不会被作为未婚女子听。。大脑等于应用复杂的计算来使更新这种不在,笔者还缺少认识到这点。。

继后长音的的试验和评论,笔者可以对人耳的听觉特点停止表现。,人耳听觉陶冶的肉体美,叫做 psychoacoustic model。继后对人耳观念特点的投合心意,鉴于这些原理,笔者可以对音频通知停止压缩。,完整屈从于镇压笔者达不到的颂扬。。
将会去掉,它是等于任务的?
笔者将会把无穷的延续仿照打旗语变变为限制DISCR。,战利品必然的停止品尝和定量。。像,可数字化的社会地位仅是如今。 0~8 九总计,每个秩的区间大量是东西范例。,对东西 打旗语数字化,所获得物的数字是 5,原文 不同意 ,刚过来的误审高压地带数字化噪声。。前提笔者将数字化秩缩减到 5 个,等候书写体铅字 0~8 的 0, 2, 4, 6, 8 这几总计字,培养的造成缝隙扩张物到两个网格。,此刻再次 数字化,数字化的制造 4,误审扩张物到 ,执意说,数字化的位数越少。,淬熄越大。,数字化噪声也较大。。
让笔者做个试验。,把 16位 声波移向 8bit,立即地耽搁半品脱教训。,刚过来的证件有半品脱大量。,最简略的扭弯是压缩,可是笔者评论范围毫不犹豫地布告。,缩减数字化的 bit 数字产生的数字化噪声,这将理由尽量的划分档次在必然程度上占领。,假使你听刚过来的 8bit 声速齿轮,背景幕布的发出声音充溢了小粒谷类作物和小粒谷类作物。,这是鉴于数字化误审产生的数字化噪声。。
于是笔者会思前想后。,左右,尽量的频带就会缩减。 bit 刚过来的数字太无能了。,为什么不把他分红两三个划分档次呢? 划分档次),人耳心理自然声的陶冶的藏于树叶丛中效应,差数的频带被分派到差数的频率。 bit 数,每个频带产生的数字化噪声在表面之下CUR。,因而笔者不克不及听到产生的数字化噪声。,在附近的观念,它总共无损压缩。,左右将不会更好地吗?

依据,笔者把压缩任务分为两分开。,一分开是原文的。 PCM data 继后 band pass filter 分红两三个 subband 次频带,另一分开是心理自然声的陶冶。,剖析范围,寻觅职位效应翼型,于是争辩该翼型,对每个 subband 辩论数字化,决议分派 bit 数,容许数字化噪声在表面之下职位的翼型,定量扭弯将将不会被听到。,这是可以做到的。

接下来,据我看来谈谈最复杂的心理自然声的塑造。 ^^;

怎样说这么样久? ^^;;
还缺少进入题材。
我要解说什么? scale factor,这触及数字化。,蒸馏器 short block 和 long block,这触及到心理自然声的陶冶的判别。 MDCT window 大量的替换,首要出击目标是处置。 pre-echo 的成绩,你说得越多,从某种观点来说就越多。 ><
让笔者着手。 -_-;;;

我一致的了心理自然声的陶冶是等于任务的。。ISO MPEG1 Audio 给予了两种心理自然声的陶冶。,辨莫非 psychoacoustic model 1 和 2,model 2 比 model 1 这更复杂。,但判别所有物更好地。。这两种自然声的陶冶可以应用于随便哪一个一种自然声的陶冶。 layer,layer 1~3(MPEG1 layer 3 = MP3)。但笔者通常会左右做。 model 1 用在 MP1 和 MP2,model 2 用在 MP3。自然,也有异议。,像,有东西特别的版本。 toolame(压 MP1, MP2 最好的 编码器)切换到 model 2 心理自然声的陶冶不必要应用。 model 1。
MPEG1 Audio 当被压缩时,东西应用东西。 polyphase filter bank,将 PCM data 分红两三个”等宽的” subband 等候促进数字化压缩,一起是 psychoacoustic model,应用 512(MP1)或 1024(MP2/MP3)point(取 512/1024 个 sample 计算,或许说 window size=512/1024)的 FFT 替换,将 PCM data 频域替换,停止范围剖析。之因而更应用 FFT 来剖析,是由于 FFT 有良好的频率分辨系数。,计算差数频率的藏于树叶丛中效应更为精密的。。于是 psychoacoustic model 频率将契合 critical 频带(人的听觉特点的频带)可分为,计算每个 critical band 遮盖翼型。计算遮盖翼型时,率先要做的是辩论颂扬的频率。 tone,颂扬的频率是什么? noise。笔者为什么要做出左右的区别?由于毫不犹豫地布告了两个KI,noise 具有比率 tone 较强遮盖效应。嗨将提到两个术语。,东西是 TMN(音) Mask 噪声),tone 遮盖 noise 的生产能力,单位是 dB,有点弱,另东西是 噪声(噪声) Mask 带有某种腔调),noise 遮盖 tone 的生产能力,对立较强。这两个划分乐句熟习吗?MP /MPC 怎样不设置容许用户修正这两个参量。。调理这两个参量。,会减低 tone 和 noise 的遮盖生产能力,尽量的被遮盖的翼型将会瀑布。,可立场数字化噪声对立较低。,数字化噪声必然的缩减。,分派的 bit 必然的筹集数字。,因而 MP+/MPC 驳倒这两个参量。,bitrate 它会占领。,但数字化噪声也会驳倒。。

决议哪种颂扬 tone,哪个颂扬是 noise,model 1 和 model 2 采用差数的某方面。model 1 正寻觅东西区域延伸。,最大音量频率,把刚过来的频率作为 tone,由于 tone 它通常是在一点钟区域中最大大量的。。其他分开被以为是 noise,附带说明代表东西频率。。
model 2 法制是不行区别的。 tone 和 非带有某种腔调(噪声),可是每个频率东西。 tone index,由 0~1,index 数字越大,刚过来的频率越有典型性。 tone,争辩刚过来的 index 大量使相称,辩论计算其遮挡所有物。,左右更精确吗?。笔者怎样确信某个频率是等于? tone 呢? model 2 是用 predict 的某方面。predict 这使基于如今的保持健康。,预测下东西保持健康是什么。。在嗨 model 2 将希腊字母第12字两个过来的剖析。 window 范围,争辩谱的使不同,决定有先行词频率正是相似物。 tone。由于 tone 颂扬是可以预测的。,这些使不同将是绝顶相关性的。,缺少随机的杂乱。。争辩前后谱使不同,model 2 它可以精密的地商定。 tone 和 noise。

找出 tone 和 noise 继,那是缺少意思的。 tone/noise 完整屈从于镇压,像,两个。 tone 近的,强烈程度,或在表面之下 ATH 在表面之下相对听觉限定。 tone/noise,你可以去掉他。。于是计算其他分开。 tone/noise 的遮盖效应,寻觅每东西 critical band 遮盖翼型,极限的,合这些翼型。,找出尽量的遮盖翼型。
究竟 psychoacoustic model 财务主管是东西数值。,于是将刚过来的值印记给数字化阶段的挨次。,让数字化阶段的挨次确信等于数字化噪声C,将会分派等于? bit 数。刚过来的参量被印记给数字化挨次。 SMR(打旗语) to Mask 比率)。
熟习的术语,对吧?
SMR=SNR-NMR
MP+/MPC/Lame 你可以本身设定。 minimum SMR 基线是什么?。
后头提到,MPEG1 Audio 在分红两三个 subband 预备数字化时,它应用等宽度。 filter bank,这是笔者用力拖拉的特色。 critical band 差数,从下图可以看出,低频分开 subband,象征两三个 critical band。当到达高频时,好两三个 subband 包罗在一 critical band 外面。这些心理自然声的陶冶正中鹄的每东西都被计算去掉。 critical band 的 SMR 我怎样给它?
model 1 是取 subband 遏制的延伸中,最小的 SMR。这是在低频率下达到的。,将会有好两三个。 critical band 的 SMR 取最小的东西。 subband,由于 subband 象征两三个 critical band,假使你应用这些 critical band 中最大 SMR,将评论相当多的频率的遮盖效应。,因而为了妥协,笔者必然的取最小的。。在高频,有两三个。 subband 分享一 SMR。model 1 有致命的伤口。,它的频率很高。,笔者先前说过。 model 1 每个 critical band 的 noise 由总和浓度表现的频率。,这执意刚过来的 critical band 跳过两三个 subband,由中央委员会代表。 noise 频率计算 SMR,不克不及一致的每东西 subband 外面。离果核越远,它就越不本来的。
model 2 取低频率的极小值。 SMR,和 model 1 平均,在高频下,它被采用。 critical band 好两三个 SMR 平均值提供 subband。model 2 无集合 noise,它是用来 tone index 计算某方面 tone 和 noise 的遮盖效应,因而它会在高频下更好地。 model 1 精密的。

好了,心理自然声的陶冶早已不克不及再报告了。,眩晕。 @_@

数字。 有机会再化装 ^^;

极限的,笔者进入了题材。:MDCT 和 数字化(数字化)。
如上所述,笔者将 PCM data 分红两三个 subband 等候心理自然声的陶冶的判别,做促进的定量压缩。,笔者称这种压缩某方面。 subband coding。刚过来的 filter 笔者正应用的是 polyphase filter bank,将 PCM data 分红 32 个等宽的 subband。刚过来的 各种各样的 filter bank 有两三个错误。:
1. 它被扭弯了。 filter,执意说,还缺少数字化行动。,继后 filtering 继的 subsample 立即地回复。 PCM data,产物就早已原文不平均了。但这种扭弯很小。 因而对团缺少太大的损伤。。
2. 它是东西等宽度的频带。,不契合人耳的听觉特点。 critical band,不顺的后续总计阶段的处置
3. 它的贯通点是柔和的。,依据,当出口频率正是使移近最后部分点时,,两个邻近的人 subband 会产生 混叠(或) overlap,…..请看数字。有机会再化装….-_-;;)

MP1 东西 frame 384 个 sample,MP2 和 MP3 用 1152 个 sample,同时 MP3 会将 polyphase filter bank 切去掉的 32 个 subband 的 sample,再用 MDCT 替换,促进把它们分红更小的带。,前进频率分辨系数。将原始通知压缩到另东西间隔于是压缩的某方面,笔者称之为 transform coding。由于MP3 混合了 subband filterbank 和 MDCT,因而笔者把 MP3 的刚过来的 filtering 刚过来的折术叫做 Hybird Filterbank。
MDCT 然后,可以运用 butterfly 的计算,脱掉 polyphase filter bank 产生的 aliasing。
但黑金色、黑色平均的 MDCT 败也 MDCT,继后刚过来的 MDCT 替换后,完整耽搁工夫的教训。。是什么工夫教训的滴?让笔者匍匐生根的看一眼。 FFT。
做 FFT 在计算时,window size (计算)越大 sample 更多),频率讲解越非常。,频率越精密的。。但这些都是 PCM data 的 sample 它们扩音机代挨次商定。,对 的 PCM 一次品尝 32768 个 sample 开始算计,假使你不应用它 overlap,于是你的频率分辨系数(I. spectral line resolution)是 ,工夫分辨是不平常的的。 1秒 * 32768/44100 = ,你看不到比 频率使不同折术。频率分辨系数和工夫分辨两个量不克不及同时停止,工夫越精密的(取开始算计的 sample 少),频率分辨系数越差。,频率越精密的(取开始算计的 sample 更多),工夫分辨越差。。
MP3 取道 polyphase filter bank 然后转 MDCT 折术如次
1. 1152 个 PCM sample 分为两分开。,各 576 个 sample,它高压地带 granule。
2. 这 576 个 sample 送进 polyphase filter bank,出口 32 范本(按频率挨次) 18 组(按工夫挨次商定)
3. 重排为 18 个 范本(按工夫排序) 32 组(按频率排序)
4. 每组 18 个 sample 为工夫挨次,加法先前的替换。 18 个 sample,总共 36 个 sample 送进去做 MDCT 替换(SO) MDCT window 有 50% 的 overlap 堆叠)
5. 转出 18 个 sepctral 行(按频率排序) 32 组(按频率排序)

复杂吗? ^^;
大体而言 MDCT 替换后,工夫教训使溶解了。 spectral line,它们是频率教训。,可是频率教训要小得多。。
耽搁工夫教训有什么感动?
前提颂扬块如今替换为微弱的颂扬。,不连贯的,大量的不连贯的筹集。,像,鼓手不连贯的开端鼓掌。,这种波形笔者称之为「attack」:不连贯的的波动。在这种情况下,心理自然声的陶冶将是可笑的到足以以为 masker,可以给予很高遮盖翼型,依据可以容许更大的数字化扭弯。,依据,将较不重要的提供数字化行动。 bit。MDCT 东西换衣服执意采用。 576 个 sample,刚过来的 block 的巨大,同时,工夫的长。,因而东西亡故会使笑得前仰后合专有的。 block,产生数字化扭弯 noise 将蠕动到尽量的。 block 巨大延伸(即工夫延伸),因而后头按铃很弱。,这些数字化噪声也会涌现。,想自然尔,产物标明,微弱的大量的不克不及藏于树叶丛中数字化噪声。,假使在音量分开后头 pre-masking 后头遮盖的翼型绌藏于树叶丛中这些。 noise,笔者将听到这些数字化噪声。,依据,心理自然声的陶冶早已折叠。。
这种压缩缺陷高压地带。 pre-echo。

刚过来的规律是相似物的。 JPEG 图样证件的压缩缺陷,JPEG 停止一次替换。 8×8 做左右的阻碍 DCT 替换,在块中对抗锋利的的包边、线路(多的高频元件),继后 DCT 替换,高频的数字化扭弯将蠕动到尽量的。 8×8 的像素区块,因而笔者常常布告 JPEG 或 MPEG 证件四周有锋利的击出。,破损缺陷,这是由于笔者毫不犹豫地就死了。,尽量的四四方方地完整的了。。

MP+/MPC 由于它不起功能 transform coding,不做 MDCT 替换,因而他的 pre-echo 刚过来的成绩对立来说很小。,评论 MPC 镇压波形,差不多失踪。 pre-echo 压缩缺陷。
相反的范例。,MPEG2 AAC/MPEG4 AAC 完整不消 subband filterbank,导演做 MDCT 替换。 增益把持,不外 AAC 有某方面凑合它。 pre-echo 的 器(或) 模块高压地带。 TNS,可以用来处置 pre-echo 的成绩。

刚过来的,走来走去,写不完 ><
处置 pre-echo 某方面下次持续。

发表评论

电子邮件地址不会被公开。 必填项已用*标注