流媒体基本信息 - 数字夜话的博客

术语表（Glossary）

5.1 环绕声（5.1 Surround Sound）：一个环绕声扬声器配置包括5个扬声器位于一个圆周的具体位置和一个低音炮（”.1”）.扬声器频道同在位于：左、中、右、左环绕、右环绕和LFE（低频效果）。

8.24 有时候写作Q8.24 或者fx8.24.定点采样大小(替代32位浮点采样)被当作标准的音频采样类型，来处理线性pcm音频。在8.24音频样本中，左边8位代表整数基点，右边24位代表小数基点。

AAC 高级音频编码(advanced audio coding):一个压缩，有损的感知编码方案。1997年ISO/IEC 13818-7将AAC作为MPEG-2的一部分，成为MPEG-2 AAC。并在MPEG-4中做了增强，MPEG-4 AAC。根据发表在ISO/IEC JTC1/SC29/WG11, N2006 上的结果看，MPEG-2 AAC比MPEG-1，layer3（mp3）在同个位速率（bit rate）上有更好的音频质量。MPEG-4 AAC扩展了MPEG-2 AAC 的额外编码工具。

AC－3 它是杜比公司开发的新一代家庭影院多声道数字音频系统。杜比定向逻辑系统是一个模拟系统。它的四个声道是从编码后的两个声道分解出来的，因此难免有分离度不佳、信噪比不高，对环绕声缺乏立体感，并且环绕声的频带窄等缺点。AC（Audio Coding）指的是数字音频编码，它抛弃了模拟技术，采用的是全新的数字技术。

active 在iOS中用于在播放或者录音时描述audio session的状态是否可持续。比较inactive。

ADC 模拟数字转换器（英语：Analog-to-digital converter, ADC, A/D or A to D）是用于将模拟形式的连续信号转换为数字形式的离散信号的一类设备。一个模拟数字转换器可以提供信号用于测量。与之相对的设备成为数字模拟转换器。典型的模拟数字转换器将模拟信号转换为表示一定比例电压值的数字信号。然而，有一些模拟数字转换器并非纯的电子设备，例如旋转编码器，也可以被视为模拟数字转换器。数字信号输出可能会使用不同的编码结构。通常会使用二进制二补数（也称作“补码”）进行表示，但也有其他情况，例如有的设备使用格雷码（一种循环码）.

PCM:脉冲编码调制（英文：Pulse-code modulation，缩写：PCM）是一种模拟信号的数字化方法。PCM将信号的强度依照同样的间距分成数段，然后用独特的数字记号（通常是二进制）来量化。PCM常被用于数字电信系统上，也是电脑和红皮书中的标准形式。在数字视频中它也是标准，例如使用 ITU-R BT.601。但是PCM并不流行于诸如DVD或DVR的消费性商品上，因为它需要相当大的比特率（DVD格式虽然支持PCM，不过很少使用）；与之相较，压缩过的音频较符合效率。不过，许多蓝光光盘使用PCM作音频编码。非常频繁地，PCM编码以一种串行通信的形式，使数字传讯由一点至下一点变得更容易——不论在已给定的系统内，或物理位置。

Differential（差异）或Delta PCM（DPCM）纪录的是目前的值与前一个值的差异值。与相等的PCM比较，这种编码只需要25%的比特数。

ADPCM是DPCM的变形，给定一个噪讯比，以节省量化密度的方式，允许更大程度的节省带宽。

AES/EBU的全称是Audio Engineering Society/European Broadcast Union（音频工程师协会/欧洲广播联盟），现已成为专业数字音频较为流行的标准。大量民用产品和专业音频数字设备如CD机、DAT、MD机、数字调音台、数字音频工作站等都支持AES/EBU。它们已经颁布了许多关于数字音频的重要标准。

AES-3 一个在1992年发布的，由AES定义的数字音频传输标准。也叫做AES/EBU接口，等同于IEC 60958 第四部分。AES－3标准包括不同的物理链接：平衡双绞线，非平衡同轴电缆和光纤。AES－3的诞生来源于S/PDIF (Sony/Phillips Digital Interface)标准。数字音频接口协议,可用XLR线传输两路数字音频信号，单向传输,也可用25Pin（25针）线缆传输8路信号，双向传输.

AES/EBU: AES/EBU标准 AES/EBU是一种通过基于单根绞合线对来传输数字音频数据的串行位传输协议。它无须均衡即可在长达100m的距离上传输数据，如果均衡，可以传输更远距离。它提供两个信道的音频数据（最高24比特量化），信道是自动计时和自同步的。它也提供了传输控制的方法和状态信息的表示(channel status bit)和一些误码的检测能力。它的时钟信息是由传输端控制，来自AES/EBU的位流。它的三个标准采样率是32kHz、44.1kHz、48kHz，当然许多接口能够工作在其它不同的采样率上。 AES/EBU提供“专业”和“消费”两种模式。它们两者最大的不同在于信道状态位格式的提供上。专业模式的状态位格式里包括数字信道的源和目的地址、日期时间码、采样点数、字节长度和其它信息。消费模式包括的东西就比较少，但包含了拷贝保护信息。另外，AES/EBU标准提供“用户数据”，在它的位流里包含用户说明（例如厂商说明等）。图1是AES/EBU专业格式24字节信道状态数据块的一部分。 AES/EBU的普通物理连接媒质有：（1）平衡或差分连接，使用XLR（卡侬）连接器的三芯话筒屏蔽电缆，参数为阻抗110Ω，电平范围0.2V～5Vpp，抖动为±20ns。（2）单端非平衡连接，使用RCA插头的音频同轴电缆。（3）光学连接，使用光纤连接器。

集合设备aggregate device，一组由软件程序控制两个或者多个音频设备互相连接构成的一个单个设备。

音频交换文件格式（Audio Interchange File Format，缩写为AIFF）一种音频格式用于个人电脑和其他电子音频设备存储音频数据。这种格式由苹果公司于1988年在美商艺电的交换档案格式（Interchange File Format，缩写 IFF，广泛使用于Amiga系统）基础上开发而成，并且它多被用在苹果公司的OS X操作系统。在一个标准的AIFF文件中的音频是线性PCM（pulse-code modulation）。还有一种被称为AIFF-C或AIFC的经过压缩的变体，with various defined compression codecs。标准AIFF格式与SDII和WAV一并被认为是专业登记的视频音频编辑应用和的领导性格式，并且与广为人知的有损格式MP3相比，它并未经过压缩。与其它的未压缩无损音频格式相比，AIFF会占用比MP3更多的磁盘空间。在立体声的44.1 kHz采样率和16 bits采样深度的条件下，这个差额大约是每分钟10MB。

音频压缩交换文件（Audio Interchange File Format Extension for Compression)，一个AIFF的扩展，他可以对数据进行压缩或者不压缩。

混淆aliasing，也称为混叠。在声音采样来说，混淆是指在进行取样时，和一个正确频率一起生成的一个错误频率，这时混淆会产生杂音。对于图像生成来说，混淆会产生锯齿状的边缘或者梯阶效果。当采样率低于奈奎斯特频率（即被采样频率的一半）时，被采样波形周期内将少于2个采样，在这种情况下，采样点在播放时将不能重建原信号，而会比原信号的频率低，具体的差异遵循这一公式：新频率=采样频率-被采样信号频率，例如，当以采样率为44.1kHz对一个26kHz的频率进行取样时，ADC读取的将是44.1-26=18.1kHz。[1]

奈奎斯特频率（Nyquist frequency）是离散信号系统采样频率的一半，因哈里·奈奎斯特（Harry Nyquist）或奈奎斯特－香农采样定理得名。采样定理指出，只要离散系统的奈奎斯特频率高于被采样信号的最高频率或带宽，就可以避免混叠现象。

头部相关传输函数（Head Related Transfer Functions，缩写：HRTF）又称为ATF（anatomical transfer function），是一种音效定位算法。

HRTF是一组滤波器，系利用HD ITD（Interaural Time Delay）、IAD（Interaural Amplitude Difference）和耳廓频率振动等技术产生立体音效，使声音传递至人耳内的耳廓，耳道和鼓膜时，聆听者会有环绕音效之感觉，通过DSP，HRTF可实时处理虚拟世界的音源。

平均码率通常是指数字音乐或者视频的平均码率，可以简单的认为等于文件大小除以播放时间。例如常用的RMVB在压缩电影时常常设定视频平均码率为450kbps，则平均每秒占用约55千字节，这样可以估算10分钟的视频大小约为55KB6010=33MB，2小时的视频则约为400MB。码率并不是衡量音频/视频质量的唯一标准，格式、图像大小、音频采样率、音频分辨率等因素也是很重要的指标。由于在实际编码中，会根据图像/音频的复杂程度，而对码率进行一些调整，以达到最好的控制文件大小及质量，因此，最终的平均码率并不能在编码之前确定下来，波动幅度较大。为了从一定程度解决这个问题，二次编码方式诞生了。它在第一次编码时不进行实际编码运算，仅仅是计算码率，第二次利用这一计算结果为基础，根据设定值进行调整，并最终编码。除了平均码率之外，最高码率，或者叫码率峰值，也是与码率有关的一个参数。当码率峰值高过处理器所能处理的强度时，可能会造成播放延迟。以上概念是针对可变码率编码（VBR）而言的，实际上平均码率编码方式理论和此完全不同.

固定码率（英语：Constant bitrate，简称CBR）这是一个用来形容通信服务质量（QoS，Quality of Service）的术语。和该词相对应的词是可变码率或可变比特率（英文variable bit rate，缩写VBR）。当形容编解码器的时候，CBR编码指的是编码器的输出码率（或者解码器的输入码率）应该是固定制（常数）。当在一个带宽受限的信道中进行多媒体通讯的时候CBR是非常有用的，因为这时候受限的是最高码率，CBR可以更容易的使用这样的信道。但是CBR不适合进行存储，因为CBR将导致没有足够的码率对复杂的内容部分进行编码(从而导致质量下降)，同时在简单的内容部分会浪费一些码率。大部分编码方案的输出都是可变长的码字，例如霍夫曼编码或者游程编码（run-length coding），这使得编码器很难做到完美的CBR。编码器可以通过调整量化（进而调整编码质量）来部分的解决这个问题，如果同时使用填充码来完美的达到CBR。（有时候，CBR也指一种非常简单的编码方案，比如将一个16位精度的音频数据流通过抽样得到一个8位精度的数据流）.

可变码率（英语：Variable bitrate，简称VBR）这是一个用来形容通信服务质量（QoS for Quality of Service）的术语。和该词相对应的词是固定码率或固定比特率，英文constant bit rate，缩写CBR。例如，使用MP3格式的音频编解码器，音频文件可以以8~320kbps的可变码率进行压缩，得到相对小的文件来节约存储空间。MP3格式的文件格式是.mp3。当形容编解码器的时候，VBR编码指的是编码器的输出码率（或者解码器的输入码率）可以根据编码器的输入源信号的复杂度自适应的调整，目的是达到保持输出质量保持不变而不是保持输出码率保持不变。VBR适用于存储（不太适用于流式传输），可以更有效地利用有限的存储空间：用比较多的码字对复杂度高的段进行编码，用比较少的码字对复杂度低的段进行编码。像Vorbis这样的编解码器和几乎所有的视频编解码器内在的都是VBR的。.mp3文件也可以以VBR的方式进行编码。

AVI是英语Audio Video Interleave（“音频视频交织”或译为“音频视频交错”）的首字母缩写，由微软在1992年11月推出的一种多媒体文件格式，用于对抗苹果Quicktime的技术。现在所说的AVI多是指一种封装格式。AVI的文件结构、分为“头部”,“主体”和“索引”三部分。主体中图像数据和声音数据是交互存放的。从尾部的索引可以索引跳到自己想放的位置。AVI将视频和音频封装在一个文件里，其顺序是：若干视频帧（Video Frame）之后接着若干音频帧（Audio Frame），再然后是视频帧、音频帧，故名为“音频视频交织”，意即音频和视频按帧交错排列，以此达到音频同步于视频播放的效果。和DVD视频格式一样，AVI文件支持多视频流和音频流，虽然这些功能很少使用。大多数AVI文件还支持由Matrox OpenDML集团于1996年2月开发的格式后缀。这些文件非正式的称为“AVI 2.0”，并得到微软的支持。

带宽（英语：Bandwidth）指信号所占据的频带宽度；在被用来描述信道时，带宽是指能够有效通过该信道的信号的最大频带宽度。对于模拟信号而言，带宽又称为频宽，以赫兹（Hz）为单位。例如模拟语音电话的信号带宽为3400Hz，一个PAL-D电视频道的带宽为8MHz（含保护带宽）。对于数字信号而言，带宽是指单位时间内链路能够通过的数据量。例如ISDN的B信道带宽为64Kbps。由于数字信号的传输是通过模拟信号的调制完成的，为了与模拟带宽进行区分，数字信道的带宽一般直接用波特率或符号率来描述。

采样率（sample rate）：或称“采样速率”，是每秒内采样点（sample）的密集程度，单位是赫兹（Hz）。

采样深度（sample depth）：或称“采样精度”，就是对采样点的采样精确度。单位是比特（bit）。

比特率（Bit rate）：亦称“位速率”，是单位时间内传输送或处理的比特的数量。比特率经常在电信领域用作连接速度、传输速度、信道容量、最大吞吐量和数字带宽容量的同义词，根据位深的幅度分辨率，量化误差.多媒体行业在指音频或者视频在单位时间内的数据传输率时通常使用码流或码率，单位是kbps（千位每秒）。在数字多媒体领域，比特率代表了信息的数量，更详细地说，存储了一个记录的每单位时间。比特率和以下几个因素相关：原始物质也许取样在不同的频率里取样可能使用了不同数量的比特数据可能按照不同的方式编码信息可能用不同的算法或不同的程度进行数字压缩。

位深（bit depth）：采样方案，每个采样的比特位数。位的深度受其他因素的影响，主要是数字系统的动态范围。

声道（channel）一个分离的音轨。一个单声道的录音或者现场表演有一个声道，一个立体声道的录音或者现场表演有两个声道。一个多音轨的声道和表演可以有多个声道。在一个audio单元中，一个集合可以有一个或多个声道。

声道布局（audio layout）：在一个录音音频中描述播放角色所处声道的信息。例如在立体声道中，声道1表示左前方，声道2表示右前方。

Chunk 含义：Chunk（组块）即由若干个字节（Byte）组成的数据块。Chunk有其特定的结构。结构：一个Chunk由chunk Header（块头）和Chunk Data（块数据）组成。若Chunk Data 没有数据，则此Chunk仅仅包含Chunk Header。由于我们是使用Chunk来存储数据到Chunk Data中的，因此实际使用中Chunk Data大小一般都不为零。组头含义（chunk header）组块数据的头部。代表数据块的格式。

裁切（clipping）：从一个受限的信号幅度到特定电平所损失的波形值。