数字音频的的“数字”部分有多重要

进入数位化时代之后,模拟电信号的储存/传输逐渐被数字信号所取代。以量化为数字信号的方式进行储存和传输,有着占用资源少,容错率高,抗干扰强等等优点。但是我们人体对世界的感知仍然是“模拟的”、“连续的”(其实生物体内部的信号传递也有量化的过程,而且世界最本质也并不是连续的,但是现在我们不用讨论这种微观物理模型)。于是数模转换就成了电子信息工程中非常重要的一个环节,在通讯工程,信号处理,自动化与控制等等领域都需要涉及到。电子工程师们精心地设计开发各种IC和电路,就是为了提高DA/AD的精度和性能,电声学系统更是如此。

在电声学回放系统中负责数模转换的核心元件就是DAC芯片。不论是传统的R2R电流相加型DAC还是SDM积分内插型DAC,都对输入的数字信号的质量有着一定要求。

这里所说的数字信号,是物理意义上的数字信号(高电平与低电平),并非信息学意义上的0和1。在数字信号进入DAC之前,就已经由前端(PC,CD机,转盘等)将各类音频文件解码(Decode)成规范的PCM/DSD码流,再经由界面转换成I2S或者S/PDIF信号喂入DAC芯片。我们来看看常见的数字输入规范:

  1. AES/EBU。这是由音频工程师协会(Audio Engineer Society)和欧洲广播联盟(European Broadcasting Union)共同制定的数字音频传输行业规范,也称为AES3。物理接口是大3pin的XLR,线材采用110Ω特征阻抗的屏蔽双绞线(STP)。编码为双相符号编码(Biphase Mark Code),信号是差分的,可以传输未压缩的PCM数字音频或者压缩的杜比5.1声道音频,最高到24bit/192kHz。

IMG_256

  1. S/PDIF。这是由索尼和飞利浦共同开发的AES3的民用版数字音频接口规范,物理接口可以是RCA或BNC接口,也可以是Toslink光纤接口,近来在随身HiFi设备上,也有用3.5mm TRS接口传输S/PDIF同轴/光纤协议的,更有甚者还有用USB或者其它接口实现S/PDIF传输的。S/PDIF使用的线材是特征阻抗为75Ω的同轴屏蔽线,或者玻璃纤维。采用和AES3相同的双相符号编码传输电平比AES/EBU稍低一点,不是差分信号而是单端信号,并且在Frame bits上也稍有不同。除此之外,S/PDIF可以说与AES3几乎是同一个规范,甚至后期出现的AES3id也使用了BNC接口和同轴线缆。但要注意,二者不能通过转接线直接进行接驳,必须要通过逻辑芯片进行互相转换。索尼和飞利浦这个组合是不是有些眼熟?没错,DSD规范也是由这两个公司合作开发的,但是他们却没有考虑到用S/PDIF协议传输DSD的问题,DoP这种方式还是第三方公司挖掘出来的,即是以24bit/176.4kHz的PCM音频编码打包等价于16bit/176.4kHz的DSD64音频流,其中8位为0补位,以便接收端识别为DoP音频。这在很长一段时间内成为S/PDIF的码率瓶颈,但近年Savitech公司延伸S/PDIF规范开发出了能接受32bit/384kHz的S/PDIF接受界面并可以支持高达DSD256的DoP音频流。
  2. USB。说到DoP就该说到USB音频了。USB并不是一个音频专用接口,但是确有基于USB的音频传输规范,叫USB Audio Class 1/2/3,支持UAC的硬件可以免驱直插PC播放数字音频。UAC1可以支持最高16bit/192kHz或24bit/96kHz的立体声传输。以上说的AES3,S/PDIF,UAC1.0,都是将数字音频的时钟信号编码在数据信号中,每一个脉冲方波代表一次时钟脉冲,并且由输出设备合成和控制时钟,这就造成后端音频设备的表现非常受前端的限制,如前端是由用无源晶振合成频率的主板输出信号的话,后端的音频质量就会大打折扣。而从UAC2开始,情况发生了改变,由于支持USB2.0 High Speed,UAC2.0的带宽大大增加,最高可以支持15声道的32bit/384kHz音频,因此即使打包传输DSD1024都不在话下。UAC2.0协议还提供更加丰富的功能,增加各种时钟控制,采样率转换的支持。这便使得后端的解码/界面可以用过Windows的WASAPI Event模式摆脱前端时钟的控制,不需要数字隔离也能以后端的时钟为基准,大大提高音频性能。而UAC3.0是增补了一些关于Type-C耳机的规范,这里暂且不提。从当年的PCM2706到异步的TAS1020B到现在先进稳定的XMOS/Amanero/SA9227等,USB界面也已经发展了十多年,形成了成熟的软硬件体系,XMOS系列的XU216甚至能支持到32bit/1.536MHz和DSD1024的数字音频流。由于USB通讯的规范时钟是24MHz,需要异步接受芯片重新合成音频频点时钟,所以对于各种USB界面方案,时钟的性能都非常重要。
  3. I²S。这是数字音频传输最底层的协议规范,却也是适用范围最宽,支持带宽最大的协议规范,不少DAC芯片只认这一种输入方式。I²S规范至少需要三条传输线,BCLK/BICK/SCK指的是比特时钟,是音频采用率的32倍;WS/WCLK/LRCLK指的是字时钟,也称为Frame Sync,和采样频率是一样的,用于确定在传输的有效通道(左声道或右声道);SDATA/SDIN指的是串行数据,是音频信号本身,可能会有多条。除了这三条线,I²S还可能带有MCLK,也就是主时钟,这是256倍于WS/WCLK/LRCLK的时钟,也是整个音频系统最高频率的时钟。I²S几乎大部分的传输线都在定义各种时钟的传输,为的就是最大程度上保证数字音频流的还原。但I²S规范仅仅定义了通道,却没有定义物理传输接口,因为这本来是一个板上芯片间传输协议,没有想到有一天会被HiFi应用搬到机外应用。从一开始的RJ45,HDMI,GX12等百花齐放的I²S接口,到现在的几乎由HDMI-LVDS规格统一天下(虽然各家的定义还是有所不同,需要设置或条线),由差分信号传输的I²S已经成为了最强大的数字音频接口。

可以看到,越先进的数字音频接口规范,对于时钟就越重视,这也是为何数字音频越来越强调时钟质量。

时钟和晶振

自从8年前的七彩虹C4使用上双频点晶振及FPGA用于解决重采样即SRC带来的失真后,随身HiFi播放器甚至手机,都开始普及双晶振,并慢慢地加入CPLD或者FPGA等逻辑控制芯片来对时钟信号进行合成和处理。到现在,高端的随身HiFi播放器也和台式设备一样,开始宣传“飞秒晶振”。宣传中总是把Jitter即时基误差拿出来作为一个非常重要的宣传点,而很多数字音频工程师或者资深发烧友又会告诉你Jitter值其实没有相噪重要。这到底是怎么回事呢?

“飞秒”晶振和相噪的关系

首先要知道,相位噪声本身指的并不是一种噪声,而是系统在各种噪声的作用下引起的系统输出信号相位的随机变化,是一种“误差”,是衡量频率源稳定性和准确性的重要指标。表达这种误差的方法就是将不同误差量的随机变化分别表示出来,这就形成了相噪图谱。我们来看一个例子:

CCH-575

上图是著名的飞秒晶振CCHD-575 100MHz的相噪图。可以看到图中的横坐标是Hz,也就是偏移频率。偏移频率是相对于载波频率也就是时钟本身的工作频率而言的。理想状态下,如图中一个工作在100MHz频点的晶振,应该每一次震荡都间隔相等(10ns),准确地输出方波。但是现实是,晶振的每一次输出都有可能比应有位置要快一点或者慢一点,对应的频率也就高一点或者低一点。 Jitter 如果此时输出频率为100.0001MHz,那么频率偏移100Hz后就是99,9999MHz或者100.0001MHz。上图中指出100Hz处的相噪位-121dBc/Hz,也就是说,99,9999MHz和100.0001MHz两种(±100Hz)输出频率的功率,占总输出功率的比例为0.000089% 每Hz。之所以是dBc/Hz而不是单纯的dBc,是要根据频率均一化,因为不同频率上的功率比值是不同的。相噪图是时钟频稳质量在频域上的完整表达,当然也可以简化成时域上的数值表达——时基误差即Jitter。计算方法和通过THD曲线算数值的方法类似,即将相噪-频率曲线进行积分,不过要得到Jitter还要再做进制转换。在实际工程应用中,为了免去复杂的计算,就将积分简化为面积计算,如下图:

既然是积分(面积计算),那么就需要定义上下限。对于音频用晶振,业界通常使用10-1MHz的积分上下限,而通讯用晶振常常关注12kHz-80MHz带宽内的表现,对于计时电路和系统,则更关注晶振更长期的精度(其实也可以由相噪图积分得出,但一般采用另外的测量办法,这里不做讨论)。在现在几乎在高端随身HiFi播放器中几乎普及的“飞秒晶振” AS318B的Datasheet中,官方就给出了这两种积分带宽下的Jitter值,找到对应的100MHz频点下,12kHz-80MHz的Jitter值只有71fs,比CCHD-575标称的82fs还要更低。

总之,Jitter是相噪的一种约化数值,是一个零维的数字。但相噪是一个更详细的二维数据图。因此相噪图相对于Jitter,有更加详细的数据,更清楚地显示出我们关心的近端相噪。

常见有源晶振的选择

这里介绍一下几个在随身HiFi播放器中较为常见的有源晶振型号,做一下简单对比。

  1. CCHD-575/CCHD-957
    这是老牌晶振大厂Crystek的第二代飞秒晶振,是第一代飞秒晶振CCHD-950在被用于HiFi音频应用后分化开发出来的优化产品。不同的是CCHD-957是专用的音频频点晶振,最高只能做到49.152MHz,而CCHD-575则可以做到100MHz,但近端相噪略逊色于CCHD-957,总体来说都是很不错的晶振,有很多中高阶台式解码使用,国产台式解码“跑分王”X-Sabre Pro和Element-X就使用了这一系列晶振。下面是官方链接:

https://www.crystek.com/crystal/spec-sheets/clock/CCHD-950.pdf
https://www.crystek.com/crystal/spec-sheets/clock/CCHD-957.pdf
https://www.crystek.com/crystal/spec-sheets/clock/CCHD-575.pdf

  1. AS318/AS318B

AS318B是Accusilicon近年推出的飞秒晶振,比Crystek的CCHD系列更加优秀一些。但是AS318和AS318B并不是同一个型号,是低精度版本,用于手机,通讯等电子设备。乐视手机就曾使用过AS318。这两者都有三种封装提供,2520多用于随身播放器,SMD1409用于台式设备贴片焊接,DIP14则是台式设备直插型封装。-100dBc/Hz@10Hz的优异相噪让AS318B成为了高端HiFi播放器的首选,如DX220,凯音N8,歌诗德,高登,拓品等都明确使用了AS318B。

http://www.accusilicon.com/docs/AS318BM.pdf

  1. NZ2016SDA/NZ2520SDA/NZ3225SDA

NDK的NZ系列晶振在发布的时候号称做到了该体积下的最低相噪,是2016封装下最好的TCXO。从官方给出的Datasheet来看,也确实非常优秀,45MHz和49MHz的频点几乎与AS318B的相噪水平相当。但NZ-SDA还可以做到26MHz以下的频点(22MHz/24MHz),而AS318B没有低频点的选择,所以NZ-SDA系列可以说是给CS系列DAC使用的最佳选择。

https://www.ndk.com/images/products/catalog/c_NZ2520SDA_e.pdf

  1. DSO221SH系列

日本另一家晶振大厂KDS的产品。日本人命名晶振产品非常直白,通常直接把封装放进名称里。而DSO系列晶振虽然也用名称直接区分封装,但却不是以封装命名,更容易把人搞迷糊,有兴趣的同学可以去找一找。他们家的音频用晶振不算优秀,甚至经常被MEMS晶振拿出来吊打。

https://www.kds.info/product/dso221sh/

  1. SiT8208

这是SiTime新推出的MEMS硅晶振。和石英晶振不同的是,它不需要精确的温补,也不需要避震,还有这非常好的长期稳定性,衰减非常慢,远端相噪低,抗干扰性能好。不过实际上因为MEMS硅晶振的近端相噪不够优秀,可以用于中低端设备或者对于时钟性能不太敏感的DAC(如CS431xx系列)上,但对于高端HiFi应用来说显得力有不逮。

https://www.sitime.com/datasheet/SiT8208

总结

有经验的工程师们常说,“电为声之母”,那么在数字音频时代,时钟就是“声之父”。整个数字信号流程上的时钟和传输质量,以及数字信号处理的水平,直接关系到整机的表现。不论是从数字介面方案的选择,传输接口的选择,还是晶振型号的选择,都是很重要的部分。消费者也应通过仔细甄别,区分HiFi设备的真伪高下。