Seit einigen Monaten gibt's auf der
Cranesong-Webseite ein paar Audiodateien anzuhören, die Dave Hill erstellt hat mit dem erklärten Ziel, Leuten das Hörtraining von Jitter zu erleichtern. Die Message ist ziemlich eindeutig:
Hier habt Ihr ein paar Dateien, die in unterschiedlichem Ausmaß "verjittert" sind, schaut mal ob Ihr es hören könnt und wie es klingt.
Ein nützliches Angebot, so sollte man meinen. Besonders da auf einer zweiten Seite zum Einen die Differenzdateien angeboten werden, was es ermöglicht, sich nur den Unterschied anzuhören, und zum Anderen angegeben wird, um was für einen Typ und Pegel von Jitter es sich jeweils gehandelt hat. Zudem werden technische Erklärungen geliefert, wie der "Versuchsaufbau" ausgesehen hat, mit dem die Dateien erzeugt wurden. Macht auf den ersten Blick einen vernünftigen Eindruck, oder?
Mal ehrlich, wer von Euch würde das was da geboten wird tendenziell für seriös halten?
Und wer von Euch würde daraus den Schluß ziehen, daß Jitter offenbar auch schon weit unterhalb von 1 ns hörbar ist?
Das wäre ein Resultat, das in ziemlich krassem Widerspruch zu dem steht, was ich früher auch schon hier im Blog schrieb, und ebenso im Widerspruch zu mehreren Studien, die in der Vergangenheit dazu schon gemacht wurden, siehe dazu
hier.
Mich hat natürlich interessiert woher diese Diskrepanz kommt, und hatte nach dem Lesen der technischen Dokumente, die Hill anbietet, auch schnell einen Verdacht: Es liegt an seiner Meßmethode für Jitter, die er zwar nicht in ausreichendem Detail beschreibt, die aber mit sehr großer Wahrscheinlichkeit gerade für den Typ von Jitter so gut wie blind ist, den er hier anwendet. Mit anderen Worten: Seine Beispieldateien sind sehr viel mehr verjittert als er angibt. Wahrscheinlich um mehrere Zehnerpotenzen.
Das ist ein ziemlich interessantes Beispiel dafür, wie beim Thema Jitter die Schwierigkeiten des Themas selbst, das audiophile Wunschdenken, und die technische Unbedarftheit des Publikums eine ziemlich unselige Verbindung eingehen, so daß völliger Unsinn heraus kommt, der nichtsdestotrotz nur mit ziemlich viel Detailwissen durchschaut werden kann. Ein ideales Feld für Leute, die einem ein X für ein U vorzumachen versuchen.
Aber eins nach dem anderen: Wie hat Dave Hill die Dateien erzeugt?
Nun, er hat mit einer Audio-Workstation eine Audiodatei abgespielt, und mit einem handelsüblichen D/A-Wandler ins Analoge gewandelt. Dieses Analogsignal hat er dann wieder mit einem A/D-Wandler ins Digitale zurückgewandelt, und mit derselben Workstation wieder aufgenommen. Der Takt des A/D-Wandlers wurde dabei kontrolliert verjittert, der des D/A-Wandlers nicht.
Das ist im Grunde eine recht clevere Anordnung, aus gleich mehreren Gründen:
- Würde man beide Wandler gleichermaßen verjittern, dann könnte sich der Effekt aufheben.
- Da die Workstation das verjitterte Signal nur aufzeichnet und nicht direkt wieder wandelt, hat der Jitter im A/D-Wandler keine weiteren Auswirkungen als nur die (gewünschten) bei der Wandlung selbst. (Dave Hill scheint das allerdings selbst nicht recht zu glauben).
- Pegel und Zeitverzögerung in der Schleife kann man für die Differenzbildung auf der Workstation recht gut auskalibrieren (wenngleich das nicht ganz trivial ist, siehe später).
Der kontrollierte Jitter für den A/D-Wandler wurde mit einem
HF-Signalgenerator erzeugt, der frequenzmodulierbar ist. Diesen Generator stellt man so ein, daß seine "Trägerfrequenz" den korrekten Mastertakt für den Wandler liefert. Wenn man diesen dann frequenzmoduliert, dann ergibt sich ein kontrolliert verjitterter Takt. Dave Hill erzeugte das Modulationssignal mit dem Generator in einem Audio-Meßplatz (einem
dScope III), das bedeutet er hatte die Kontrolle über die Art des Jitters.
Nun könnte man im Prinzip die Stärke des Jitters, den so eine Anordnung erzeugt, auch rechnerisch bestimmen, wenn man die Einstellung der beteiligten Geräte kennt. Schließlich sind die kalibriert (oder wenigstens kalibrierbar). Das heißt, wenn man weiß wie das Modulationssignal in Frequenz und Pegel beschaffen ist, und wenn man die Modulationseinstellungen des Generators kennt, dann kann man damit berechnen, wieviel Jitter daraus resultieren müßte. So hat es Dave Hill aber offenbar nicht gemacht. Er hat den resultierenden Jitter stattdessen mit einem Oszilloskop gemessen. Ein ziemlich
hochwertiges Oszilloskop sogar, das mit einer speziellen
Software-Option zur Jittermessung ausgerüstet ist. Er beschreibt das zwar nicht im Detail, aber es wird wohl so gewesen sein, daß er das Modulationssignal am dScope so eingestellt hat, daß sich der gewünschte Jitterwert auf der Oszilloskop-Anzeige ergeben hat. Es gibt keinen Hinweis darauf, daß er nachgerechnet hätte.
Und da geht das Problem los. Es gibt eine ziemliche Menge unterschiedlicher Meßmethoden und -varianten, die man im Oszilloskop wählen kann, um die Jittermessung an seine Bedürfnisse anzupassen. Dave Hill läßt aber nichts darüber verlauten, wie er das eingestellt hat. Da das Ergebnis sich je nach gewählter Meßmethode zum Teil sehr drastisch unterscheiden kann, weiß man im Ergebnis nicht mal mehr ungefähr, wie stark der Jitter bei ihm wirklich war. Das gilt ganz besonders für den niederfrequenten Jitter, den er in seinen Versuchen benutzt hat.
Woran liegt das? Dafür muß ich leider etwas ausholen.
Jittermessungen mit dem Oszilloskop werden vor allem in der Datenkommunikation angewendet, und dafür sind auch die entsprechenden Funktionen eines (Luxus-)Oszilloskops ausgelegt. Für die Charakterisierung von Wandlertakten ist das nicht optimal, da wäre eine Phasenrauschmessung besser, die ganz andere Ausrüstung erfordert. Die Anforderungen sind deswegen unterschiedlich, weil bei der Datenkommunikation vor allem der Jitter mit höheren Frequenzen kritisch ist. Man verwendet daher Meßmethoden, die für niederfrequenten Jitter ziemlich blind sind. Der Hintergrund dafür ist der, daß man in der Datenkommunikation wissen will, ob ein Signal korrekt empfangen werden kann (also mit möglichst wenig Bitfehlern), und das hängt davon ab wie gut die Taktrekonstruktion im Empfänger dem eingehenden Signal folgen kann. Dem niederfrequenten Jitter kann man recht leicht folgen, daher spielt der wenig Rolle. Der hochfrequente Jitter ist das eigentliche Problem. Würde man eine Meßmethode verwenden, die für jede Jitterfrequenz gleich empfindlich ist, dann würde man oft ein Problem sehen, wo eigentlich gar keines ist.
Will man mit diesem Aufbau den Jitter so messen, daß auch die ganz niedrigen Jitterfrequenzen in etwa gleich empfindlich gemessen werden wie die hohen, dann muß man sich genau überlegen was man da tut. Vergreift man sich in der Einstellung, dann kann das Resultat möglicherweise um den Faktor 10000 oder mehr zu gering ausfallen.
Ein prominentes Beispiel dafür ist in einem
Artikel von Bruno Putzeys und Renaud de Saint Moulin beschrieben, über den sie vor knapp 10 Jahren auf einer AES-Convention vorgetragen haben. Dort ist in einem Diagramm zu sehen (Abschnitt 4.2), wie die Empfindlichkeit zweier dieser Meßmethoden zu niedrigen Frequenzen hin immer weiter abnimmt. Ein weiteres
AES-Papier von Chris Travis und Paul Lesso ein halbes Jahr danach vertieft das noch, und man kann dort lesen:
"We can only guess how many times it has happened that people hear the effects of baseband
jitter, measure the period
jitter, and reach erroneous conclusions." Ich gehe davon aus, daß Dave Hill genau dieser Fehler passiert ist.
Warum glaube ich das?
Es gibt dafür eine Reihe von Indizien. Es fängt damit an, daß die Differenzsignale, die Dave Hill in eigenen Dateien bereitgestellt hat, erheblich stärkere Signale beinhalten, als es aufgrund der behaupteten Jitterwerte plausibel wäre. Das könnte natürlich auch eine Folge einer unzureichenden Phasen- und Pegelkompensation bei der Differenzbildung sein, und da Dave Hill nichts darüber schreibt, wie er das bewerkstelligt hat, kann man diese Erklärung schlecht ausschließen. Wenn man aber zu seinen Gunsten annimmt, daß die Differenz wirklich großteils auf Jitter zurückgeht, dann ist kaum vorstellbar wie das mit den angegebenen Werten zustande kommen soll.
Das wäre leichter kontrollierbar gewesen, wenn zusätzlich zu den vorhandenen Audiodateien auch noch ein Satz Dateien mit Sinussignalen vorhanden wäre, die mit den gleichen Jitterwerten aufgenommen wurden, aber auch das hat Dave Hill nicht bereitgestellt.
Nebenbei: Wer sich überlegt, wie man wohl am besten zwischen zwei Audiodateien eine Differenz bildet, so daß wirklich bloß die jitterbedingten Unterschiede übrig bleiben, obwohl das Signal unterwegs durch einen D/A-Wandler und einen A/D-Wandler ging, der kommt bald darauf daß das gar nicht so einfach ist. Zum Beispiel muß man den Pegel exakt anpassen. Wer weiß schon genau wie sich auf der D/A-A/D-Strecke der Pegel verändert? Wenn man Differenzen von z.B. -80dB gegenüber dem Nutzsignal auflösen will, dann muß man den Pegel auf besser als 0,01% genau abstimmen. Sind die Wandler überhaupt so genau?
Und was ist die exakte Laufzeit zwischen Wiedergabe und Aufnahme? Es gibt keinen Grund anzunehmen, daß die eine ganzzahlige Anzahl Samples beträgt. Man muß also die Zeitverzögerung in Bruchteilen von Samples kompensieren können. Und was ist mit eventuellen frequenzabhängigen Phasenverschiebungen? Die können dazu führen, daß man die Differenz gar nicht "nullen" kann, völlig unabhängig von Jitterproblemen.
Man muß daher ausloten, wie gut die Differenzbildung eigentlich ist, also in welchen Grenzen man noch halbwegs sicher sagen kann daß eine eventuelle Differenz noch auf Jitter zurückgeht, und nicht auf etwas Anderes. Auch dafür hätte man sich Kontrollsignale gewünscht.
Ein weiteres Indiz ist, daß es gar nicht so einfach ist, mit einem so niederfrequenten Jittersignal wie im vorliegenden Fall, und mit Frequenzmodulation (FM), solche kleinen Jitteramplituden hinzukriegen. Das liegt daran, daß die Jitteramplituden bei FM immer größer werden, je kleiner die Modulationsfrequenz wird. Um kleine Jitteramplituden bei niedriger Frequenz hinzukriegen, muß man mit recht kleinen Signalpegeln modulieren. Das liegt technisch gesprochen daran, daß die Phasenabweichungen (also die Jitteramplitude) bei FM proportional zum
Integral des Modulationssignals sind. Und das Integral wird immer größer, je kleiner die Jitterfrequenz wird. Einfacher hätte man es mit der Phasenmodulation (PM), einem engen Verwandten der FM, wo die Jitteramplitude von der Frequenz des Modulationssignals unabhängig ist. Dazu bräuchte man einen Signalgenerator, der nicht nur die FM, sondern auch die PM anbietet, was aber nicht auf das Gerät zutrifft, das Dave Hill verwendet hat.
Ich habe das mal mit meinen Mitteln nachgestellt, und dabei gefunden, daß bei einer Modulationsfrequenz von 300 Hz (also der höchste von Dave Hill benutzte Wert) der Jitter bereits an die 5 ns (peak-to-peak) beträgt, wenn man die kleinstmögliche Modulationsamplitude im Generator wählt (100 Hz peak frequency deviation). Mit kleineren Modulationsfrequenzen wird's noch extremer. Ich habe dabei als Taktfrequenz mal 24,576 MHz gewählt, weiß aber nicht ob das die gleiche ist wie bei Dave Hill, weil er sich darüber ebenfalls ausschweigt.
Noch ein Indiz ist, daß das Oszilloskop gar nicht genug Speicher hat, um selbst bei der günstigsten Wahl der Meßmethode solche niedrigen Jitterfrequenzen wie bei Dave's Versuchen ohne Abschwächung zu messen. Dave Hill hat wohl mit ziemlicher Sicherheit die höchste mögliche Samplingfrequenz des Oszilloskops gewählt, damit er die bestmögliche Auflösung bekommt. Das wären 20 Gs/s, also eine Abtastung alle 50 ps. Selbst wenn er unter diesen Umständen die TIE-Messung mit interner Taktrekonstruktion gewählt hat, was noch die günstigste Variante wäre, dann reicht das schon bei 300 Hz kaum für eine komplette Periode des Jittersignals, und das setzt noch den maximalen Speicherausbau des Oszilloskops voraus, was nur als (teure) Option zu kriegen ist. Bei 10 Hz ist das noch umso extremer. Da Dave Hill allerdings keine Angaben über seine Wahl der Meßmethode macht, kann es auch sein daß es noch wesentlich schlimmer ist. Wenn schon der denkbar günstigste Fall eine Abschwächung des gemessenen Jitters zur Folge hat, dann befürchte ich Ungünstiges.
Wenn man den Jitter ohne Abschwächungseffekt bis hin zu niedrigen Frequenzen mit dem Oszilloskop korrekt messen will, dann braucht es einen etwas anderen Ansatz, der dann auch nicht so viel Speicher im Oszilloskop braucht. Dafür braucht man allerdings eine passende Triggerquelle für das Oszilloskop, welche vom verjitterten Signal unabhängig ist. Ideal wäre es, wenn man aus dem Signalgenerator auch das unmodulierte Signal kriegen könnte, um damit das Oszilloskop zu triggern. Also sozusagen eine Anzapfung zwischen dem Generator und dem Modulator. Das unmodulierte Signal hätte dann die Rolle einer Referenz, relativ zu welcher man dann die Zeitabweichungen des verjitterten Signals messen könnte. Diese Referenz müßte dann nicht im Oszilloskop aus dem verjitterten Signal selbst abgeleitet werden, was - wie wir gesehen haben - in unserem Fall nur mit sehr viel Speicher möglich wäre.
Der verwendete Generator bietet aber auch diese Möglichkeit nicht. Man hat keinen Zugriff auf das unmodulierte Signal während die Modulation aktiv ist. Deswegen kommt diese Variante bei Dave's Versuchsaufbau nicht in Betracht.
Die einfachste Möglichkeit, die Dave Hill in dieser Situation gehabt hätte, würde in etwa so aussehen: Da der Generator auf seiner Rückseite das Signal seines eigenen 10 MHz Referenzoszillators ausgibt, könnte mit Hilfe eines externen Frequenzteilers ein Triggersignal für das Oszilloskop erzeugt werden, dessen Frequenz ohne Rest aus der eingestellten "Trägerfrequenz" teilbar ist. Beispielsweise könnte man bei der von mir angenommenen Taktfrequenz von 24,576 MHz einen Teilerfaktor von 625 verwenden. 10 MHz geteilt durch 625 ergibt 16 kHz, und 24,576 MHz geteilt durch 1536 ist auch 16 kHz. Damit kriegt man dann wieder ein stabiles Bild auf dem Oszilloskop, mit dem man den Jitter messen kann. Man nimmt damit gewissermaßen den Referenzoszillator des Generators als ideal an, und mißt den Jitter relativ dazu. Ideal ist er zwar nicht wirklich, aber in diesem Kontext ist sehr wahrscheinlich keine bessere Referenz verfügbar. So eine Messung ist dann unabhängig von der Jitterfrequenz und liefert damit den "tatsächlichen" Jitter.
Aber das hat wohl kaum stattgefunden, sonst hätte es darauf einen Hinweis in Dave Hill's Beschreibung gegeben. Wir müssen also davon ausgehen, daß er den Jitter auf eine Art und Weise gemessen hat, welche für niedrige Jitterfrequenzen relativ unempfindlich war. Um welchen Faktor sie unempfindlich war, gemessen an der Empfindlichkeit für hohe Jitterfrequenzen, bleibt unklar. Es können leicht etliche Zehnerpotenzen gewesen sein.
Wenn er den Jitter durch seine Meßmethode abgeschwächt hat, dann war der tatsächliche Jitter auf seinen Hörbeispielen stärker als was er angibt. Tendenziell ist die Diskrepanz umso größer, je niedriger die Jitterfrequenzen sind. Am extremsten wird sie bei seiner Datei E sein.
Übrigens merkt man bei solchen Jittermessungen, die auch sehr niedrige Jitterfrequenzen gleichberechtigt erfassen, die Effekte sehr niederfrequenter Instabilitäten von Oszillatoren, die sich als überraschend dominant herausstellen. Das führt dazu, daß man in der Praxis eine untere Grenzfrequenz in seine Meßanordnung einbauen muß, sonst wird eine sinnvolle Jittermessung unmöglich. Das ist zum Teil eine Folge der oben angesprochenen integrierenden Eigenschaft der Frequenzmodulation, die bewirkt, daß die Zeitabweichung ohne Grenze ansteigt wenn man Modulation bis herunter zur Frequenz 0 (DC) zuläßt. Das ist ein weiteres Indiz, denn Dave Hill gibt für Datei E an, daß das Modulationssignal durch einen Tiefpaß bei 10 Hz begrenzt wurde, was impliziert daß es bis zu 0 Hz herabreicht. Das kann nur funktioniert haben wenn eine untere Bandbegrenzung stillschweigend auf andere Weise zustande kam, was wiederum auf eine Abschwächung des Jittereffektes bei niedrigen Frequenzen hindeutet.
Das war jetzt eine ziemliche Packung an technischem Detailkram, schauen wir uns also mal an, was das unterm Strich bedeutet:
Dave Hill's Informationen über die Art und Weise, wie die Dateien zustande kamen, reichen bei Weitem nicht um die Jitterwerte einordnen zu können. Man kann sich aber mit genug Sachverstand einen Reim darauf machen, wie plausibel seine Angaben sind. Dabei kommt heraus, daß sie eigentlich nicht stimmen können, wahrscheinlich weil er eine Meßmethode benutzt hat, die genau den Jitter, den er verwendet hat, deutlich abgeschwächt hat. Was er für einen Jitter unterhalb von einer Nanosekunde hält, kann damit in Wirklichkeit Jitter im Mikrosekundenbereich sein.
Ich habe vier Wochen lang versucht, von Dave Hill weitergehende Informationen über seinen Meßaufbau zu bekommen. Ich habe mich sogar mit ihm auf der jüngsten AES-Convention in New York getroffen, um mit ihm persönlich zu reden. Das waren allesamt höfliche und rücksichtsvolle Konversationen, die aber keinerlei konkretes Ergebnis erbracht haben. Ich hätte erwartet, daß etliche der mich interessierenden Informationen, z.B. bzgl. der verwendeten konkreten Jitter-Meßmethode im Oszilloskop, aus dem Gedächtnis zu beantworten gewesen wären. Aber es kam nur allgemeines Blabla und Ausweichen, egal wie konkret ich fragte. Es bleibt mir nichts anderes, als zu glauben daß Dave keinerlei weiterführende Informationen geben wollte. Stattdessen hat er mich mit diversen Links auf Webseiten und Dokumente zu beschäftigen versucht, die keinerlei Nutzen für mein Anliegen gebracht haben. Die einzige Information, die im Zusammenhang mit meinem Anliegen weiter geholfen hat als das was ich bereits aus den Dokumenten auf der Webseite wußte, war die Angabe, daß sein Oszilloskop nur 2 MSamples Speicher hat, also die Grundausstattung und nicht etwa den Maximalausbau von 64 MSamples, was meinen Verdacht umso wahrscheinlicher macht. Ich vermute inzwischen, daß er mir das nicht mitgeteilt hätte, wenn er geahnt hätte daß ich damit etwas anfangen kann. Auf die konkrete Frage welche Meßmethode er beim Oszilloskop gewählt hatte, antwortete er mir zum Beispiel zweimal, es sei "Peak-to-Peak" gewesen (was schon auf der Webseite steht und nicht meine Frage war), obwohl ich eigentlich schon erklärt hatte was ich genau wissen wollte. Beim dritten Mal hat er mich dann vertröstet.
Ich glaube man macht keinen Fehler wenn man annimmt daß Dave Hill will, daß man an die Hörbarkeit von Jitter im Subnanosekunden-Bereich glaubt. Ob das tatsächlich stimmt scheint ihn nicht zu interessieren, und es ist ihm offensichtlich unrecht wenn dem jemand auf den Grund zu gehen versucht, weshalb er es auch hartnäckig vermieden hat, irgend etwas dazu beizutragen das mir das einfacher hätte machen können. Er war an meinem Verdacht, daß da etwas nicht stimmt, sichtlich uninteressiert, und hat abzuwiegeln versucht, indem er darauf hinwies, daß es ihm ja nicht auf's Messen ankomme, sondern auf das Hörtraining. Eine Antwort darauf, was ein Hörtraining wert ist, wenn die zugrunde liegenden Angaben grundfalsch sind, hat er nicht gegeben. Und er hat auch keinerlei Informationen oder Material zur Verfügung gestellt, die irgend eine Art von Plausibilitätscheck erleichtert hätte.
Ich sage daher: Er betreibt Desinformation, und er weiß das auch. Sein Verhalten ergibt keinen anderen Sinn. Ich muß das eingestehen, obwohl ich vorher einiges von seinen Entwicklerfähigkeiten gehalten habe, und ihm gegenüber sicher nicht feindlich eingestellt war. Er hätte alle Möglichkeiten gehabt, sich als integer zu präsentieren. Stattdessen hat er versucht, mich am ausgestreckten Arm verhungern zu lassen, und seine Message auf der Webseite zu retten, von der er wissen mußte daß sie nicht stimmt.
Vielleicht meint jetzt jemand, daß das zu weit geht und ich gar nicht wissen kann welches Motiv Dave Hill hat. Vielleicht ist das ja gar keine Absicht, sondern im besten Wissen und Gewissen passiert.
Abgesehen davon daß das nicht zu seinem gezeigten Verhalten passen würde, würde ich dazu auch noch folgendes Antworten: Wenn das wirklich ernst und ehrlich gemeint gewesen sein sollte, was soll man dann von jemandem denken, der Andere über die Hörbarkeit von Jitter weiterbilden will, aber anscheinend die unterschiedlichen Jittermeßmethoden nicht auseinander halten kann? Nicht weiß welchen Unterschied das insbesondere bei niedrigen Jitterfrequenzen macht? Der auch anscheinend die anderen Untersuchungen zur Jitterhörbarkeit nicht kennt, oder sich nichts dabei denkt daß die zu ganz anderen Ergebnissen kommen? Der keinen Anlaß sieht, in seinen Aufbau die eine oder andere Plausibilitätskontrolle einzubauen, die ihm hätte sagen können wie plausibel sein Ergebnis ist.
Vielleicht macht das klar genug, warum mir so etwas gegen den Strich geht. Seriös ist anders.