Donnerstag, 29. Oktober 2015

Irreführung gut gemeint

Es ist schon erstaunlich wie die Grundlagen von Digital-Audio noch Jahrzehnte nach der technischen Einführung falsch dargestellt werden. Es ist anscheinend so, daß sich die falschen Darstellungen durch stetige Weiterverbreitung immer wieder selbst bestätigen und in Umlauf halten. Und sie werden so sogar von gutmeinenden Leuten weiterverbreitet, die meinen damit Anderen einen Dienst zu tun, dabei aber eher zur Verwirrung beitragen.

Kürzlich machte mich ein Blogleser auf dieses aktuelle Beispiel aufmerksam. Es ist ein Video auf Englisch, aber die meisten von Euch werden's wohl verstehen. Der "Präsentator" David Domminney Fowler gibt von sich an, er sei "Programmer, Producer and Professional Musician". Was Digital-Audio angeht scheint er jedenfalls nicht über die Basics hinaus gekommen zu sein.

Was macht er falsch? Ich handle das mal in Listenform ab:
  • Fowler kennt offenbar die menschlichen Hörfähigkeiten schlecht. 

Es ist keineswegs so daß die Menschen Frequenzen bis hoch zu 22050 Hz hören würden. So genau kann man die Grenze ohnehin nicht ziehen, denn je höher die Frequenzen werden, desto unempfindlicher wird das Ohr, und der Ton muß immer lauter werden damit man noch was hört. Siehe die alten Kurven von Fletcher/Munson oder Robinson/Dadson oder die normierten von der ISO. Die hören üblicherweise schon bei 16 kHz auf, darüber hören sehr viele Leute bereits nichts mehr, und diejenigen die noch was hören gehören zu den jüngeren Semestern.

Es gibt immer wieder Leute, die behaupten sie könnten noch weit darüber was hören, aber es ist die Frage woher sie das haben. Man kann auch auf Verzerrungen und andere "Falschmeldungen" hereinfallen, wenn man nicht aufpaßt. Wen's interessiert: Hört Euch einmal einen aufsteigenden "Sweep" an, mit Kopfhörer oder per Lautsprecher. So etwas kann man als Datei entweder mit geeigneter Software selbst erzeugen, oder man findet es im Netz. Es sollte nicht zu schnell gehen damit man auch was mitkriegt. Wenn der Pfeifton extrem hoch wird, wird er auch leiser und verschwindet irgendwann. Sollte er in der Tonhöhe zwischendurch wieder niedriger werden, oder springen, dann stimmt was nicht, und man hört "Störungs-Artefakte", aber nicht die höhere Frequenz. Ich würde wetten daß von Euch Lesern so gut wie niemand über 20 kHz hinaus kommen wird. Die allermeisten vermutlich nicht mal über 16 kHz. Das ist normal.

Der Tonhöhenumfang eines üblichen Konzertflügels reicht in etwa von 27 Hz bis knapp unter 9000 Hz. Manche Instrumente haben ein paar Tasten mehr und kommen damit etwas weiter. Für die Musik spielt das aber so gut wie keine Rolle. Andere Instrumente haben tendenziell weniger Tonumfang, allenfalls üppig ausgestattete Kirchenorgeln kommen noch darüber hinaus. Auch der Hinweis auf Obertöne ("Harmonische") zieht nicht wirklich, denn die Töne, für die die Obertöne klangrelevant sind, sind nicht die ganz hohen Töne. Die Obertöne der höchsten Flügelsaite hört so gut wie niemand. Folglich kann man sagen daß sich die Musik, selbst anspruchsvolle Musik, im Frequenzbereich zwischen etwa 30 und 8000 Hz abspielt. Darunter und darüber spielt nur noch eine geringe Rolle, besonders mit steigendem Alter des Hörers.

Ich finde man sollte das als professioneller Musiker und Tonschaffender wissen.

Der üblicherweise angegebene Hörbereich von 20 Hz bis 20 kHz ist damit schon eine großzügige Festlegung, die nur noch von sehr wenigen Personen und Situationen übertroffen werden dürfte, und sie hat darüber hinaus den Vorteil der Einfachheit. Deswegen wurde sie zugrunde gelegt, als man die CD und die weiteren Digital-Audio-Systeme eingeführt hat. Und wie es zu den 44,1 kHz kam ist auch recht einfach erklärbar: Es hat mit dem Mastering zu tun, das in der Anfangsphase der CD nicht auf dem Computer geschah, sondern mit Hilfe von PCM-Adaptern, die das digitale Audiosignal in ein analoges Videosignal umgewandelt haben, damit man es auf Videobändern aufnehmen konnte. Die Abtasftrequenz mußte deswegen zu der Videofrequenz passen, und 44,1 kHz war eine der möglichen Frequenzen. Da hat Fowler einfach ahnungslos vor sich hin spekuliert.
  • Fowler scheint nichts von Dither gehört zu haben.

Dither ist ein kleines bißchen Rauschen, das digitale Signale so macht wie analoge. Es ist wichtig, weil damit seine ganze Erklärung mit der Bit-Tiefe obsolet wird. Mit Dither degeneriert ein kleiner werdendes Signal nicht zur Rechteckform, wie er suggeriert, sondern geht - genau wie im Analogen - allmählich im Rauschen unter.
Nochmal zur Bestätigung: Mit ein klein wenig Rauschen wird die Digital-Audio-Technik zur Analog-Audio-Technik äquivalent, und in beiden Fällen passiert das Gleiche: Man hat einen Rauschteppich, und Signale gehen im Rauschteppich unter, wenn sie leiser werden. Bei 24 Bit ist einfach der Rauschteppich leiser als bei 16 Bit, aber in beiden Fällen ist, wie jeder leicht nachprüfen kann, der Rauschteppich sowieso schon niedriger als der von analogen Medien.

Wenn Fowler Probleme hat mit kleinen Signalen, die rauh und "grainy" werden wenn sie leiser werden, dann hat er einen Fehler, den er dingfest machen sollte. Entweder es fehlt Dither, oder er hat irgendwelche Verzerrungen im Kleinsignalbereich, möglicherweise gar nicht im digitalen Teil seiner Anlage sondern im analogen. Mit den Grundlagen der Digital-Audio-Technik hat es nichts zu tun.

Das bedeutet auch, daß es nicht viel bringt, die Anzahl der möglichen Stufen der Codierungen miteinander zu vergleichen. Klar sind mehr als 16 Millionen viel eindrücklicher als nur gut 65000, aber was heißt das für das Audiosignal? Nicht viel. Da wir gesehen haben daß der Unterschied im Pegel des Rauschteppichs liegt, ist es viel sinnvoller, diesen Unterschied zu benennen. Dabei kommt die viel nützlichere Zahl heraus. Nämlich daß durch die zusätzlichen 8 bit der Rauschteppich um etwa 48 dB niedriger ist. Das ist ein Maß, das im Audiokontext einen Sinn ergibt, im Gegensatz zu irgendwelchen freischwebenden Zahlen.
  • Es gibt keine "Centerline", durch die sich die Bit-Tiefe halbiert.

Fowler behauptet, daß der Zahlenvorrat letztlich deswegen halbiert ist, weil sich eine Welle ja aus negativen und positiven Halbwellen zusammensetzt, also einen Teil unter und einen über der Mittellinie, und damit letztlich in jede Richtung nur die Hälfte der Zahlen zur Verfügung steht.

Das ist richtig und falsch zugleich. Richtig ist natürlich, daß man beide Halbwellen codieren können muß. Der von ihm vernachlässigte Punkt ist aber, daß es diese Mittellinie nicht wirklich gibt. Es ist ein darstellerisches Artefakt ohne Entsprechung im physikalischen Signal. Man hört keine Gleichspannung, also keine Frequenz Null. Eventuell vorhandene Gleichspannungen werden sogar von Audiosystemen weggefiltert, denn sie können die Technik stören. Das bedeutet man könnte die Nullinie beliebig hoch oder runter schieben, ohne daß sich etwas ändert. Speziell kann man genauso gut so tun als wäre die Nullinie ganz unten, und alle Zahlen positiv. Der für Audio relevante Signalanteil würde sich dadurch nicht ändern; es gäbe nur einen irrelevanten Gleichspannungs-Offset.

Ergo: Man hat 16 Bit für die Codierung zur Verfügung, das ist alles was man wissen muß.


Immerhin, Fowler hat auch ein paar gute Hinweise in seinem Vortrag, nämlich z.B. was Headroom angeht, und Clipping, besonders wenn man Signale zusammen mischt. Könnte also schlimmer sein. Trotzdem, mir wäre es lieber, wenn die falschen Vorstellungen korrigiert würden, anstatt als Tutorial weiter unter den Leuten verbreitet zu werden.

1 Kommentar:

  1. Hi,

    der Link zum Video ist leider falsch codiert eingegeben worden (und enthält noch den Email referrer), bitte fixen.

    AntwortenLöschen