Kürzlich machte mich ein Blogleser auf dieses aktuelle Beispiel aufmerksam. Es ist ein Video auf Englisch, aber die meisten von Euch werden's wohl verstehen. Der "Präsentator" David Domminney Fowler gibt von sich an, er sei "Programmer, Producer and Professional Musician". Was Digital-Audio angeht scheint er jedenfalls nicht über die Basics hinaus gekommen zu sein.
Was macht er falsch? Ich handle das mal in Listenform ab:
Fowler kennt offenbar die menschlichen Hörfähigkeiten schlecht.
Es gibt immer wieder Leute, die behaupten sie könnten noch weit darüber was hören, aber es ist die Frage woher sie das haben. Man kann auch auf Verzerrungen und andere "Falschmeldungen" hereinfallen, wenn man nicht aufpaßt. Wen's interessiert: Hört Euch einmal einen aufsteigenden "Sweep" an, mit Kopfhörer oder per Lautsprecher. So etwas kann man als Datei entweder mit geeigneter Software selbst erzeugen, oder man findet es im Netz. Es sollte nicht zu schnell gehen damit man auch was mitkriegt. Wenn der Pfeifton extrem hoch wird, wird er auch leiser und verschwindet irgendwann. Sollte er in der Tonhöhe zwischendurch wieder niedriger werden, oder springen, dann stimmt was nicht, und man hört "Störungs-Artefakte", aber nicht die höhere Frequenz. Ich würde wetten daß von Euch Lesern so gut wie niemand über 20 kHz hinaus kommen wird. Die allermeisten vermutlich nicht mal über 16 kHz. Das ist normal.
Der Tonhöhenumfang eines üblichen Konzertflügels reicht in etwa von 27 Hz bis knapp unter 9000 Hz. Manche Instrumente haben ein paar Tasten mehr und kommen damit etwas weiter. Für die Musik spielt das aber so gut wie keine Rolle. Andere Instrumente haben tendenziell weniger Tonumfang, allenfalls üppig ausgestattete Kirchenorgeln kommen noch darüber hinaus. Auch der Hinweis auf Obertöne ("Harmonische") zieht nicht wirklich, denn die Töne, für die die Obertöne klangrelevant sind, sind nicht die ganz hohen Töne. Die Obertöne der höchsten Flügelsaite hört so gut wie niemand. Folglich kann man sagen daß sich die Musik, selbst anspruchsvolle Musik, im Frequenzbereich zwischen etwa 30 und 8000 Hz abspielt. Darunter und darüber spielt nur noch eine geringe Rolle, besonders mit steigendem Alter des Hörers.
Ich finde man sollte das als professioneller Musiker und Tonschaffender wissen.
Der üblicherweise angegebene Hörbereich von 20 Hz bis 20 kHz ist damit schon eine großzügige Festlegung, die nur noch von sehr wenigen Personen und Situationen übertroffen werden dürfte, und sie hat darüber hinaus den Vorteil der Einfachheit. Deswegen wurde sie zugrunde gelegt, als man die CD und die weiteren Digital-Audio-Systeme eingeführt hat. Und wie es zu den 44,1 kHz kam ist auch recht einfach erklärbar: Es hat mit dem Mastering zu tun, das in der Anfangsphase der CD nicht auf dem Computer geschah, sondern mit Hilfe von PCM-Adaptern, die das digitale Audiosignal in ein analoges Videosignal umgewandelt haben, damit man es auf Videobändern aufnehmen konnte. Die Abtasftrequenz mußte deswegen zu der Videofrequenz passen, und 44,1 kHz war eine der möglichen Frequenzen. Da hat Fowler einfach ahnungslos vor sich hin spekuliert.
Fowler scheint nichts von Dither gehört zu haben.
Nochmal zur Bestätigung: Mit ein klein wenig Rauschen wird die Digital-Audio-Technik zur Analog-Audio-Technik äquivalent, und in beiden Fällen passiert das Gleiche: Man hat einen Rauschteppich, und Signale gehen im Rauschteppich unter, wenn sie leiser werden. Bei 24 Bit ist einfach der Rauschteppich leiser als bei 16 Bit, aber in beiden Fällen ist, wie jeder leicht nachprüfen kann, der Rauschteppich sowieso schon niedriger als der von analogen Medien.
Wenn Fowler Probleme hat mit kleinen Signalen, die rauh und "grainy" werden wenn sie leiser werden, dann hat er einen Fehler, den er dingfest machen sollte. Entweder es fehlt Dither, oder er hat irgendwelche Verzerrungen im Kleinsignalbereich, möglicherweise gar nicht im digitalen Teil seiner Anlage sondern im analogen. Mit den Grundlagen der Digital-Audio-Technik hat es nichts zu tun.
Das bedeutet auch, daß es nicht viel bringt, die Anzahl der möglichen Stufen der Codierungen miteinander zu vergleichen. Klar sind mehr als 16 Millionen viel eindrücklicher als nur gut 65000, aber was heißt das für das Audiosignal? Nicht viel. Da wir gesehen haben daß der Unterschied im Pegel des Rauschteppichs liegt, ist es viel sinnvoller, diesen Unterschied zu benennen. Dabei kommt die viel nützlichere Zahl heraus. Nämlich daß durch die zusätzlichen 8 bit der Rauschteppich um etwa 48 dB niedriger ist. Das ist ein Maß, das im Audiokontext einen Sinn ergibt, im Gegensatz zu irgendwelchen freischwebenden Zahlen.
Es gibt keine "Centerline", durch die sich die Bit-Tiefe halbiert.
Das ist richtig und falsch zugleich. Richtig ist natürlich, daß man beide Halbwellen codieren können muß. Der von ihm vernachlässigte Punkt ist aber, daß es diese Mittellinie nicht wirklich gibt. Es ist ein darstellerisches Artefakt ohne Entsprechung im physikalischen Signal. Man hört keine Gleichspannung, also keine Frequenz Null. Eventuell vorhandene Gleichspannungen werden sogar von Audiosystemen weggefiltert, denn sie können die Technik stören. Das bedeutet man könnte die Nullinie beliebig hoch oder runter schieben, ohne daß sich etwas ändert. Speziell kann man genauso gut so tun als wäre die Nullinie ganz unten, und alle Zahlen positiv. Der für Audio relevante Signalanteil würde sich dadurch nicht ändern; es gäbe nur einen irrelevanten Gleichspannungs-Offset.
Ergo: Man hat 16 Bit für die Codierung zur Verfügung, das ist alles was man wissen muß.
Immerhin, Fowler hat auch ein paar gute Hinweise in seinem Vortrag, nämlich z.B. was Headroom angeht, und Clipping, besonders wenn man Signale zusammen mischt. Könnte also schlimmer sein. Trotzdem, mir wäre es lieber, wenn die falschen Vorstellungen korrigiert würden, anstatt als Tutorial weiter unter den Leuten verbreitet zu werden.
Hi,
AntwortenLöschender Link zum Video ist leider falsch codiert eingegeben worden (und enthält noch den Email referrer), bitte fixen.