Sonntag, 8. Mai 2011

Schöne Rechtecke

Audiosignale kann man im Zeitbereich oder im Frequenzbereich darstellen. Im Zeitbereich sieht man einen Wellenzug, wie man ihn typischerweise auf dem Schirm eines Oszilloskops sehen würde, oder in der Anzeige eines Sound-Editors auf dem PC. Im Frequenzbereich sieht man ein Spektrum, wo einzelne Töne als senkrechte Linien über einem Rauschteppich erscheinen.

Die beiden Darstellungen sind Sichtweisen auf die gleiche Realität, so unterschiedlich sie auch aussehen mögen. Viele Leute haben Schwierigkeiten sich die Verbindung zwischen diesen beiden Darstellungen vor dem geistigen Auge zu vergegenwärtigen. Was bedeutet eine bestimmte Wellenform für das Spektrum? Wie wirken sich Änderungen im Spektrum auf die Wellenform aus? Was hat das alles zu tun mit dem was man hört?

Solche Fragen sind sehr wichtig für das Verständnis der diversen Diagramme und Meßbildchen die man im Zusammenhang mit der Audiotechnik antrifft. Sogar Leute die immer wieder betonen daß es ihnen nur auf den Klang ankäme arbeiten überraschend oft mit solchen Darstellungen. Es hilft also nicht bloß Fachleuten wenn man sich über die Zusammenhänge ein paar Gedanken macht. Meßdiagramme findet man eben auch in Testzeitschriften, selbst wenn die im Vergleich zu den Klangbeschreibungen bloß wenig Platz einnehmen.

Darstellungen im Zeitbereich haben auf der waagrechten Achse eine Zeitskala. Für ein Sinussignal von 1 kHz braucht man eine Millisekunde um eine ganze Periode darzustellen. Eine entsprechende Darstellung werden viele Leute kennen. Ein Beispiel aus Wikipedia zeigt eine solche Periode als mathematische Funktion, auf dem Oszilloskop sieht das ganz ähnlich aus.

Im Frequenzbereich zeigt die waagrechte Achse Frequenzen. Meist ist die Darstellung logarithmisch, das heißt daß für den Bereich von 100 Hz bis 1 kHz genauso viel Platz ist wie für 1kHz bis 10 kHz. Für den Audiobereich von 20 Hz bis 20 kHz bedeutet das, daß die Mitte bei logarithmischer Darstellung etwa bei 600 Hz ist, während sie bei linearer Darstellung etwa bei 10 kHz ist. Ein Sinussignal von 1 kHz ist in der Spektraldarstellung eine vertikale Linie bei der 1 kHz-Markierung. Das sieht etwa so aus. Auffällig ist dabei daß man nicht nur eine vertikale Linie sieht, sondern eine glockenförmige Kurve. Was dahinter steckt, dazu kommen wir später. In der Theorie wäre es nur eine senkrechte Linie.

Wichtig ist, daß man sich klar macht daß beide Darstellungen das gleiche bedeuten, so unterschiedlich sie auch aussehen mögen. Das bedeutet im positiven Sinn, daß man sich für jeden Fall diejenige Darstellung aussuchen kann, durch welche das konkrete Problem besser zu erkennen und zu begreifen ist. Umgekehrt kann man das Verständnis aber auch verkomplizieren indem man eine unpassende Darstellung wählt. Erfahrenene Ingenieure haben das so weit verinnerlicht, daß sie zwischen den Bereichen nahtlos wechseln, oft ohne sich dessen bewußt zu sein. Ein Laie hat dann womöglich Probleme zu folgen, wenn nicht klar wird welcher Bereich jetzt gemeint ist. Wer von einem Spektrum redet meint üblicherweise den Frequenzbereich. Wenn jemand von Phase redet hat er üblicherweise den Zeitbereich im Sinn.

Was hat das alles mit dem zu tun was man hört?

Man muß dazu erst mal das Ohr selbst ansehen, und wie es arbeitet. Es arbeitet durchaus nicht wie ein Mikrofon, das die als Druckschwankungen in der Luft ankommenden Wellenzüge direkt in elektrische Wellenzüge verwandelt. Das Ohr produziert zwar ebenfalls elektrische Signale in den Nerven, aber die sehen völlig anders aus. Vor der Umwandlung in Nervenreize werden die Frequenzen räumlich voneinander getrennt, und zwar in der Gehörschnecke. Die Gehörschnecke ist eine Art mechanischer Spektrumanalysator, und die Sinneshärchen darin, die die Vibrationen erkennen und in Nervenimpulse umwandlen, sind dadurch jeweils auf ihre Frequenz spezialisiert. Wenn man das auf Diagramme im Frequenzbereich überträgt, dann könnte man sagen daß die waagrechte Achse eines solchen Diagramms in der Gehörschnecke aufgewickelt ist. Die tiefen Frequenzen sind weit innen zu finden, die hohen Frequenzen am Anfang der Schnecke.

Das bedeutet daß die Darstellung im Frequenzbereich näher am Ohr ist als die Darstellung im Zeitbereich. Wenn es um die Hörbarkeit oder generell um den Einfluß auf den Höreindruck geht, dann sind Darstellungen besser, die die Frequenz auf der waagrechten Achse haben. Darstellungen im Zeitbereich sind wesentlich problematischer, was den Bezug zum Gehör angeht.

Nicht umsonst sind daher viele Diagramme zu Audiogeräten im Frequenzbereich dargestellt. Bei Lautsprechern oder Mikrofonen wird der Pegel über die Frequenz aufgetragen (der "Frequenzgang"), so daß man gleich sieht ob bestimmte Frequenzen bevorzugt werden, und sich dadurch eine klangliche Charakteristik ergibt. Bei vielen Geräten trägt man über die Frequenz auf was sich aus einem Sinussignal ergibt, weil man so leicht sieht ob harmonische Verzerrungen vorhanden sind. Im Zeitbereich würde das weit schwieriger zu sehen sein.

Dummerweise ist die Darstellung im Frequenzbereich schwieriger zu kriegen wie die im Zeitbereich. Es ist heutzutage wesentlich einfacher als vor ein paar Jahrzehnten, aber auch heute ist noch das Oszilloskop, oder ähnliche Mittel, die solche Kurven anzeigen können, das bevorzugte Hilfsmittel, um Audio optisch darzustellen und zu messen. Gerade auch im Hobby-Bereich findet man schnell mal ein Oszilloskop-Bild, aber daß mal jemand einen Frequenzgang oder ein Verzerrungsspektrum mißt ist immer noch deutlich seltener.

Nun will ich bestimmt nicht gegen das Oszilloskop argumentieren. Für einen Selbstbauer wie für einen Ingenieur ist das Oszi nach dem Multimeter und dem Lötkolben immer noch und mit vollem Recht das wichtigste Arbeitsgerät auf dem Labortisch, aber das liegt daran daß es sehr gut dazu taugt in einer Schaltung Probleme aufzuspüren und herauszufinden warum sie nicht wie erwartet funktioniert. Mit klanglichen Fragen hat das erst einmal gar nichts zu tun. Klar gibt es klangliche Effekte die auch auf dem Oszilloskopschirm ihre Spuren hinterlassen, und klar gibt's in etlichen Fällen die Möglichkeit aus einem Schirmbild auf dem Oszi auf ein klangliches Problem zu schließen, aber meine Erfahrung und mein Argument ist, daß das alles andere als einfach ist, und daß dazu einige Erfahrung nötig ist, die man von Laien oder Anfängern nicht erwarten kann.

Wenn Klangdiskussionen mit Oszilloskopbildern untermauert werden ist daher immer Vorsicht oder gar Skepsis angebracht. Auf diesem Gebiet verarschen sich Leute regelmäßig selbst, oder sie verarschen Andere.

Nach dieser langen Einleitung bin ich damit bei meiner Überschrift angekommen, denn dieses Problem findet man nirgends deutlicher und eindeutiger als bei der Diskussion um die Wiedergabe von Rechtecksignalen. Egal ob es um D/A-Wandler, um Verstärker oder um andere Geräte geht, man findet fast unweigerlich Leute die mit Rechtecksignalen auf die Suche nach Problemen gehen, die sie dann für klangliche Eigenheiten verantwortlich machen. Während man mit Sinussignalen oft nichts Erwähnenswertes findet, findet man mit einem Rechtecksignal eigentlich fast immer etwas "Auffälliges". Entweder sind die Flanken, die eigentlich maximal steil sein sollten, mehr oder weniger "verschliffen", oder es gibt Überschwinger, oder die horizontalen Strecken sind schräg oder gebogen.

Die "Fehler" sehen oft ziemlich drastisch aus, und für einen Laien wird praktisch unmittelbar klar daß das erhebliche klangliche Einflüsse haben muß, wenn die Wellenform derart verbogen wird. Da ist eigentlich gar keine weitere Erklärung nötig, die bildliche Darstellung zwingt einen fast zur entsprechenden Schlußfolgerung. Sie ist aber meist falsch.

Mit verschliffenen Flanken assoziiert man z.B. gerne Probleme im Impulsverhalten oder der "Präzision" oder der "Schnelligkeit" der Anlage. Einfach weil das nahe zu liegen scheint. Es gibt aber keine "hard facts" die das bestätigen würden. Es ist eine "Selbstverständlichkeit", die sich aus der optischen Darstellung nahelegt, aber nicht aus dem Klang selbst. Die suggestive Kraft des Bildes wirkt da, mit dem Ohr hat es nichts zu tun.

Ein schönes Rechteck braucht vor allem eine große Bandbreite. Die Beziehung zwischen dem Zeitbereich und dem Frequenzbereich wird mathematisch beschrieben durch die Fouriertransformation. Wenn man die für ein Rechtecksignal ausführt stellt man fest daß im Rechtecksignal nicht bloß die Grundfrequenz drin ist, sondern auch die "ungeraden Oberwellen" bis ins Unendliche (siehe hier z.B. eine Darstellung eines Spektrumanalysators, diesmal mit linearer Frequenzachse anstatt der üblichen logarithmischen Darstellung, weil damit die Oberwellen gleiche Abstände voneinander haben). Also die dreifache Frequenz, die fünffache, und so weiter. Das Rechtecksignal hat ein unendliches Spektrum, und da ein reales physikalisches System immer eine begrenzte Bandbreite hat kann ein ideales Rechtecksignal nicht physikalisch realisiert werden. Je näher man ihm kommen will, desto größere Frequenzbereiche muß man abdecken, und schnell ist man weit jenseits des Bereiches der für Audio eigentlich nötig wäre. Das Ohr hat für solche Frequenzen einfach keine zuständigen Sinneshärchen mehr, ob sie da sind oder nicht spielt folglich keine praktische Rolle. Es geht dann um reine Rechteckkosmetik.

Während man bei einem Verstärker noch relativ problemlos "überschüssige" Bandbreite spendieren kann, ohne daß das großen Aufwand oder große Probleme zur Folge hätte, macht die Sache bei der digitalen Audiotechnik wesentlich größere Schwierigkeiten. Die digitale Audiotechnik basiert auf dem Prinzip daß die Signalbandbreite auf den Audiobereich begrenzt ist. Diese Bedingung ist absolut fundamental für die Technik, und beruht auf Gesetzmäßigkeiten die lange vor der praktischen Anwendbarkeit schon theoretisch durchdrungen und bekannt waren. Mehr als die halbe Abtastfrequenz ist nicht drin, in der Praxis sogar etwas weniger. Darum ist z.B. bei der CD mit ihren 44100 Hz Abtastfrequenz nicht viel mehr als 20 kHz drin, egal was man macht.

Unter solchen Bedingungen ist die bestmögliche Annäherung an ein Rechtecksignal dadurch zu erreichen daß man angefangen mit der Grundwelle alle ungeraden Oberwellen im richtigen Verhältnis kombiniert, und unterhalb der halben Abtastfrequenz abbricht. Ein Rechteck mit 1 kHz würde dann aus einer Addition der folgenden Sinuskurven bestehen: 1 kHz, 3 kHz, 5 kHz, 7 kHz ... 21 kHz. Wirklich rechteckig ist das noch nicht. Besser geht's aber nicht, und alle Versuche dem Rechteck noch näher zu kommen enden in Verstößen gegen das Grundgesetz der Digitaltechnik. Für das Gehör hat das auch keine Relevanz. Auch Phasenverschiebungen zwischen den Oberwellen können die Wellenform stark verbiegen, ohne daß das einfach so hörbar wäre.

Eben deswegen sind Rechteck-Oszillogramme so populär bei Befürwortern der NonOS-D/A-Wandler, die im Grunde nichts richtig machen außer daß sie schöne Rechtecke für das Oszilloskop ausspucken. Für das Oszilloskop, wohlgemerkt, und nicht für das Ohr. Das Ohr hat keinen Sinn für Rechtecke. Nur ein Beispiel aus vielen, wo Rechtecksignale zur Verteidigung und Rechtfertigung von NonOS-Wandlern benutzt werden ist hier zu finden (runterscrollen bis etwa zur Mitte der Seite). Es ist auch die einzige Möglichkeit, NonOS-Wandler meßtechnisch in einem guten Licht darzustellen, denn andere Messungen, die relevanter für Audio wären, fallen übel aus. Das Beispiel zeigt auch gleich noch die suggestive Argumentation die sich daran anschließt. Unmittelbar nach dem Oszilloskopbild liest man:
"So the idea behind all this is, that if the transients are more precise in time and not smeared around, the stereo image will be more in focus and more pin point."
Den Rest erledigt dann der "Confirmation Bias", denn die dergestalt "informierten" Nutzer achten verstärkt auf den Fokus des Stereobildes, und weil sie mehr darauf achten kommt es ihnen auch so vor als wäre er nun besser. Was dann wiederum als Beweis dafür hergenommen wird daß die "Idee" stimmt. Die Idee hat sich in eine selbsterfüllende Prophezeihung verwandelt.

Bevor ich angefangen habe den Artikel zu schreiben ging mir deshalb als Überschrift der Begriff "Rechtecklüge" durch den Kopf. Reißerischer wäre er gewesen, und oft genug dienen die Rechtecke ja auch genau dazu, eine Lüge zu untermauern, aber noch öfter ist es einfach eine Täuschung, der man erliegt weil der Blick auf etwas gerichtet wird, das nicht die Bedeutung hat die man aus der bildlichen Darstellung vermuten würde. Ich will auch nicht so weit gehen und das Streben nach sauberen Rechtecken in Audiogeräten prinzipiell zu verdammen. Ein Gerät, das ein Rechteck sauber überträgt, kann vom Frequenzgang her nicht gar so weit daneben liegen. In den Händen von Fachleuten kann es daher nützlich sein, mit Rechtecksignalen zu messen um bestimmte Aspekte des Gerätes zu studieren und ggf. zu verbessern. Vor den Augen des Laien haben solche Bildchen aber nichts zu suchen, denn die werden sie falsch interpretieren. Genau deswegen werden sie von den Scharlatanen der Branche so gern gezeigt.

Bevor ich hier Schluß mache ist noch ein Wort zu den Spektraldarstellungen angesagt, speziell warum die nicht einfach vertikale Linien haben, sondern glockenartige Kurven. In der Regel ist das ein Artefakt der Meßmethode. Je genauer man eine Frequenz messen will, desto feiner muß man filtern, oder desto länger muß man messen. Eine ideale vertikale Linie für eine bestimmte Frequenz im Spektraldiagramm würde eine unendliche Meßdauer erfordern. So viel Geduld haben die meisten Leute nicht, und für reale Meßaufgaben ist solche Perfektion auch gar nicht nötig. In die Breite der Glockenkurve spielen etliche Faktoren hinein, und es wäre interessant das im Detail aufzudröseln, weil man dabei auch was über die Meßmethoden und die dahinter stehenden physikalischen Gesetzmäßigkeiten erfährt, aber für diesen Artikel hier wäre das stark übertrieben. Ob ich dazu in einem späteren Artikel Lust habe wird sich zeigen müssen.


Für Eure Kommentare gilt das Übliche.