Es sind bald 6 Jahre, daß ich in der Folge eines Besuchs bei der Münchner High-End einen Blogartikel über Strassner und seine Firma HMS schrieb. HMS steht nach wie vor mit dem WWW auf Kriegsfuß, weswegen man sich schwer tut, im Internet auch nur einen Überblick über das Produktspektrum zu gewinnen. Man muß sich dies, und auch Infos über die dahinter stehende "Theorie", auf anderen Webseiten zusammensammeln. Eine dieser Seiten gehört zum "Fidelity Magazin", auf deren Online-Auftritt seit Kurzem eine Artikel-Serie mit einem Strassner-Interview zu lesen ist, die in der gedruckten Ausgabe schon vor Längerem erschienen war.
Ich habe schon in meinem damaligen Artikel hier im Blog dargestellt, wo mein Problem mit der Darstellung von Strassner ist. Strassner's neuere Darstellung ist in mancher Hinsicht "verfeinert", aber immer noch falsch, weswegen ich meine Erwiderung ebenfalls überarbeite.
Nun fällt es zwar leicht, sich klar zu machen weshalb Strassner die Darstellung so wählt, schließlich hat er ein finanzielles Interesse zu wahren - er will ja Kabel und entsprechendes Zubehör verkaufen. Seine Darstellung wird aber wohl vielen Lesern recht plausibel vorkommen, darum lohnt es vielleicht, sich damit etwas genauer zu beschäftigen.
Wie schon bei meinem alten Artikel geht die Diskussion von der Frage aus, was denn ein Meter Netzkabel noch ausrichten soll, wenn davor in der Wand und im Stromnetz schon viele Meter Standardkabel im Spiel sind. Strassner argumentiert, es käme auf den letzten Meter deswegen an, weil es um Differenzspannungen zwischen den Komponenten einer Anlage gehe, und die entstünden erst ab dem Punkt, an dem sich die Wege für Stromversorgung der Geräte trennen, also z.B. ab der gemeinsamen Steckerleiste. Siehe Abbildung 1 im Artikel des Fidelity-Magazins.
Der Interviewer des Fidelity-Magazins wendet dasselbe ein wie ich damals, nämlich daß die Differenzspannung wegen der galvanischen Trennung durch die Netztrafos in den Geräten gar nicht direkt mit der Netzspannung zusammen hängen kann. Dieser entscheidende Punkt blieb bei Strassner's Vortrag damals auf der High-End unerwähnt; diesmal liefert er einen Versuch einer Erklärung, der jedoch komplett fehl geht.
Schauen wir uns mal seine Abbildung 2 an, die zur Erklärung dienen sollte. Da wird sichtbar, daß die parasitären Kapazitäten zwischen Primär- und Sekundärseite für Störströme verantwortlich sein sollen. Wenn diese Störströme zu Differenzspannungen zwischen den Massen zweier Geräte führen sollten, dann führen sie in der Tat zu Audiostörungen, wenn man unsymmetrische Verbindungen benutzt, die sich auf diese Masse als Referenz beziehen. So weit so gut.
Nur, wieso und unter welchen Umständen kommt es dazu? Da muss man etwas genauer hinsehen als es Strassner tut. Wir werden sehen, daß sich die Sache ganz anders darstellt, als man es aus Strassner's Darstellung erwarten würde.
Der erste Punkt: Wenn die parasitären Kapazitäten tatsächlich für die Störströme verantwortlich sind, dann ist es praktisch egal welche Impedanzen oder Widerstände das Netzkabel hat, denn die Spannungen, die über diese Kapazitäten abfallen sind davon fast unabhängig. Die Netzspannung fällt über einen der beiden Kondensatoren C1 oder C2 ab, über den anderen fällt eine geringe, praktisch vernachlässigbare Spannung ab. Die Impedanz der Netzleitung sorgt selbt im extrem unvorteilhaften Fall nur für wenig Spannungsabfall, in der Praxis sind die immer vorhandenen Spannungsschwankungen im Netz wesentlich stärker. Entsprechend unerklärlich wird dann, was man von einem teuren Netzkabel mit extra niedriger Impedanz haben soll.
Strassner hat recht wenn er darauf hinweist, daß es insbesondere die höherfrequenten Anteile der Störströme sind, die in einem solchen Fall relevant werden, denn je höher die Frequenz, desto geringer die Impedanz der parasitären Kapazitäten. Daraus resultiert schon das nächste Problem in Strassner's Erklärung: Eine besonders niedrige Impedanz der Zuleitung verstärkt sogar tendenziell diese höherfrequenten Anteile. Wenn es überhaupt etwas ändert, ein besonders impedanzoptimiertes Kabel einzusetzen, dann sogar zum Schlechteren. Warum?
Nun, Strassner erklärt das mit Hilfe seiner Abbildung 3, wo beschrieben ist wie es wegen der Gleichrichtung und Siebung in jedem Gerät zu impulsförmigen Ladeströmen kommt. Das erzeugt Oberwellen im Netzstrom, also genau die höheren Frequenzen, die Strassner zufolge problematisch sind. Nur werden die umso stärker, je niedriger die Impedanz des Primärstromkreises ist.
Wollte man dagegen etwas unternehmen, dann müßte man die Impedanz der Stromleitung vergrößern, und nicht etwa verringern! Strassner's eigene Produkte wären kontraproduktiv!
Kurz gesagt, wenn der Mechanismus der Störung so sein sollte wie von Strassner dargestellt, dann müßte man eigentlich eine möglichst "schlechte" Netzleitung benutzen. Schlecht in dem Sinn, daß die Impedanz hoch wäre. Die höhere Impedanz dämpft die Stromimpulse, und verringert dadurch die Oberwellen, die besonders gut über die parasitären Kapazitäten einkoppeln.
Immerhin, in der Praxis wird der Trafo selbst dominieren, mit seinen Wicklungswiderständen, und die Widerstände irgendwelcher 2m Netzkabel samt Steckern werden demgegenüber vernachlässigbar sein. Strassner vermeidet es wohlweislich, ein quantitatives Beispiel durchzurechnen, sonst würde offensichtlich, daß es hier um heiße Luft geht. Stattdessen erweckt er den Eindruck, als käme es darauf an, daß wegen der Stromimpulse möglicht wenig Spannung über die Netzkabel und Stecker abfällt. Dabei geht es bei diesem Spannungsabfall gar nicht um die von ihm in die Diskussion eingeführte Differenzspannung zwischen den Geräten. Im Gegenteil, je mehr Störspannung über das Netzkabel abfällt, desto weniger bleibt für die Kopplung über die parasitären Kapazitäten übrig.
Strassner widerspricht sich also im Grunde selbst, was einem aber nur auffällt, wenn man genug von der Sache versteht, und sich die Verhältnisse im Detail durchüberlegt.
Bis hierher sind wir implizit davon ausgegangen, daß es keine Schutzleiterverbindungen gibt. Auch Strassner's Zeichnungen haben bis hierhin keine gezeigt. In diesem Fall fließen die Störströme, insoweit sie durch die parasitären Kapazitäten auf die Sekundärseite geleitet werden, natürlich durch die Massen der Cinch-Leitungen, also das von Strassner unterstellte Störszenario. Einen anderen Weg gibt's üblicherweise nicht, es sei denn man hat die Geräte extra über Massekabel miteinander verbunden. Wenn es aber Schutzleiterverbindungen gibt, dann können diese Störströme genausogut über diese fließen, und die Argumentation verändert sich fundamental.
Das ist ein weiterer meiner Kritikpunkte an Strassner's Ausführungen: Die Unterscheidung zwischen Geräten mit Schutzleiterverbindung, und Geräten ohne, ist hier absolut zentral. Strassner geht darüber hinweg.
In Abbildung 5 kommt dieses Thema in den Fokus. Hier erfährt man explizit, welches Gerät Schutzleiterverbindung hat und welches nicht. Warum nicht schon früher? Hier geht es aber nicht um die kapazitive Störeinkopplung, sondern um Brummschleifen. Ein übliches Szenario: Wir haben eine Masseschleife über eine Antennenverbindung, und ein Netzkabel mit Schutzleiter. Wenn eine Audioleitung Teil der Schleife ist, dann brummt's. Das ist ein völlig anderer Mechanismus, als der vorher beschriebene.
Auch hier ist die von Strassner präsentierte Abhilfe kontraproduktiv: Wenn man es mit so einer Brummschleife zu tun hat, dann kommt es darauf an, den Strom durch die Massen der Audioleitungen zu minimieren, um den Spannungsabfall (also die Differenzspannung) zu minimieren. Wenn man die Impedanzen der anderen Leitungen in der Schleife minimiert, dann kann das genau den umgekehrten Effekt haben, je nachdem wie die Störung eingekoppelt wird. Es wäre dann wieder einmal erfolgversprechender, wenn man die Impedanzen der Netzleitungen erhöhen würde. Wobei es in diesem Fall um die Impedanz der Schutzleiterverbindung geht, und nicht um die stromführenden Leitungen im Netzkabel.
Es zeigt sich, daß man ein paar Dinge säuberlich auseinander halten muß, die Strassner vermischt: Störströme durch kapazitive Kopplung in den Geräten, Störströme die in Brummschleifen umlaufen, und die Wege, die diese Störströme nehmen (können). Mehr noch, es geht auch noch um Störungen durch Funk, was die Sache weiter verkompliziert. Wer das nicht säuberlich trennt, der verwirrt sich selbst.
Im Grunde kommt es zu der ganzen Problematik deswegen, weil man im Hifi-Bereich noch immer auf breiter Front unsymmetrische Audioverbindungen benutzt. Die vertragen sich schlecht mit Geräten, die über den Schutzleiter geerdet werden, weil man dadurch fast unvermeidlicherweise Brummschleifen kriegt. Alles was man da an den Netzkabeln oder generell der Stromversorgung "herumoptimiert" ist ein Herumdoktern an den Symptomen. Falls man dieses Problem hat, dann ist durchaus plausibel, daß sich die Situation hörbar verändert, wenn man andere Kabel nimmt, oder irgendwelche Filter einbaut. Es ist aber weder klar ob die Änderung hin zum Positiven ist, noch hat man sich das Problem damit vom Hals geschafft. Man hat nur ein paar Parameter geändert, und das meist recht planlos und ohne eine objektive Erfolgskontrolle.
Die "klassische" Strategie ist noch immer die am weitesten verbreitete: Alle Geräte haben Stromversorgungen ohne Schutzleiteranschluß, dann kann man auch eine Erdverbindung über den Antennenanschluß haben, ohne daß man sich dadurch eine Brummschleife durch's ganze Haus einhandelt. Die Geräte in der Anlage haben dann zwar untereinander Masseverbindung über die (unsymmetrischen) Audiokabel, aber das ergibt höchstens lokale und entsprechend harmlose Schleifen. Die Ausgleichsströme (die über die oben diskutierten parasitären Kapazitäten zustande kommen) fließen mangels Alternative über die Audiokabel, aber in den meisten Fällen sind sie schwach genug um keine hörbaren Probleme zu machen. Verbessern kann man die Situation, indem man zusätzliche Masseverbindungen zwischen den Geräten schafft. Wohl dem, dessen Geräte dafür eine Masseklemme haben, andernfalls muß man eine geeignete Gehäuseschraube zweckentfremden.
Haben die Geräte Schutzleiteranschluß (es fängt schon an wenn es nur ein Gerät ist), dann tritt sofort die Problematik aus Strassner's Abbildung 5 auf den Plan. Hat man einen Anschluß an eine geerdete Antennenanlage, dann gibt es nun eine Brummschleife quer durch's Haus, über die meist getrennten Erdungen der Antennenanlage und des Stromnetzes. Die darin fließenden viel stärkeren Ausgleichsströme fließen zum Teil wieder durch die Audiokabel, und verursachen hörbare Probleme. Nur nutzt es wenig, wenn man hier an der Impedanz des Netzkabels herumoptimiert. Man müßte die Impedanz des Schutzleiters schon bei 50 Hz so hoch machen, daß die Störungen deutlich vermindert werden, und dann hätte der Schutzleiter seine eigentliche Funktion, nämlich zu schützen vor Stromschlag, verloren.
Strassner geht daher in die völlig falsche Richtung, wenn er sich mit Kabelimpedanzen und Übergangswiderständen beschäftigt, denn dadurch löst er das tatsächliche Problem nicht.
Wenn man schon mit unsymmetrischen Verbindungen leben muß, und nicht auf die in dieser Hinsicht weitaus unproblematischeren symmetrischen Verbindungen umsteigen kann, was bei Geräten mit Schutzleiteranschluß eigentlich nötig wäre, dann muß man sich um die "topologischen" Probleme kümmern, nämlich um die Schleifen selbst, und muß versuchen, sie entweder aufzutrennen, oder sie so zu legen, daß der Störstrom nicht über die Audioleitungen fließt.
Eine Möglichkeit besteht darin, die Masse des Antennenanschlusses am Steckdosenverteiler der Anlage mit dem Schutzleiter zu verbinden. Damit entsteht ein Massesternpunkt an der Vielfachsteckdose, und die vorherige große Masseschleife wird zweigeteilt, wobei die Audiogeräte nur noch kleine, lokale, relativ harmlose Schleifen bilden. Manche Vielfachsteckdosen haben integrierte "Filter" und/oder Blitzschutz für Antennenleitungen, aber leider ist meist unklar wie die intern aufgebaut und verschaltet sind. Filter bräuchte man eigentlich keine, es kommt eher auf die interne Masseführung an. Falls das in Ordnung ist, sind solche Leisten wirksam, falls die ganze Anlage darüber versorgt wird, und die Anlage nirgendwo eine weitere Erdverbindung hat. Es braucht wohl kaum erwähnt zu werden, daß so etwas recht billig sein kann, denn auf irgendwelche besonders niedrigen Impedanzen, oder hochwertige Materialien kommt es hier nicht an. HMS könnte sich hier verdient machen, indem sie in die angebotenen Vielfachsteckdosen noch Antennenbuchsen einbauen würden, für diejenigen Kunden, die so teure Vielfachsteckdosen kaufen.
Die andere Möglichkeit besteht in der Auftrennung der Brummschleife. Die Herausforderung besteht darin, die geeignetste Stelle dafür zu finden. An der Seite der Stromversorgung kommt man dabei sehr schnell mit den Sicherheitsvorschriften in Konflikt, es sei denn man verwendet Trenntrafos, aber deren parasitäre Kapazitäten sind auch nicht umbedingt vernachlässigbar. Am einfachsten und billigsten ist in der Regel eine Massetrennung in der Antennenleitung, also ein galvanisch getrennter "Mantelstromfilter". Aber auch die Audioleitungen kann man galvanisch trennen, nämlich mit einem Übertrager oder einem Trennverstärker.
Strassner's "Lösung" scheint dagegen auf der Überlegung zu beruhen, daß die Schutzleiterverbindung ja auch eine Masseverbindung zwischen den Komponenten schafft, und je niederimpedanter diese ist, desto kleiner wird auch die Differenzspannung zwischen den Geräten. Wenn das so sein sollte, dann wäre immer noch der direktere (und billige) Weg, eine Masseverbindung zwischen den Geräten auf dem kürzesten Weg, durch ein extra Massekabel, anstatt durch die Netzkabel und die Verteilerleiste zu schaffen. Wenn die Geräte direkt beieinander stehen, dann ist das viel kürzer und niederimpedanter als durch die Netzkabel. An der Brummschleife durch das ganze Haus ändert sich daran aber nichts.
Es ist einfach so: Die unsymmetrischen Audioverbindungen sind umso ungünstiger, je weiter eine Anlage wächst, also je mehr Komponenten untereinander verbunden werden, besonders wenn auch noch Antennenanlagen ins Spiel kommen. Irgendwann bekommt man die entscheidende Erdverbindung zu viel. Mit den entstehenden Brummschleifen und anderen Störproblemen kann der Laie oft nicht vernünftig umgehen, und ein Teil davon neigt dann zur Anschaffung von teurem Firlefanz, wovon solche Firmen wie HMS profitieren. Dabei wäre die "richtige" Lösung hier oft ziemlich einfach und billig, aber die Überlegung, die dahin führt, ist nicht einfach. Abhilfe bestünde darin, daß man konsequent auf symmetrische Audioverbindungen umsteigt. Das würde den Laien von der Last befreien, daß er Probleme lösen muß, die ihm die Hersteller aufgehalst haben. Aber was würde dann aus Firmen wie HMS?
Besonders obskur in der Beschreibung von Strassner ist das Thema "Netzfilter". Da wird behauptet, die Spannungsschwankungen, die ein Verstärker im Stromnetz erzeugt, indem er eine mit der Musik wechselnde Last darstellt, hätten einen "möglichen Dynamikverlust" in anderen Komponenten zur Folge. Das ist blanker Unfug. Spannungsschwankungen im Netz sind völlig normal, auch ohne einen Verstärker, und wenn ein Gerät darauf mit Dynamikverlust reagiert, dann hat sein Entwickler etwas falsch gemacht. Da rettet man auch nichts mit einem zusätzlichen Filter. Strassner erfindet hier schlicht und einfach eine zu seinem Verkaufsziel passende Story.
Wer mir das nicht glaubt, dem sei in Erinnerung gerufen, daß die Geräte ja ohnehin die Wechselspannung aus dem Netz gleichrichten und filtern, und meist noch regeln, so daß sie einerseits gegen Schwankungen aus dem Netz immun sind, andererseits ihren eigenen impulsförmigen Strombedarf aus dem internen Filter (den Siebelkos) bestreiten. Die sich nach außen mitteilenden Lastschwankungen aufgrund der Musik sind folglich recht niedrig in ihrer Frequenz, und entsprechend leicht auszuregeln. Es ist nicht zu erkennen, wie Strassner auf die Idee kommen kann, damit könnte irgend ein Geräteentwickler ein Problem haben.
Mein Fazit aus diesen Erklärungen bleibt also weitgehend das Gleiche wie in meinem vorigen Artikel: Strassner verbreitet nur die halbe Wahrheit, und unterschlägt alles, was gegen seine Erklärungen spricht. Seine Produkte lösen entweder Probleme, die erst herbeiphantasiert werden, oder er löst tatsächliche Probleme auf eine sehr teure Art, deren Lösung ganz einfach und billig sein könnte, oder er ändert nur die Symptome eines Problems, das ganz anders gelöst werden müßte, als durch den Einsatz eines seiner teuren Produkte. Er versucht so seriös wie nur irgend möglich zu wirken, aber was er vorträgt ist eben nicht seriös, sondern es ist Marketing, wo ja die selektive Darstellung zu den am weitesten verbreiteten Tricks gehört.
Sonntag, 17. April 2016
Sonntag, 3. April 2016
FAQ Streaming
Ich dachte es wäre mal wieder an der Zeit für einen Artikel in meiner FAQ Serie. Diesmal zum Thema "Streaming", welches immer mehr in den Fokus audiophiler Konversation gerückt ist, und damit auch in den Fokus derjenigen Leute, die ihren Bullshit an die Audiophilen verkaufen wollen.
Streaming ist das Übertragen von Audio in "Echtzeit" über ein Computernetzwerk. Oder eigentlich nicht bloß Audio, sondern beliebige Mediendaten, also z.B. auch Video.
Ok, zuerst die Anwendungen:
Angefangen hat es mit Internetradio. Das gibt's schon ziemlich lang, unter Verwendung von MP3 hat es weite Verbreitung erlangt und wird auch heute noch betrieben. Die Latenz ist hier ziemlich egal. Mehrere Sekunden sind absolut üblich. Man merkt es daran, daß der Player am Anfang erst einmal eine Weile Daten puffert, bevor er losspielt. Wir kommen noch dazu warum das so ist. Ein weiteres Charakteristikum dieser Methode ist, daß HTTP dafür verwendet wird, also das Web-Browser-Protokoll, welches auf TCP/IP basiert. Das wird deswegen verwendet, weil man damit am leichtesten auf die Web-Infrastruktur zurückgreifen kann, und weil die Router dafür normalerweise freigeschaltet sind. Damit sind aber auch Nachteile verbunden, was den Anlaß gab, andere Methoden zu entwickeln.
Dann kamen die Streaming-Lösungen für die Heimanwendung. Streaming von einem Medienserver im Haus an Streaming-Player. Die Technik dafür ist im Grunde nichts Anderes als Dateizugriffe über Netzwerk. Das verwendete Protokoll ist das Gleiche wie das, was man für den Zugriff auf ein NAS gebraucht (NAS = Network Attached Server). Da mußte nichts wirklich neu entwickelt werden. Der Streaming-Client fordert sich die Daten einfach rechtzeitig vom Server an, bevor er sie ausspielen muss. So lange der Server keinen "Hänger" hat, klappt das problemlos.
Ergänzt werden solche Lösungen durch weitere Protokolle, die nicht direkt mit der Übertragung von Mediendaten zu tun haben, z.B. für das Durchblättern der Mediendatenbanken, oder das Auffinden der Geräte im Netzwerk. Auch da gibt's mehrere Alternativen, z.B. UPnP von Microsoft, oder Bonjour von Apple.
Es ging und geht weiter mit Live-Streaming von größeren Datenmengen wie hochauflösendes, unkomprimiertes Audio, oder von Videos. Neben der höheren Datenmenge, die nicht wirklich neue Technik braucht, bloß größere Kapazitäten im Netzwerk, kommt da vor allem das Thema Kopierschutz, und damit Verschlüsselung und Authentifizierung, dazu.
Für professionelle Anwendungen und im Heimstudio kommt dazu noch das Thema "Low Latency" auf, also eine so geringe Verzögerung bei der Übertragung durch das Netzwerk, daß die Netzwerkverbindungen mit konventioneller Verkabelung konkurrieren können, z.B. bei Anwendungen, bei denen direkt abgehört wird. Die Nagelprobe ist dabei wenn ein Musiker sein eigenes Signal während des Spiel abhört. Da sind nur noch wenige Millisekunden Verzögerung erlaubt.
Bei manchen Anwendungen, insbesondere im Profibereich, ist auch die exakte Synchronisation zwischen den Geräten wichtig. Im Extremfall geht es dabei um wenige Mikrosekunden Toleranz.
So ist es. Die ersten Techniken für Internetradio erfüllen bei weitem nicht alle Anforderungen. Der Consumer-Markt ist dabei noch der harmloseste. Profi-Streaming ist viel "härter".
Interessanterweise gibt es schon eine ganze Zeit lang eine Streaming-Technik, die niedrige Latenz braucht und bietet, nämlich "Voice-over-IP", also Telefonie über das Internet. Die neueren Streaming-Techniken, die im Profi-Bereich in den letzten Jahren Einzug gehalten haben, sind daher im Kern von der Internet-Telefonie abgeleitet, und verwenden ähnliche Techniken, allerdings mit höherer Qualität und Datenmenge. Hinzugekommen sind auch Synchronisationstechniken, die mit hoher Präzision arbeiten.
Wenn beide Kanäle aus dem gleichen Gerät kommen, und aus dem gleichen Stream, dann existiert das Problem nicht, denn es obliegt dem Gerät selbst, beide Stereokanäle zeitgleich abzuspielen. Das ist trivial. Das funktioniert problemlos seit den ersten Tagen des Internetradio.
Der normale Konsument und Betreiber eines Streaming-Netzwerkes zuhause bekommt erst dann Wind von diesem Problem, wenn es um simultane Wiedergabe der gleichen Audiodaten über mehrere Geräte geht. Das ist z.B. dann der Fall, wenn über mehrere Räume hinweg das gleiche Programm gehört werden soll. Im Normalfall ist das nicht wirklich gleichzeitig, wie sicher schon Mancher bemerkt haben wird. Wer auf zwei Geräten das gleiche Internet-Radio wiedergibt, der findet oft mehrere Sekunden Unterschied zwischen den Geräten. Das war früher beim analogen Radio ganz anders, da herrschte Gleichzeitigkeit.
Es ist letztlich eine Folge der Datenpufferung. Die Daten aus dem Netz werden erst in einen Puffer im Gerät geschrieben, und etwas später aus diesem Puffer wiedergegeben. Wenn nicht koordiniert wird, wann die Daten aus dem Puffer ausgespielt werden, und das ist der Normalfall, dann entscheidet sich das in jedem Gerät getrennt, und damit eben auch unterschiedlich. Jedes Gerät puffert am Beginn der Wiedergabe so viele Daten, wie es für richtig hält (manchmal ist das einstellbar), und fängt dann an, auszuspielen.
Selbst wenn der Beginn der Ausspielung genau koordiniert würde, dann wäre das trotzdem noch keine komplette Lösung. Die Geräte spielen alle mit ihrem eigenen Medientakt aus, der von einem Oszillator in jedem Gerät erzeugt wird. Obwohl dieser Medientakt in jedem Gerät nominell gleich ist, gibt es Toleranzen. Diese haben zur Folge, daß auch bei gleichzeitigem Start die Ausspielungen allmählich auseinander laufen. Wenn die Oszillatoren zweier Geräte sich beispielsweise um 100 ppm unterscheiden, und das ist ein durchaus praxisgerechter Fall, dann laufen die Geräte in 10000 Sekunden (also weniger als 3 Stunden) um 1 Sekunde unterschiedlich. Eine Sekunde Unterschied ist schon sehr auffällig, für einen störenden Unterschied reicht schon deutlich weniger. Das bedeutet, daß einem das vielleicht nicht auffällt, wenn man 3-minütige Singles hört, aber definitiv stört es bei einer Sinfonie oder Oper. Oder eben wenn man länger Internetradio hört.
Weil das nicht so einfach ist. Und wenn man es in den üblichen Fällen gar nicht braucht, dann spart man sich eben den Aufwand. Wer will schon die gleichen Signale über mehrere Geräte zugleich wiedergeben?
Die Profis brauchen so etwas. Da sind viel mehr Geräte beteiligt, und viel mehr Signale, die alle zeitlich koordiniert sein müssen. Oder eben anspruchsvollere Multi-Raum-Installationen in einer Wohnung.
Es gibt dabei jedenfalls genau so viel Jitter wie der lokale Oszillator erzeugt. Das sollte jeder Gerätebauer im Griff haben. Das Netzwerk hat nichts damit zu tun.
Den Effekt hat der Eine oder Andere sicher schon bemerkt wenn er Internetradio über längere Zeit gehört hat: Irgendwann gibt's eine Störung oder einen Aussetzer. Man ist geneigt, das auf die Unzuverlässigkeit des Internet zu schieben, und hat damit oft genug auch recht. Es ist aber eben oft auch die Folge der Taktungleichheit. Irgend ein Puffer läuft voll oder leer, und es bleibt keine andere Wahl als eine Unterbrechung und ein Neustart des Streams. Die Software kann das automatisch, aber eine Unterbrechung bleibt es trotzdem.
Um dem abzuhelfen muß man den Abspieltakt an den Quelltakt angleichen, und zwar durch eine Taktregelung. Im TV-Streaming ist so etwas wichtiger als bei Internetradio, demzufolge hat man eine solche Taktregelung hier vorgesehen. Die kann aber recht träge sein so lange man mit relativ großen Puffern arbeiten kann. Die entsprechende Taktsynchronisation ist so noch recht "lose", was aber gut genug funktioniert.
Man treibt den Aufwand bloß wenn's nötig ist, besonders im Consumer-Bereich, wo es beim Gerätepreis um jeden halben Cent geht.
Es kommt noch hinzu daß bei PCs, Tablets, etc. die Taktoszillatoren für die Audiowandler meist nicht regelbar sind. Das war in einer Soundkarte traditionell nicht nötig, und es gibt dafür auch keine standardisierte Programmierschnittstelle. Ein Medienplayer (die Software) hat daher u.U. gar keine andere Wahl als mit dem Takt abzuspielen, der von der Soundkarte vorgegeben wird. Wenn dadurch ein Puffer immer voller oder immer leerer wird, dann verfällt manche Software in Tricks, wie man das möglichst ohne "Aufsehen" überspielen kann. Zum Beispiel kann man auf kurze Perioden der Stille warten, und die etwas verkürzen oder verlängern. Das fällt erfahrungsgemäß kaum auf.
Aber es kommt auch vor, daß sich die Programmierer darüber keinen Kopf machen. Im Ernstfall läßt man dann einen Block Samples weg, oder man fügt einen Block Stille ein, damit der Puffer-Füllstand wieder in den grünen Bereich kommt.
Regelbare Taktoszillatoren kann man softwaremäßig simulieren, wenn es die Hardware nicht hergibt, indem man adaptive Abtastratenwandlung betreibt. Das kann so gut sein daß man keine akustischen Artefakte mehr feststellen kann. Aber den Aufwand zu treiben wird offenbar nicht von allen Software-Schmieden für nötig gehalten.
Naja, man macht eben das was man glaubt machen zu müssen, und macht die Kompromisse dort wo man glaubt daß es nicht auffällt. Wozu sollte man mit großem Aufwand ein stringent durchsynchronisiertes System bauen, wenn die allermeisten Anwender den Unterschied gar nicht bemerken würden, weil ihr Anwendungsfall gar keine Synchronisation braucht?
Selbst in Profi-Streaming-Systemen gibt es deutliche Unterschiede in der Qualität der Synchronisation. Auf höherem Niveau zwar, aber dennoch. Immerhin ist es dort ein ausdrückliches Thema, im Gegensatz zum Consumer-Bereich, wo man den Kunden mit so etwas nicht zu belasten wagt, weil man ihm nicht zutraut daß er das versteht.
Die ersten Streamingsysteme, also Internetradio mit MP3 über HTTP, sind recht tolerant für Übertragungsfehler, und müssen das auch sein weil das Internet relativ oft Datenpakete verliert. Diese Toleranz kommt daher, daß unterhalb von HTTP das TCP-Protokoll benutzt wird Genauer gesagt sieht der "Protokollstapel" so aus: HTTP über TCP, und TCP über IP. IP hat unter sich die gerade verwendete Übertragungstechnik, also z.B. WLAN wenn's über Funk geht, oder Ethernet wenn's die Heimverkabelung ist, oder auf dem Weg zum Provider was eben der Provider so nutzt.
TCP ist ein verbindungsorientiertes Protokoll mit Fehlererkennung, das bedeutet daß ein fehlendes oder beschädigtes Datenpaket erkannt werden kann, und daß es über die aufgebaute Verbindung erneut angefordert werden kann. Das passiert automatisch. Das Streaming nutzt hier eine Fähigkeit, die das Netzwerk ohnehin anbietet und für z.B. Webseiten schon nutzt. Es brauchte nichts Neues dafür erfunden zu werden.
Es ist damit aber auch ein gravierender Nachteil verbunden, der insbesondere auffällt, wenn man geringe Latenzen braucht: Diese Art der Fehlerkorrektur durch Neuanforderung der betreffenden Daten ist zeitraubend. Es dauert eine gewisse Zeit bis klar ist daß ein fragliches Paket nicht mehr kommen wird, es dauert bis eine Neuanforderung vom Empfänger zum Sender verschickt ist, und es dauert bis das nochmal verschickte Datenpaket beim Empfänger ankommt. Wenn die Gesamtdauer dieses Vorgangs länger ist als die gewählte Latenz, dann kommt das Paket zu spät, und die Lücke bei der Ausspielung ist schon entstanden.
Und es kommt noch ein weiteres Problem hinzu: Wenn das Netzwerk deswegen Pakete verliert, weil es stark ausgelastet ist, dann macht es TCP durch die Neuanforderung nur noch schlimmer. Besonders wenn die neu angeforderten Pakete auch noch zu spät kommen und somit nutzlos übertragen werden.
In Situationen, wo man einen Stream an viele Empfänger zugleich schicken will, ist TCP außerdem ineffizient, denn es muß mit jedem Empfänger eine eigene Verbindung aufgebaut werden, und die Daten werden für jede Verbindung separat verschickt. Das ist eine eher unvorteilhafte Ausnutzung der Übertragungskapazität, wenn man die gleichen Daten vielfach übertragen muß. Man überlege sich das bei Live-TV-Streaming mit Millionen von Zuschauern!
Die probate Methode der Fehlerkorrektur, wenn man so etwas braucht, ist die sogenannte "Forward Error Correction (FEC)". Man schickt dabei von vorn herein zusätzliche Daten mit, die der Empfänger zur Rekonstruktion fehlender Teile benutzen kann. Der große Vorteil ist, daß kein Rückfragen beim Sender nötig ist, sondern daß das der Empfänger ganz allein tun kann. Es funktioniert natürlich nur bis zu einer gewissen Fehlerhäufigkeit. Wird das Limit überschritten, gibt's Aussetzer. Das Prinzip ähnelt der Fehlerkorrektur beim Abspielen einer CD, wo ja ebenfalls mit Zusatzdaten gearbeitet wird.
Wenn die Latenz aber ganz gering sein soll, wie in manchen Live-Anwendungen, dann dauert sogar die FEC zu lange. Man muß dann ein zuverlässiges Übertragungsmedium benutzen, bei dem die Wahrscheinlichkeit eines Paketverlustes sehr klein ist. Also z.B. nicht das allgemeine Internet.
Man sollte nicht vergessen, daß die Computernetzwerke hier für etwas hergenommen werden, für das sie ursprünglich nicht gebaut wurden. Die Telekom-Industrie hat mit ATM in den späten 80er und vor allem den 90er Jahren des vergangenen Jahrhunderts versucht, für ihre eigenen Anforderungen ein passendes Netzwerksystem zu entwickeln und zu etablieren. Das Streaming ist für ATM von vorn herein eingeplant gewesen und war gewissermassen sogar die Hauptanwendung. Es ist aber mißlungen, diese Technologie zum Ethernet-Konkurrenten zu machen, so daß es schließlich andersrum passiert ist: Ethernet und TCP/IP hat ATM überflügelt und überflüssig gemacht, trotz der geringeren Eignung für Streaming. Heutige Streaming-Systeme versuchen daher, die Nachteile der traditionellen Netzwerktechnik zu umgehen und zu kompensieren, ohne auf eine komplett andere Technik umzusteigen. Die Telekom-Betriebe nutzen das auch intern, und inzwischen laufen große Teile des Telefonverkehrs als IP-Streaming. Die eigentlich vom Ansatz her schlechtere Technologie hat sich durchgesetzt, weil sich damit die größeren "Synergieeffekte" und damit Einsparungen realisieren lassen.
Der andere Weg, nämlich der Grundlage von vorn herein alle Fähigkeiten mitzugeben, scheint demgegenüber weniger gut zu funktionieren, weil diese nicht so leicht die große Verbreitung bekommt, und damit die kritische Masse nicht erreicht. Größere Wirtschaftlichkeit gewinnt offenbar über technische Überlegenheit.
Das hat sich übrigens nicht bloß bei ATM gezeigt. Die Netzwerktechnik hat noch diverse weitere Beispiele dafür zu bieten. Beispielsweise war Firewire mal ein Versuch von Apple, ein für Streaming-Anwendungen optimiertes Heimnetzwerk zu etablieren. Im Gegensatz zu USB ist Firewire ein Netzwerk aus gleichwertigen Teilnehmern, während USB mit dem PC einen eindeutigen "Meister" hat. Der Eine oder Andere wird sich noch daran erinnern wie AV-Receiver und andere Geräte mit Firewire-Schnittstelle ausgerüstet wurden, und wie das dann wieder vom Markt verschwunden ist.
Der nächste Versuch, auf Ethernet-Basis dasselbe zu erreichen, nämlich ein Heimnetzwerk für Streaming-Dienste zu schaffen, wurde unter dem Namen AVB vor einigen Jahren betrieben, darf aber zumindest für dieses Anwendungsfeld wohl inzwischen ebenfalls als gescheitert angesehen werden. Der Fokus bei der AVB-Entwicklung liegt inzwischen offenbar bei Anwendungen in Verkehrsmitteln.
Größere Netzwerke brauchen allerdings ein ordentliches Management, schon auch um zu gewährleisten daß sich die verschiedenen Teilnehmer und Dienste nicht gegenseitig auf die Füße treten. Wer Streaming in einem Firmen-Netzwerk einsetzen will, schafft damit für die zuständige IT-Abteilung eine neue Herausforderung. Die müssen dazulernen, und sich eine Strategie erarbeiten, die für das Unternehmen passt. Das regelt sich ebensowenig von selbst wie sich der Strassenverkehr von selbst regelt.
Was ist Streaming eigentlich?
Streaming ist das Übertragen von Audio in "Echtzeit" über ein Computernetzwerk. Oder eigentlich nicht bloß Audio, sondern beliebige Mediendaten, also z.B. auch Video.
Was ist da so speziell dran? Sind Mediendaten nicht auch bloß Daten, für deren Übertragung Computernetzwerke seit jeher benutzt werden?
Ja, schon. Der springende Punkt hier ist aber das Wort "Echtzeit". Die Daten werden nicht so schnell wie möglich übertragen, wie z.B. wenn man über das Netzwerk eine Datei kopiert, sondern "just in time", in dem Maße wie sie zur Wiedergabe gebraucht werden.Was ist da das Problem?
Kommt darauf an, wie "echt" die Zeit sein soll, also wie viel "Latenz" tolerierbar ist. Die Anforderungen können sehr verschieden sein, wodurch auch die Technologie deutlich unterschiedlich sein kann. Es gibt daher nicht die eine Streamingtechnik, sondern es haben sich im Laufe von etlichen Jahren sehr unterschiedliche Methoden herausgebildet, je nachdem welche Anwendungsfelder damit abgedeckt werden soll.Die da wären?
Die Anwendungen oder die Techniken?Ok, zuerst die Anwendungen:
Angefangen hat es mit Internetradio. Das gibt's schon ziemlich lang, unter Verwendung von MP3 hat es weite Verbreitung erlangt und wird auch heute noch betrieben. Die Latenz ist hier ziemlich egal. Mehrere Sekunden sind absolut üblich. Man merkt es daran, daß der Player am Anfang erst einmal eine Weile Daten puffert, bevor er losspielt. Wir kommen noch dazu warum das so ist. Ein weiteres Charakteristikum dieser Methode ist, daß HTTP dafür verwendet wird, also das Web-Browser-Protokoll, welches auf TCP/IP basiert. Das wird deswegen verwendet, weil man damit am leichtesten auf die Web-Infrastruktur zurückgreifen kann, und weil die Router dafür normalerweise freigeschaltet sind. Damit sind aber auch Nachteile verbunden, was den Anlaß gab, andere Methoden zu entwickeln.
Dann kamen die Streaming-Lösungen für die Heimanwendung. Streaming von einem Medienserver im Haus an Streaming-Player. Die Technik dafür ist im Grunde nichts Anderes als Dateizugriffe über Netzwerk. Das verwendete Protokoll ist das Gleiche wie das, was man für den Zugriff auf ein NAS gebraucht (NAS = Network Attached Server). Da mußte nichts wirklich neu entwickelt werden. Der Streaming-Client fordert sich die Daten einfach rechtzeitig vom Server an, bevor er sie ausspielen muss. So lange der Server keinen "Hänger" hat, klappt das problemlos.
Ergänzt werden solche Lösungen durch weitere Protokolle, die nicht direkt mit der Übertragung von Mediendaten zu tun haben, z.B. für das Durchblättern der Mediendatenbanken, oder das Auffinden der Geräte im Netzwerk. Auch da gibt's mehrere Alternativen, z.B. UPnP von Microsoft, oder Bonjour von Apple.
Es ging und geht weiter mit Live-Streaming von größeren Datenmengen wie hochauflösendes, unkomprimiertes Audio, oder von Videos. Neben der höheren Datenmenge, die nicht wirklich neue Technik braucht, bloß größere Kapazitäten im Netzwerk, kommt da vor allem das Thema Kopierschutz, und damit Verschlüsselung und Authentifizierung, dazu.
Für professionelle Anwendungen und im Heimstudio kommt dazu noch das Thema "Low Latency" auf, also eine so geringe Verzögerung bei der Übertragung durch das Netzwerk, daß die Netzwerkverbindungen mit konventioneller Verkabelung konkurrieren können, z.B. bei Anwendungen, bei denen direkt abgehört wird. Die Nagelprobe ist dabei wenn ein Musiker sein eigenes Signal während des Spiel abhört. Da sind nur noch wenige Millisekunden Verzögerung erlaubt.
Bei manchen Anwendungen, insbesondere im Profibereich, ist auch die exakte Synchronisation zwischen den Geräten wichtig. Im Extremfall geht es dabei um wenige Mikrosekunden Toleranz.
Das sieht nach einem breiten Spektrum an Anforderungen aus.
So ist es. Die ersten Techniken für Internetradio erfüllen bei weitem nicht alle Anforderungen. Der Consumer-Markt ist dabei noch der harmloseste. Profi-Streaming ist viel "härter".
Interessanterweise gibt es schon eine ganze Zeit lang eine Streaming-Technik, die niedrige Latenz braucht und bietet, nämlich "Voice-over-IP", also Telefonie über das Internet. Die neueren Streaming-Techniken, die im Profi-Bereich in den letzten Jahren Einzug gehalten haben, sind daher im Kern von der Internet-Telefonie abgeleitet, und verwenden ähnliche Techniken, allerdings mit höherer Qualität und Datenmenge. Hinzugekommen sind auch Synchronisationstechniken, die mit hoher Präzision arbeiten.
Profi-Streaming ist also eine Art von "aufgebohrter Internet-Telefonie"?
Ja. Jedenfalls die Systeme, die auf IP-Basis arbeiten, z.B. Livewire, Dante, Ravenna, und der daraus entwickelte herstellerübergreifende AES67-Standard.Die Consumer-Systeme nicht?
Nein, jedenfalls in der Mehrheit nicht. Die Anforderungen sind schlicht nicht da, um den höheren Aufwand zu rechtfertigen. Das ändert sich aber allmählich.Welche Anforderungen denn?
Zum Beispiel die harte Synchronisation. Die braucht es bloß, wenn mehrere unabhängige Geräte am Netzwerk genau zur gleichen Zeit wiedergeben sollen. Die strengsten Anforderungen gelten für Geräte, die zum gleichen Schallfeld beitragen sollen. Die Richtungswahrnehmung ist sehr empfindlich für Zeitunterschiede zwischen den Kanälen, z.B. bei Stereo. Da geht's um Mikrosekunden.Wenn beide Kanäle aus dem gleichen Gerät kommen, und aus dem gleichen Stream, dann existiert das Problem nicht, denn es obliegt dem Gerät selbst, beide Stereokanäle zeitgleich abzuspielen. Das ist trivial. Das funktioniert problemlos seit den ersten Tagen des Internetradio.
Der normale Konsument und Betreiber eines Streaming-Netzwerkes zuhause bekommt erst dann Wind von diesem Problem, wenn es um simultane Wiedergabe der gleichen Audiodaten über mehrere Geräte geht. Das ist z.B. dann der Fall, wenn über mehrere Räume hinweg das gleiche Programm gehört werden soll. Im Normalfall ist das nicht wirklich gleichzeitig, wie sicher schon Mancher bemerkt haben wird. Wer auf zwei Geräten das gleiche Internet-Radio wiedergibt, der findet oft mehrere Sekunden Unterschied zwischen den Geräten. Das war früher beim analogen Radio ganz anders, da herrschte Gleichzeitigkeit.
Wie kommt das?
Es ist letztlich eine Folge der Datenpufferung. Die Daten aus dem Netz werden erst in einen Puffer im Gerät geschrieben, und etwas später aus diesem Puffer wiedergegeben. Wenn nicht koordiniert wird, wann die Daten aus dem Puffer ausgespielt werden, und das ist der Normalfall, dann entscheidet sich das in jedem Gerät getrennt, und damit eben auch unterschiedlich. Jedes Gerät puffert am Beginn der Wiedergabe so viele Daten, wie es für richtig hält (manchmal ist das einstellbar), und fängt dann an, auszuspielen.
Selbst wenn der Beginn der Ausspielung genau koordiniert würde, dann wäre das trotzdem noch keine komplette Lösung. Die Geräte spielen alle mit ihrem eigenen Medientakt aus, der von einem Oszillator in jedem Gerät erzeugt wird. Obwohl dieser Medientakt in jedem Gerät nominell gleich ist, gibt es Toleranzen. Diese haben zur Folge, daß auch bei gleichzeitigem Start die Ausspielungen allmählich auseinander laufen. Wenn die Oszillatoren zweier Geräte sich beispielsweise um 100 ppm unterscheiden, und das ist ein durchaus praxisgerechter Fall, dann laufen die Geräte in 10000 Sekunden (also weniger als 3 Stunden) um 1 Sekunde unterschiedlich. Eine Sekunde Unterschied ist schon sehr auffällig, für einen störenden Unterschied reicht schon deutlich weniger. Das bedeutet, daß einem das vielleicht nicht auffällt, wenn man 3-minütige Singles hört, aber definitiv stört es bei einer Sinfonie oder Oper. Oder eben wenn man länger Internetradio hört.
Wieso synchronisiert man nicht einfach? Also sowohl den Start als auch die Oszillatoren?
Weil das nicht so einfach ist. Und wenn man es in den üblichen Fällen gar nicht braucht, dann spart man sich eben den Aufwand. Wer will schon die gleichen Signale über mehrere Geräte zugleich wiedergeben?
Die Profis brauchen so etwas. Da sind viel mehr Geräte beteiligt, und viel mehr Signale, die alle zeitlich koordiniert sein müssen. Oder eben anspruchsvollere Multi-Raum-Installationen in einer Wohnung.
Verstehe ich das richtig? Die Wiedergabe erfolgt mit einem Takt, den jedes Gerät selber freilaufend erzeugt?
Im Normalfall ja. Das Abspielgerät fordert über das Netzwerk die Daten in dem Rhythmus an, der durch den lokalen Medientakt vorgegeben wird. Das ist so beim Streamen aus einem Medienserver, aber auch beim Wiedergeben von Internetradio.Wieso machen sich dann die Leute wegen Jitter in die Hose?
Frag mich nicht. ;-)Es gibt dabei jedenfalls genau so viel Jitter wie der lokale Oszillator erzeugt. Das sollte jeder Gerätebauer im Griff haben. Das Netzwerk hat nichts damit zu tun.
Und der sogenannte "Paketjitter"?
Hat auch nichts damit zu tun. Es geht dabei um die zeitliche Unsicherheit bei der Ankunft der Datenpakete, die den Stream ausmachen. Um die auszugleichen benutzt man den Puffer. Die Situation hat große Ähnlichkeit mit der CD. Da gibt es ebenfalls so einen Puffer, und der entkoppelt die Seite mit dem Datenträger von der Seite mit dem Wandler, einschließlich der verwendeten Takte. Jitter auf der einen Seite hat dadurch nichts zu tun mit dem Jitter auf der anderen Seite. Wenn es da gegenseitige Einflüsse gibt, sind sie einem problematischen Gerätedesign geschuldet.Wie ist das dann beim Internetradio, oder beim Live-Streaming von Fernsehkanälen? Das kann doch nicht funktionieren bei so vielen freilaufenden Oszillatoren!
Stimmt. Wenn ich das Signal auf der einen Seite mit einem freilaufenden Oszillator erzeuge, und auf der anderen Seite mit einem freilaufenden Oszillator wiedergebe, dann läuft irgendwann jeder Puffer entweder leer oder voll, je nachdem welche Seite schneller ist.Den Effekt hat der Eine oder Andere sicher schon bemerkt wenn er Internetradio über längere Zeit gehört hat: Irgendwann gibt's eine Störung oder einen Aussetzer. Man ist geneigt, das auf die Unzuverlässigkeit des Internet zu schieben, und hat damit oft genug auch recht. Es ist aber eben oft auch die Folge der Taktungleichheit. Irgend ein Puffer läuft voll oder leer, und es bleibt keine andere Wahl als eine Unterbrechung und ein Neustart des Streams. Die Software kann das automatisch, aber eine Unterbrechung bleibt es trotzdem.
Um dem abzuhelfen muß man den Abspieltakt an den Quelltakt angleichen, und zwar durch eine Taktregelung. Im TV-Streaming ist so etwas wichtiger als bei Internetradio, demzufolge hat man eine solche Taktregelung hier vorgesehen. Die kann aber recht träge sein so lange man mit relativ großen Puffern arbeiten kann. Die entsprechende Taktsynchronisation ist so noch recht "lose", was aber gut genug funktioniert.
Wieso macht man das nicht grundsätzlich?
Man treibt den Aufwand bloß wenn's nötig ist, besonders im Consumer-Bereich, wo es beim Gerätepreis um jeden halben Cent geht.
Es kommt noch hinzu daß bei PCs, Tablets, etc. die Taktoszillatoren für die Audiowandler meist nicht regelbar sind. Das war in einer Soundkarte traditionell nicht nötig, und es gibt dafür auch keine standardisierte Programmierschnittstelle. Ein Medienplayer (die Software) hat daher u.U. gar keine andere Wahl als mit dem Takt abzuspielen, der von der Soundkarte vorgegeben wird. Wenn dadurch ein Puffer immer voller oder immer leerer wird, dann verfällt manche Software in Tricks, wie man das möglichst ohne "Aufsehen" überspielen kann. Zum Beispiel kann man auf kurze Perioden der Stille warten, und die etwas verkürzen oder verlängern. Das fällt erfahrungsgemäß kaum auf.
Aber es kommt auch vor, daß sich die Programmierer darüber keinen Kopf machen. Im Ernstfall läßt man dann einen Block Samples weg, oder man fügt einen Block Stille ein, damit der Puffer-Füllstand wieder in den grünen Bereich kommt.
Regelbare Taktoszillatoren kann man softwaremäßig simulieren, wenn es die Hardware nicht hergibt, indem man adaptive Abtastratenwandlung betreibt. Das kann so gut sein daß man keine akustischen Artefakte mehr feststellen kann. Aber den Aufwand zu treiben wird offenbar nicht von allen Software-Schmieden für nötig gehalten.
Ziemlich hemdsärmelig.
Naja, man macht eben das was man glaubt machen zu müssen, und macht die Kompromisse dort wo man glaubt daß es nicht auffällt. Wozu sollte man mit großem Aufwand ein stringent durchsynchronisiertes System bauen, wenn die allermeisten Anwender den Unterschied gar nicht bemerken würden, weil ihr Anwendungsfall gar keine Synchronisation braucht?
Selbst in Profi-Streaming-Systemen gibt es deutliche Unterschiede in der Qualität der Synchronisation. Auf höherem Niveau zwar, aber dennoch. Immerhin ist es dort ein ausdrückliches Thema, im Gegensatz zum Consumer-Bereich, wo man den Kunden mit so etwas nicht zu belasten wagt, weil man ihm nicht zutraut daß er das versteht.
Wie geht denn so ein Streamingsystem mit Übertragungsfehlern um?
Ha, ein weites und komplexes Thema! Wie genau willst Du's wissen, und wieviel Zeit hast Du?Zeit hab ich keine und wissen will ich alles immer sofort. Und so einfach daß ich's verstehe bitte!
Nichts leichter als das, komm mit. ;-)Die ersten Streamingsysteme, also Internetradio mit MP3 über HTTP, sind recht tolerant für Übertragungsfehler, und müssen das auch sein weil das Internet relativ oft Datenpakete verliert. Diese Toleranz kommt daher, daß unterhalb von HTTP das TCP-Protokoll benutzt wird Genauer gesagt sieht der "Protokollstapel" so aus: HTTP über TCP, und TCP über IP. IP hat unter sich die gerade verwendete Übertragungstechnik, also z.B. WLAN wenn's über Funk geht, oder Ethernet wenn's die Heimverkabelung ist, oder auf dem Weg zum Provider was eben der Provider so nutzt.
TCP ist ein verbindungsorientiertes Protokoll mit Fehlererkennung, das bedeutet daß ein fehlendes oder beschädigtes Datenpaket erkannt werden kann, und daß es über die aufgebaute Verbindung erneut angefordert werden kann. Das passiert automatisch. Das Streaming nutzt hier eine Fähigkeit, die das Netzwerk ohnehin anbietet und für z.B. Webseiten schon nutzt. Es brauchte nichts Neues dafür erfunden zu werden.
Es ist damit aber auch ein gravierender Nachteil verbunden, der insbesondere auffällt, wenn man geringe Latenzen braucht: Diese Art der Fehlerkorrektur durch Neuanforderung der betreffenden Daten ist zeitraubend. Es dauert eine gewisse Zeit bis klar ist daß ein fragliches Paket nicht mehr kommen wird, es dauert bis eine Neuanforderung vom Empfänger zum Sender verschickt ist, und es dauert bis das nochmal verschickte Datenpaket beim Empfänger ankommt. Wenn die Gesamtdauer dieses Vorgangs länger ist als die gewählte Latenz, dann kommt das Paket zu spät, und die Lücke bei der Ausspielung ist schon entstanden.
Ein zu spät ankommendes Paket ist genauso schlecht wie eins, das gar nicht ankommt.
Genau. Das ist ein entscheidender Unterschied zu "normalen" Computerdaten, wo es darauf ankommt daß alles richtig übertragen wird, auch wenn's mal etwas länger dauert. TCP ist von seinen Eigenschaften her darauf optimiert, alles korrekt zu übertragen, auch wenn's etwas länger dauert. So etwas wie eine "Deadline" ist dem Protokoll unbekannt. Das ist für Streaminganwendungen eigentlich falsch.Und es kommt noch ein weiteres Problem hinzu: Wenn das Netzwerk deswegen Pakete verliert, weil es stark ausgelastet ist, dann macht es TCP durch die Neuanforderung nur noch schlimmer. Besonders wenn die neu angeforderten Pakete auch noch zu spät kommen und somit nutzlos übertragen werden.
In Situationen, wo man einen Stream an viele Empfänger zugleich schicken will, ist TCP außerdem ineffizient, denn es muß mit jedem Empfänger eine eigene Verbindung aufgebaut werden, und die Daten werden für jede Verbindung separat verschickt. Das ist eine eher unvorteilhafte Ausnutzung der Übertragungskapazität, wenn man die gleichen Daten vielfach übertragen muß. Man überlege sich das bei Live-TV-Streaming mit Millionen von Zuschauern!
Was macht man da?
Man benutzt TCP nicht. Kein Streamingsystem, das für niedrige Latenz optimiert ist, benutzt TCP, aus dem eben beschriebenen Grund. Entweder es wird direkt mit IP gearbeitet, oder wahrscheinlicher benutzt man UDP über IP. Damit verliert man allerdings die automatische Neuanforderung der Daten. Man kann zwar erkennen ob ein Paket fehlt oder beschädigt wurde, aber es gibt keine automatische Reaktion darauf. Wenn man so etwas wie Fehlerkorrektur haben will, muss man es separat organisieren.Die probate Methode der Fehlerkorrektur, wenn man so etwas braucht, ist die sogenannte "Forward Error Correction (FEC)". Man schickt dabei von vorn herein zusätzliche Daten mit, die der Empfänger zur Rekonstruktion fehlender Teile benutzen kann. Der große Vorteil ist, daß kein Rückfragen beim Sender nötig ist, sondern daß das der Empfänger ganz allein tun kann. Es funktioniert natürlich nur bis zu einer gewissen Fehlerhäufigkeit. Wird das Limit überschritten, gibt's Aussetzer. Das Prinzip ähnelt der Fehlerkorrektur beim Abspielen einer CD, wo ja ebenfalls mit Zusatzdaten gearbeitet wird.
Wenn die Latenz aber ganz gering sein soll, wie in manchen Live-Anwendungen, dann dauert sogar die FEC zu lange. Man muß dann ein zuverlässiges Übertragungsmedium benutzen, bei dem die Wahrscheinlichkeit eines Paketverlustes sehr klein ist. Also z.B. nicht das allgemeine Internet.
So langsam leuchtet mir ein warum es so viele verschiedene Varianten gibt.
Kompromisse, Kompromisse...Man sollte nicht vergessen, daß die Computernetzwerke hier für etwas hergenommen werden, für das sie ursprünglich nicht gebaut wurden. Die Telekom-Industrie hat mit ATM in den späten 80er und vor allem den 90er Jahren des vergangenen Jahrhunderts versucht, für ihre eigenen Anforderungen ein passendes Netzwerksystem zu entwickeln und zu etablieren. Das Streaming ist für ATM von vorn herein eingeplant gewesen und war gewissermassen sogar die Hauptanwendung. Es ist aber mißlungen, diese Technologie zum Ethernet-Konkurrenten zu machen, so daß es schließlich andersrum passiert ist: Ethernet und TCP/IP hat ATM überflügelt und überflüssig gemacht, trotz der geringeren Eignung für Streaming. Heutige Streaming-Systeme versuchen daher, die Nachteile der traditionellen Netzwerktechnik zu umgehen und zu kompensieren, ohne auf eine komplett andere Technik umzusteigen. Die Telekom-Betriebe nutzen das auch intern, und inzwischen laufen große Teile des Telefonverkehrs als IP-Streaming. Die eigentlich vom Ansatz her schlechtere Technologie hat sich durchgesetzt, weil sich damit die größeren "Synergieeffekte" und damit Einsparungen realisieren lassen.
Heißt das, IP-Streaming ist Mist?
So weit würde ich nicht gehen. Es steht auf wackeligeren Füßen als es bei ATM gewesen wäre, aber damit kann man umgehen. Die Hersteller haben das gelernt, und sind noch dabei es zu lernen. Es zeigt sich hier, daß es oft besser ist, eine einfache und etwas eingeschränkte Grundlage zu haben, die dafür aber billig und überall leicht einsetzbar ist. Darauf kann man dann Mehrwertdienste aufsetzen, auch wenn das im Einzelfall etwas schwierig sein kann. Die weite Verbreitung und der günstige Preis machen das wieder wett.Der andere Weg, nämlich der Grundlage von vorn herein alle Fähigkeiten mitzugeben, scheint demgegenüber weniger gut zu funktionieren, weil diese nicht so leicht die große Verbreitung bekommt, und damit die kritische Masse nicht erreicht. Größere Wirtschaftlichkeit gewinnt offenbar über technische Überlegenheit.
Das hat sich übrigens nicht bloß bei ATM gezeigt. Die Netzwerktechnik hat noch diverse weitere Beispiele dafür zu bieten. Beispielsweise war Firewire mal ein Versuch von Apple, ein für Streaming-Anwendungen optimiertes Heimnetzwerk zu etablieren. Im Gegensatz zu USB ist Firewire ein Netzwerk aus gleichwertigen Teilnehmern, während USB mit dem PC einen eindeutigen "Meister" hat. Der Eine oder Andere wird sich noch daran erinnern wie AV-Receiver und andere Geräte mit Firewire-Schnittstelle ausgerüstet wurden, und wie das dann wieder vom Markt verschwunden ist.
Der nächste Versuch, auf Ethernet-Basis dasselbe zu erreichen, nämlich ein Heimnetzwerk für Streaming-Dienste zu schaffen, wurde unter dem Namen AVB vor einigen Jahren betrieben, darf aber zumindest für dieses Anwendungsfeld wohl inzwischen ebenfalls als gescheitert angesehen werden. Der Fokus bei der AVB-Entwicklung liegt inzwischen offenbar bei Anwendungen in Verkehrsmitteln.
Wir haben bisher die audiophilen Aspekte ganz vernachlässigt. Wie steht's denn um die Audioqualität?
Das ist in erster Linie eine Frage der verwendeten Kodierung, und da herrscht im Prinzip völlige Freiheit. Es ist dem Netzwerk recht egal was für Daten da verschickt werden, ob das MP3 ist oder PCM bei 384 kHz und 32-bit. Der Unterschied betrifft lediglich die Datenmenge, und damit die Kapazitäten des Netzwerks. Entweder die Übertragungskapazitäten reichen, oder eben nicht. Die Frage ist eher, ob ein Endgerät eine bestimmte Kodierung beherrscht oder nicht.Das heißt, die Qualität ist eine Frage der Endgeräte am Netzwerk, und nicht des Netzwerks selbst?
So ist es. Man muß im Netzwerk für ausreichend Kapazitätsreserven sorgen, das ist das Entscheidende. Das ist aber weder schwierig noch teuer. Über eine 1 GBit/s Netzwerkverbindung kann man schon ziemlich viel Audio übertragen.Größere Netzwerke brauchen allerdings ein ordentliches Management, schon auch um zu gewährleisten daß sich die verschiedenen Teilnehmer und Dienste nicht gegenseitig auf die Füße treten. Wer Streaming in einem Firmen-Netzwerk einsetzen will, schafft damit für die zuständige IT-Abteilung eine neue Herausforderung. Die müssen dazulernen, und sich eine Strategie erarbeiten, die für das Unternehmen passt. Das regelt sich ebensowenig von selbst wie sich der Strassenverkehr von selbst regelt.
Und der Jitter und solche audiophilen Zipperleins?
Alles eine Frage der Endgeräte. Wenn ein Endgerät mit Jitter Probleme hat, sollte sich dessen Entwickler selbst an die Nase fassen.Ok, dann noch eine letzte Frage: Was ist mit den Netzwerkkabeln? Haben audiophile Kabel irgendeinen Sinn?
Nur für den Verkäufer.Montag, 28. März 2016
Passiver Monitorcontroller für den Betrieb von Studiomonitoren am PC
Heute gibt's ausnahmsweise mal was zum Basteln.
Viele Leute kommen auf die sowohl naheliegende wie auch sinnvolle Idee, sich als Abhöre für den PC ordentliche Studiomonitore statt billiger Brüllwürfel zu gönnen. Besonders ein Pärchen guter aktiver Nahfeldmonitore bietet sich da an. Die gute Idee wird einem aber oftmals durch Brummen, Rauschen oder sonstige Störgeräusche versauert. Zudem würde man sich einen echten mechanischen Lautstärkeregler wünschen, anstatt mit der Maus oder dem Touchpad herumfummeln zu müssen. Und wenn man schon beim Wünschen ist, dann kann auch ein Stummschalter nicht schaden, z.B. wenn mal das Telefon dazwischen klingelt. Man könnte zwar auch die Lautstärke runterdrehen, aber dann verliert man die vorige Einstellung.
Normalerweise ist so etwas der Job von einem Monitorcontroller. So etwas gibts in diversen Ausführungen, aber eben eher in der Profiliga und zu entsprechenden Preisen, und das obwohl es auf den ersten Blick eigentlich kaum etwas zu tun gibt. Dazu kommt, daß solche Geräte eine eigene Stromversorgung brauchen, was nicht bloß eine extra Steckdose braucht, sondern auch eigens ein- und ausgeschaltet werden will.
Man kann es daher auch anders herum angehen, und sich überlegen wie weit man mit einer passiven Schaltung kommen kann, die einfach genug zum Selberbauen ist, und die trotzdem die wichtigsten "Features" hat, die in einem solchen Fall gefordert sind. So etwas stelle ich hier vor, und zwar bloß als Schaltung. Ich überlasse es Eurer Kreativität und Bastelkunst, daraus etwas zu machen was nicht bloß funktioniert, sondern auch ansehbar ist.
Das Fehlen einer Stromversorgung (weder Netz noch Batterie) bedeutet, daß kein Verstärker drin sein kann. Das zwingt einem einige Kompromisse auf, und macht das Ergebnis bis zu einem gewissen Grad von den Eigenschaften der angeschlossenen Geräte abhängig. Es kann daher keine Garantie geben, daß es unter allen Umständen gut funktioniert, und es hat auch keinen Sinn, Messwerte anzugeben, denn die hängen haupsächlich von den Geräten ab. Wie die Amis sagen: YMMV (Your Mileage May Vary).
Die Schaltung bietet folgendes:
Hier die Schaltung:
R1 ist ein handelsübliches Tandem-Poti, bei dem zwei Widerstandsbahnen über die gleiche Achse bedient werden. Heißt oft auch Stereo-Poti. Logarithmisch muß es sein, und wenn Ihr welche findet mit weniger als 10 kOhm ist das von Vorteil, weil dann die Eingangsimpedanz der Lautsprecher weniger Einfluß auf die Einstellcharakteristik des Potis hat. Insofern ist es auch besser, wenn die Eingangsimpedanz der Lautsprecher nicht zu niedrig ist. Die meisten Monitore dürften irgendwo bei 10 kOhm bis 100 kOhm angesiedelt sein, das steht hoffentlich in den technischen Daten. Wenn Ihr findet, daß die Einstellcharakteristik nicht passt, dann müsst Ihr ggf. mit zusätzlichen Widerständen experimentieren, wie z.B. in der Schaltung als R3 und R4 angedeutet. Die sollten allerdings auch nicht viel höher als 10 kOhm werden, sonst könnte eine kapazitive Eingangsimpedanz der Monitore zu einem Höhenabfall führen.
Ein kombinierter Line-Kopfhörer-Ausgang am PC hat üblicherweise keine besonderen Probleme mit Potiwiderständen von 1 kOhm, aber logarithmische Potis sind mit solch niedrigen Werten nicht leicht zu finden. Wer auf Luxus steht kann allerdings Drehschalter mit vielen Stellungen benutzen, dann kann er sich die Widerstandswerte raussuchen.
Der Umschalter kann, wie schon erwähnt, auch die Funktion der Stummschaltung erfüllen, besonders wenn es ein Kippschalter mit Mittelstellung ist. Ansonsten passt so gut wie alles, was zweipolig umschaltet, ob Kipp-, Dreh-, Wipp-, Druck- oder Schiebeschalter.
Die Störunterdrückung der Schaltung hängt in erster Linie an der intelligenten Masseverdrahtung und an der Qualität des symmetrischen Eingangs der verwendeten Monitore. Die Idee dabei ist, die Signalmasse auf der PC-Seite eben nicht mit der Masse der Monitore zu verbinden, denn das gibt oftmals eine Brummschleife. Speziell wenn die Monitore über das Netzkabel geerdet sind, was eher die Regel als die Ausnahme sein dürfte.
Der invertierende Signaleingang der symmetrischen Monitoreingänge (Pin 3) wird dabei quasi als Fühlerleitung benutzt, mit dem die Signalmasse auf der PC-Seite erfühlt wird, ohne daß dabei eine Verbindung mit der Masse der Monitore nötig wird. Eventuelle Störungen zwischen den Massen des PCs und der Monitore werden dann durch die Differenzbildung im Monitoreingang "herausgerechnet". Wenn der symmetrische Eingang auch nur halbwegs was taugt, dann sollte er die Störungen um mindestens 40 dB unterdrücken. Das reicht oft, aber nicht immer.
Damit das funktioniert, muß man acht geben, daß die Masseverbindung der Miniklinke vom PC von der Masse auf der Monitorseite getrennt bleibt. Das hat Einfluß auf die Wahl der Klinkenbuchsen, denn die müssen vom Gehäuse isoliert sein (auch die Kopfhörerbuchse). Die dadurch bewirkte Massetrennung bedeutet eine Auftrennung einer Masseschleife (bzw. Brummschleife), allerdings ohne eine galvanische Trennung. Nur wenn die Monitore mit Eingangsübertragern ausgestattet sind, ergibt sich eine galvanische Trennung. Das wäre zwar toll, ist aber aus Kostengründen eher selten.
Wenn die Störunterdrückung auf diese Weise noch nicht reicht, dann kann man eventuell mit weiteren Massnahmen zum Ziel kommen. Der erste Versuch sollte sein, eine separate Masseverbindung zwischen dem Gehäuse der Schaltung und einer passenden Stelle am Gehäuse des PC zu schaffen. Dafür ist die Masseklemme X5 gedacht. Ihr müßt selbst entscheiden, wie die ausgeführt sein soll. Es könnte z.B. eine 4 mm Buchse sein, die nicht vom Gehäuse isoliert ist. Dann kann man die Masseleitung zum PC mit einem Bananenstecker ausrüsten. Es gibt auch Masseklemmen mit Rändelschraube. Die passen eher zu Masseleitungen mit Kabelschuh.
Am PC muss man sich eine passende Stelle suchen. Es könnte z.B. eine Gehäuseschraube sein, unter die man einen Kabelschuh klemmt. Eine Schraube an einer unbenutzten Steckverbindung kann auch funktionieren, muß aber nicht. Es kommt darauf an wie der PC-Hersteller seine internen Masseverbindungen organisiert hat. Es wird also Experimentieren gefragt sein.
Statt einer solchen separaten Masseleitung kann auch eine Kombination aus R2 und C1 helfen, aber auch da sollten die angegebenen Werte eher als Startwert für das Experimentieren verstanden werden, nicht als endgültige Dimensionierung. Wenn man die Klinkenbuchse für den PC und die Masseklemme X5 nebeneinander an der Rückseite des Metallgehäuses platziert, dann kann man R2 und C1 ganz einfach fliegend dazwischen verlöten.
Überhaupt ist ein Metallgehäuse die richtige Wahl, sowohl zur Schirmung als auch der korrekten Masseführung wegen. Wie das aussehen soll bleibt Eure Wahl. Der Eine will eher eine Pultform, der Andere ein stapelbares Schächtelchen.
Wenn Ihr bei den XLR-Buchsen die Wahl habt, nehmt welche mit Gehäusekontakt. Manschmal ist sogar der Pin 1 schon in der Buchse mit dem Gehäuse verbunden, dann braucht Ihr diese Verbindung schon selber nicht zu machen. Da es Signalausgänge sind, sind die Buchsen männlich. Für die Verbindung mit den Monitoren taugen dann gewöhnliche XLR-Kabel.
Wenn Ihr das Ding gebaut habt, dann werdet Ihr selber schnell merken wie es am besten benutzt wird. Da man die Kopfhörerlautstärke nicht einstellen kann, wird man sich zuerst die Kopfhörerlaustärke am PC angenehm einstellen. Dabei ist man natürlich durch die Möglichkeiten des PC begrenzt, der nicht an allen Kopfhörern eine ausreichende Lautstärke zustande bringt. Das liegt an den Kopfhörerverstärkern der PCs, die eher für kleinere Kopfhörerimpedanzen ausgelegt sind. Eine passive Schaltung kann daran nichts ändern, Ihr müßt also einen Kopfhörer benutzen, der am PC direkt angesteckt vernünftig funktioniert.
Dann schaltet man auf Monitor um, und regelt an den Monitoren mit deren eigenen Reglern die Lautstärke so, daß sich bei maximal aufgedrehtem Regler an Eurem Eigenbau etwas mehr als die maximale Lautstärke ergibt, die Ihr braucht. Dann hat der Regler an der Eigenbau-Schaltung den besten Gebrauchsbereich und die beste "Feinfühligkeit".
Ich hoffe das Kistchen hilft dem Einen oder Anderen von Euch weiter, wäre nett wenn Ihr Feedback geben würdet, welche Erfahrungen Ihr damit macht, falls Ihr Euch entschließen solltet, es auszuprobieren.
Update:
Mein treuer Leser Wolfram Wagner hat mich auf die Möglichkeit aufmerksam gemacht, aus einem linearen Poti mit Hilfe zusätzlicher Festwiderstände eine Poti-Kennlinie zu erreichen, die annähernd logarithmisch werden kann, wenn man die Werte entsprechend wählt. Damit hat man zusätzliche Freiheitsgrade, und die Beschaffung geeigneter Potis wird weniger kritisch. Eine detaillierte Beschreibung dieser Möglichkeit findet man in einem Artikel auf der auch sonst sehr empfehlenswerten Webseite des Australiers Rod Elliott.
Viele Leute kommen auf die sowohl naheliegende wie auch sinnvolle Idee, sich als Abhöre für den PC ordentliche Studiomonitore statt billiger Brüllwürfel zu gönnen. Besonders ein Pärchen guter aktiver Nahfeldmonitore bietet sich da an. Die gute Idee wird einem aber oftmals durch Brummen, Rauschen oder sonstige Störgeräusche versauert. Zudem würde man sich einen echten mechanischen Lautstärkeregler wünschen, anstatt mit der Maus oder dem Touchpad herumfummeln zu müssen. Und wenn man schon beim Wünschen ist, dann kann auch ein Stummschalter nicht schaden, z.B. wenn mal das Telefon dazwischen klingelt. Man könnte zwar auch die Lautstärke runterdrehen, aber dann verliert man die vorige Einstellung.
Normalerweise ist so etwas der Job von einem Monitorcontroller. So etwas gibts in diversen Ausführungen, aber eben eher in der Profiliga und zu entsprechenden Preisen, und das obwohl es auf den ersten Blick eigentlich kaum etwas zu tun gibt. Dazu kommt, daß solche Geräte eine eigene Stromversorgung brauchen, was nicht bloß eine extra Steckdose braucht, sondern auch eigens ein- und ausgeschaltet werden will.
Man kann es daher auch anders herum angehen, und sich überlegen wie weit man mit einer passiven Schaltung kommen kann, die einfach genug zum Selberbauen ist, und die trotzdem die wichtigsten "Features" hat, die in einem solchen Fall gefordert sind. So etwas stelle ich hier vor, und zwar bloß als Schaltung. Ich überlasse es Eurer Kreativität und Bastelkunst, daraus etwas zu machen was nicht bloß funktioniert, sondern auch ansehbar ist.
Das Fehlen einer Stromversorgung (weder Netz noch Batterie) bedeutet, daß kein Verstärker drin sein kann. Das zwingt einem einige Kompromisse auf, und macht das Ergebnis bis zu einem gewissen Grad von den Eigenschaften der angeschlossenen Geräte abhängig. Es kann daher keine Garantie geben, daß es unter allen Umständen gut funktioniert, und es hat auch keinen Sinn, Messwerte anzugeben, denn die hängen haupsächlich von den Geräten ab. Wie die Amis sagen: YMMV (Your Mileage May Vary).
Die Schaltung bietet folgendes:
- Anschluß an den Line/Kopfhörer-Ausgang des PC über Miniklinke (3,5 mm).
- XLR-Ausgänge für zwei Studiomonitore mit symmetrischem Eingang.
- Klinkenbuchse für einen Kopfhörer (normale Klinke oder Miniklinke).
- Stereo-Lautstärkeregler für die Lautsprecher (nicht für den Kopfhörer).
- Umschalter zwischen Lautsprecher und Kopfhörer (beides zugleich geht nicht).
- Wenn der Umschalter eine Mitten-Aus-Stellung hat, hat man eine Stummschaltung.
- Störungsunterdrückung durch Ausnutzen des symmetrischen Eingangs der Monitore.
- Kopfhörer und Lautsprecher gehen nicht gleichzeitig, sondern nur abwechselnd.
- Für den Kopfhörer gelten die Eigenschaften des PC-Ausgangs bzgl. Impedanz.
- Die Lautstärke des Kopfhörers kann nur im PC eingestellt werden.
- Die Monitore brauchen einen vernünftigen symmetrischen Eingang.
- Die Charakteristik des Lautstärkereglers hängt von deren Eingangsimpedanzen ab.
- Die Monitore sollten auch eigene Lautstärkeeinsteller haben (z.B. auf der Rückseite).
- Die Lösung ist nicht für lange Kabelwege. Es geht um "Schreibtischverdrahtung".
Hier die Schaltung:
R1 ist ein handelsübliches Tandem-Poti, bei dem zwei Widerstandsbahnen über die gleiche Achse bedient werden. Heißt oft auch Stereo-Poti. Logarithmisch muß es sein, und wenn Ihr welche findet mit weniger als 10 kOhm ist das von Vorteil, weil dann die Eingangsimpedanz der Lautsprecher weniger Einfluß auf die Einstellcharakteristik des Potis hat. Insofern ist es auch besser, wenn die Eingangsimpedanz der Lautsprecher nicht zu niedrig ist. Die meisten Monitore dürften irgendwo bei 10 kOhm bis 100 kOhm angesiedelt sein, das steht hoffentlich in den technischen Daten. Wenn Ihr findet, daß die Einstellcharakteristik nicht passt, dann müsst Ihr ggf. mit zusätzlichen Widerständen experimentieren, wie z.B. in der Schaltung als R3 und R4 angedeutet. Die sollten allerdings auch nicht viel höher als 10 kOhm werden, sonst könnte eine kapazitive Eingangsimpedanz der Monitore zu einem Höhenabfall führen.
Ein kombinierter Line-Kopfhörer-Ausgang am PC hat üblicherweise keine besonderen Probleme mit Potiwiderständen von 1 kOhm, aber logarithmische Potis sind mit solch niedrigen Werten nicht leicht zu finden. Wer auf Luxus steht kann allerdings Drehschalter mit vielen Stellungen benutzen, dann kann er sich die Widerstandswerte raussuchen.
Der Umschalter kann, wie schon erwähnt, auch die Funktion der Stummschaltung erfüllen, besonders wenn es ein Kippschalter mit Mittelstellung ist. Ansonsten passt so gut wie alles, was zweipolig umschaltet, ob Kipp-, Dreh-, Wipp-, Druck- oder Schiebeschalter.
Die Störunterdrückung der Schaltung hängt in erster Linie an der intelligenten Masseverdrahtung und an der Qualität des symmetrischen Eingangs der verwendeten Monitore. Die Idee dabei ist, die Signalmasse auf der PC-Seite eben nicht mit der Masse der Monitore zu verbinden, denn das gibt oftmals eine Brummschleife. Speziell wenn die Monitore über das Netzkabel geerdet sind, was eher die Regel als die Ausnahme sein dürfte.
Der invertierende Signaleingang der symmetrischen Monitoreingänge (Pin 3) wird dabei quasi als Fühlerleitung benutzt, mit dem die Signalmasse auf der PC-Seite erfühlt wird, ohne daß dabei eine Verbindung mit der Masse der Monitore nötig wird. Eventuelle Störungen zwischen den Massen des PCs und der Monitore werden dann durch die Differenzbildung im Monitoreingang "herausgerechnet". Wenn der symmetrische Eingang auch nur halbwegs was taugt, dann sollte er die Störungen um mindestens 40 dB unterdrücken. Das reicht oft, aber nicht immer.
Damit das funktioniert, muß man acht geben, daß die Masseverbindung der Miniklinke vom PC von der Masse auf der Monitorseite getrennt bleibt. Das hat Einfluß auf die Wahl der Klinkenbuchsen, denn die müssen vom Gehäuse isoliert sein (auch die Kopfhörerbuchse). Die dadurch bewirkte Massetrennung bedeutet eine Auftrennung einer Masseschleife (bzw. Brummschleife), allerdings ohne eine galvanische Trennung. Nur wenn die Monitore mit Eingangsübertragern ausgestattet sind, ergibt sich eine galvanische Trennung. Das wäre zwar toll, ist aber aus Kostengründen eher selten.
Wenn die Störunterdrückung auf diese Weise noch nicht reicht, dann kann man eventuell mit weiteren Massnahmen zum Ziel kommen. Der erste Versuch sollte sein, eine separate Masseverbindung zwischen dem Gehäuse der Schaltung und einer passenden Stelle am Gehäuse des PC zu schaffen. Dafür ist die Masseklemme X5 gedacht. Ihr müßt selbst entscheiden, wie die ausgeführt sein soll. Es könnte z.B. eine 4 mm Buchse sein, die nicht vom Gehäuse isoliert ist. Dann kann man die Masseleitung zum PC mit einem Bananenstecker ausrüsten. Es gibt auch Masseklemmen mit Rändelschraube. Die passen eher zu Masseleitungen mit Kabelschuh.
Am PC muss man sich eine passende Stelle suchen. Es könnte z.B. eine Gehäuseschraube sein, unter die man einen Kabelschuh klemmt. Eine Schraube an einer unbenutzten Steckverbindung kann auch funktionieren, muß aber nicht. Es kommt darauf an wie der PC-Hersteller seine internen Masseverbindungen organisiert hat. Es wird also Experimentieren gefragt sein.
Statt einer solchen separaten Masseleitung kann auch eine Kombination aus R2 und C1 helfen, aber auch da sollten die angegebenen Werte eher als Startwert für das Experimentieren verstanden werden, nicht als endgültige Dimensionierung. Wenn man die Klinkenbuchse für den PC und die Masseklemme X5 nebeneinander an der Rückseite des Metallgehäuses platziert, dann kann man R2 und C1 ganz einfach fliegend dazwischen verlöten.
Überhaupt ist ein Metallgehäuse die richtige Wahl, sowohl zur Schirmung als auch der korrekten Masseführung wegen. Wie das aussehen soll bleibt Eure Wahl. Der Eine will eher eine Pultform, der Andere ein stapelbares Schächtelchen.
Wenn Ihr bei den XLR-Buchsen die Wahl habt, nehmt welche mit Gehäusekontakt. Manschmal ist sogar der Pin 1 schon in der Buchse mit dem Gehäuse verbunden, dann braucht Ihr diese Verbindung schon selber nicht zu machen. Da es Signalausgänge sind, sind die Buchsen männlich. Für die Verbindung mit den Monitoren taugen dann gewöhnliche XLR-Kabel.
Wenn Ihr das Ding gebaut habt, dann werdet Ihr selber schnell merken wie es am besten benutzt wird. Da man die Kopfhörerlautstärke nicht einstellen kann, wird man sich zuerst die Kopfhörerlaustärke am PC angenehm einstellen. Dabei ist man natürlich durch die Möglichkeiten des PC begrenzt, der nicht an allen Kopfhörern eine ausreichende Lautstärke zustande bringt. Das liegt an den Kopfhörerverstärkern der PCs, die eher für kleinere Kopfhörerimpedanzen ausgelegt sind. Eine passive Schaltung kann daran nichts ändern, Ihr müßt also einen Kopfhörer benutzen, der am PC direkt angesteckt vernünftig funktioniert.
Dann schaltet man auf Monitor um, und regelt an den Monitoren mit deren eigenen Reglern die Lautstärke so, daß sich bei maximal aufgedrehtem Regler an Eurem Eigenbau etwas mehr als die maximale Lautstärke ergibt, die Ihr braucht. Dann hat der Regler an der Eigenbau-Schaltung den besten Gebrauchsbereich und die beste "Feinfühligkeit".
Ich hoffe das Kistchen hilft dem Einen oder Anderen von Euch weiter, wäre nett wenn Ihr Feedback geben würdet, welche Erfahrungen Ihr damit macht, falls Ihr Euch entschließen solltet, es auszuprobieren.
Update:
Mein treuer Leser Wolfram Wagner hat mich auf die Möglichkeit aufmerksam gemacht, aus einem linearen Poti mit Hilfe zusätzlicher Festwiderstände eine Poti-Kennlinie zu erreichen, die annähernd logarithmisch werden kann, wenn man die Werte entsprechend wählt. Damit hat man zusätzliche Freiheitsgrade, und die Beschaffung geeigneter Potis wird weniger kritisch. Eine detaillierte Beschreibung dieser Möglichkeit findet man in einem Artikel auf der auch sonst sehr empfehlenswerten Webseite des Australiers Rod Elliott.
Donnerstag, 21. Januar 2016
Mit Quatsch Angeln
Beim Angeln geht's bekanntlich darum, einem Fisch einen Köder vor die Nase zu halten, in der Hoffnung daß er den so geil findet, daß er darüber den Haken übersieht.
So ein Fall ist MQA. Die neueste Sau, die durch's audiophile Dorf getrieben wird. Die "Zukunft des Streaming" nennt es die Stereophile. Lavorgna meint sogar, MQA klinge besser als das Original, aus dem die MQA-Variante erzeugt wurde. Kann man Bullshit klarer vor Augen haben?
Die Szene tut sich allerdings immer noch schwer damit, zu verstehen was das überhaupt ist. Das ist nicht verwunderlich angesichts der recht vagen Informationen, die man dazu von Meridian zu lesen kriegt. Ich versuche mal zusammen zu stellen, was ich von der technischen Seite bisher glaube verstanden zu haben. Daraus wird allerdings schon ziemlich klar, worin der Haken besteht, der sich im Köder verbirgt. Es möge jeder Fisch selbst beurteilen, ob ihm unter diesen Umständen der Köder noch schmeckt.
Ein Aspekt von MQA, der relativ klar zutage liegt, ist seine Kompatibilität mit Abspielgeräten, die Stereo bei 48 kHz mit 16-bit abspielen können. Das sollten annähernd alle interessierenden Geräte sein. Das Distributionsformat selbst kommt zwar mit 24-bit Wortlänge daher, aber da sich die unteren Bits für ein normales Abspielgerät wie Rauschen verhalten, kann man es ohne Komplikationen abspielen, egal ob das Gerät die Wortlänge auf 16 bit reduziert oder nicht. Man muß nur den entsprechenden Rauschpegel akzeptieren, was weniger dramatisch ist als es vielleicht scheint, denn in Sachen Rauschpegel sind die meisten Produktionen sowieso nicht besonders anspruchsvoll.
In den "unteren" Bits, die wie Rauschen wirken, steckt aber zusätzliche Information, die ein spezielles Abspielgerät entdecken, decodieren und verwenden kann. Die zusätzliche Information soll speziell die zeitliche Auflösung verbessern, und damit Artefakte vermeiden helfen, die angeblich bei der Verwendung von 44,1 kHz oder 48 kHz Abtastfrequenz störend in Erscheinung treten können.
Um Zugang zu dieser zusätzlichen Information zu haben, muß man die MQA-Technologie lizensieren (als Hersteller) oder ein entsprechend ausgerüstetes Gerät haben (als Verbraucher). Damit verbunden ist auch eine Rechteverwaltung und entsprechende lizenzrechtliche Vereinbarungen. Natürlich muß die Quelle solche Informationen erst einmal enthalten, also mit MQA-Technologie erstellt worden sein. Außerdem darf keine Signalbearbeitung dazwischen geschehen sein, sonst wäre die Zusatzinformation zerstört. Es sei denn das bearbeitende Gerät ist selbst wieder MQA-kompatibel, so daß es die Information erkennt und bewahren kann. MQA verlangt also eine komplett MQA-konforme (und lizensierte) Signalkette, andernfalls ist man auf das 48 kHz Basisformat zurückgeworfen, dessen Qualität noch unter der einer gewöhnlichen CD liegt (weil weniger als 16 "effektive" Bits zur Verfügung stehen).
Wie das genau funktioniert mit der Verbesserung der zeitlichen Auflösung ist (mir) nicht so klar, aber das ist vielleicht auch gar nicht so wichtig. Für den Anwender ist damit jedenfalls schon klar, worin der Haken besteht, der sich im Köder verbirgt: Es ist ein neuerlicher Versuch, eine Rechteverwaltung im Material unterzubringen, um damit kontrollieren zu können was der Endanwender mit dem Material machen kann. Zudem braucht es eine komplett MQA-kompatible Signalkette, was entsprechende Lizenzeinnahmen für Meridian nach sich zieht.
Damit wird deutlich, was dabei für Meridian heraus springen soll, und es läßt auch erahnen, warum das die Rechteinhaber des Quellmaterials interessant finden könnten. Weniger klar ist, warum das der Konsument gut finden soll.
Natürlich versucht man es über die Behauptung einer Qualitätssteigerung. Das ist nichts Neues, denn so wird seit Jahrzehnten jede Neuerung im HiFi-Bereich beworben, was nicht verhindert hat, daß die wahrgenommene Qualität der Musik-Veröffentlichungen wegen des Loudness-Wars immer schlechter wurde. Entsprechend oft sind solche angeblichen Verbesserungen auch wieder in der Versenkung verschwunden. Was die audiophilen Meinungsmacher nicht daran hindert, auf die gleiche Masche immer wieder hereinzufallen, und die Neuerung in den höchsten Tönen zu lobhudeln.
Im Grunde wird man bei MQA unweigerlich an die HDCD erinnert. Ähnlich wie bei HQA wurde dort zusätzliche Information in den niedrigen Bits kodiert, die ein lizensiertes Abspielgerät verstehen und verwenden konnte, um die Qualität zu verbessern. Für normale Geräte ist die zusätzliche Information einfach Rauschen. Die grundsätzliche Idee ist also uralt. Der Erfolg war bei HDCD ziemlich überschaubar. Der interessierte Leser möge mal recherchieren, in welchen hymnischen Worten damals (ist immerhin 20 Jahre her) die Qualität von HDCD besungen wurde. Ähnlichkeiten mit der Situation heute bei HQA wären nicht rein zufällig.
Nun ging es bei HDCD in erster Linie um die Vergrößerung der Wortlänge von 16 auf (so wurde behauptet) 20 Bit. Bei HQA steht demgegenüber die zeitliche Komponente im Vordergrund, also letztlich die Abtastfrequenz. Nun ist man ziemlich frei in dem was man in den "Rauschbits" unterbringt. Man kann damit die scheinbare Wortlänge (also den Dynamikumfang) zu vergrößern versuchen, oder den Frequenzumfang (was mit der "Zeitauflösung" gemeint ist), oder irgend etwas anderes. Das ist der Vorteil der Datentechnik, daß man den Bits eine beliebige Bedeutung geben kann.
Nun ist's also die Zeitinformation. Das passt zwar zum momentanen Output der audiophilen Hype-Maschine, wo solche zeitbezogenen Begriffe (ich schrecke davor zurück, es "Argumente" zu nennen) ziemlich Konjunktur haben. Es ist aber eben auch gefühliger Unsinn, der einer genaueren Betrachtung nicht standhält. Ich habe dazu schon Einiges hier im Blog geschrieben. Warum sollte es diesmal besser gehen als damals bei HDCD? Ich sehe keinen überzeugenden Grund.
Letztlich steht dahinter die alte Frage, ob die CD, bzw. das von ihr verwendete Format von 44,1 kHz bei 16 bit für ein Distributionsformat ausreicht, und wenn nicht warum nicht. Seit die CD kopierbar wurde ersehnen sich die "Rechteinhaber" heiß und inniglich den Tod der CD herbei, und ihren Ersatz durch irgend etwas, was ihnen das Gefühl zurück gibt, sie hätten die Kontrolle über das was der Verbraucher mit ihrem Produkt macht. Unzählige Versuche in diese Richtung, manche sehr dilettantisch, manche weniger, hat es seither in diese Richtung gegeben, und die CD hat alle überlebt, einschließlich daß man auf ihrem Image herumtrampelt so sehr man kann. Es sind eben nicht alle Verbraucher so blöd wie viele Audiophile, und wie es sich die "Industrie" wünscht.
Weil das die entscheidende, zugrunde liegende Frage ist, haben sich die Meridian-Leute ihr direkt gewidmet, nämlich in einem Vortrag auf der AES-Convention im Herbst des vorletzten Jahres. Darüber habe ich hier schon einmal geschrieben. Kurz gesagt: Sie haben nicht gezeigt, daß die CD nicht ausreicht, obwohl das weithin so interpretiert wurde. Diese Interpretation wollten sie offensichtlich erreichen, und in der leichtgläubigen audiophilen Szene ist ihnen das auch gelungen.
Die Marketing-Aktion geht aber weiter, nicht bloß in den entsprechenden Messen wie der High-End, oder kürzlich der CES in Las Vegas. Auch die wissenschaftlich orientierte Fachöffentlichkeit wird weiter bedient. So erschien z.B. im vergangenen Herbst im AES-Journal ein zweiseitiger Versuch von Bob Stuart von Meridian, "High-Resolution Audio" zu definieren. MQA wird nicht ausdrücklich erwähnt, ist aber eindeutig gemeint.
Ich finde dabei insbesondere bemerkenswert, wie Stuart darin versucht, eine wissenschaftliche Anmutung (jede Menge wissenschaftlich klingende Prosa einschließlich Literaturverweise und scheinbare Fakten) mit ziemlich unwissenschaftlichen Assoziationen zu verbinden. Es ist ein Beispiel für Propaganda, spezialisiert auf das AES-Fachpublikum. Ich möchte hier nicht schließen bevor ich nicht ein paar wenige Beispiele dafür auseinander genommen habe.
Stuart vergleicht gleich zu Anfang den Begriff der Auflösung (Resolution) mit dem analogen Begriff der Optik. Das klingt plausibel, ist aber ausgesprochen unredlich. Die Art der Analogie, die er zu ziehen versucht, passt zwischen Bild und Ton eben gerade nicht. Im Bildbereich bezeichnet die Auflösung, wie er richtig schreibt, die Fähigkeit, zwei Objekte zu unterscheiden, die sich in großer räumlicher Nähe zueinander befinden. Würde man das auf den Ton übertragen, müsste man darunter die Fähigkeit verstehen, zwei Schallereignisse unterscheiden zu können, die sich in großer zeitlicher Nähe befinden. Das ist ein Problem, das die Psychoakustik schon seit langer Zeit untersucht hat. Das Ergebnis ist in keiner Hinsicht ein Argument für "High Resolution Audio", denn der zeitliche Abstand liegt im Millisekundenbereich, wozu man nun wahrlich kein HRA braucht.
Stuart spricht stattdessen diffus von "temporal microstructure in sound", und macht damit wenig mehr als das Bullshit-Wörterbuch der Audiophilie zu zitieren, ohne dem eine klare Bedeutung zu geben. Der Bezug zu einer konkreten Abtastfrequenz wird nirgendwo stringent abgeleitet oder auch nur plausibel argumentiert. Die ganze Analogie zum Bild bricht damit in sich zusammen. Es ist kein wissenschaftliches Argument, sondern ein Appell an die Vorstellung.
Es spricht auch nicht für ihn, daß er den schon oft widerlegten Fehler wiederholt, aus der Bandbreite eines einzelnen Kanals eine zeitliche Auflösungsgrenze abzuleiten, die nur scheinbar mit der relativen zeitlichen Auflösung neuronaler Prozesse korrelliert. Für eine relative zeitliche Auflösung von z.B. 8 µs braucht es aber beileibe keine analoge Bandbreite von 44 kHz. Die von Stuart erwähnte neuronale Informationsverarbeitung hat nirgends diese Bandbreite, nicht einmal annähernd. Die Wiederholung der Falschinformation wirkt insbesondere deswegen ziemlich übel, weil er noch meint mit den "modernen Einsichten" der Psychophysik argumentieren zu müssen. Die ganze Begründung, warum man so eine hohe Bandbreite brauchen soll, ist ein Fehlschluss, der anscheinend nicht oft genug widerlegt werden kann, er wird einfach immer wieder wiederholt.
In der weiteren Folge postuliert Stuart eine "Selbstähnlichkeit" von Schallereignissen, die man ausnutzen könne, was er alternativ eine "endliche Neuerungsrate" nennt. Er versäumt es, zu erklären warum das nicht in direktem Widerspruch zu dem steht, was Audiophile gern mit dem Begriff "Impuls" bezeichnen. Mir scheint das geradewegs die Antithese dazu zu sein. Der Impuls ist schließlich gerade dadurch gekennzeichnet, daß er spontan und nicht vorhersehbar auftritt, so daß dessen Neuerungsrate eben gerade nicht begrenzt ist. Man sieht daß Stuart zwischen diffusen audiophilen Termini auf der einen Seite, und wissenschaftlichen Begriffen auf der anderen Seite, hin- und her schwankt, ohne für dabei auftretende Widersprüche empfindlich zu sein. Das ist für Pseudowissenschaft nicht untypisch.
Es geht so weiter, aber dabei will ich es mal bewenden lassen. Stuart agiert und argumentiert geschickt, und er versteht die Marktmechanismen. Ob das zum Erfolg reicht bleibt aber fraglich. Ich hoffe darauf, daß die große Mehrheit der Verbraucher abgebrüht genug ist, um ihm nicht auf den Leim zu gehen.
Nachtrag mit Links auf interessante Seiten zu MQA (auf Englisch):
Diskussion auf Hydrogenaudio
Archimago's Untersuchungen
Auf youtube gibt's zu MQA jede Menge Promomaterial, meist von dubioser bis nicht vorhandener Seriosität oder Informativität.
So ein Fall ist MQA. Die neueste Sau, die durch's audiophile Dorf getrieben wird. Die "Zukunft des Streaming" nennt es die Stereophile. Lavorgna meint sogar, MQA klinge besser als das Original, aus dem die MQA-Variante erzeugt wurde. Kann man Bullshit klarer vor Augen haben?
Die Szene tut sich allerdings immer noch schwer damit, zu verstehen was das überhaupt ist. Das ist nicht verwunderlich angesichts der recht vagen Informationen, die man dazu von Meridian zu lesen kriegt. Ich versuche mal zusammen zu stellen, was ich von der technischen Seite bisher glaube verstanden zu haben. Daraus wird allerdings schon ziemlich klar, worin der Haken besteht, der sich im Köder verbirgt. Es möge jeder Fisch selbst beurteilen, ob ihm unter diesen Umständen der Köder noch schmeckt.
Ein Aspekt von MQA, der relativ klar zutage liegt, ist seine Kompatibilität mit Abspielgeräten, die Stereo bei 48 kHz mit 16-bit abspielen können. Das sollten annähernd alle interessierenden Geräte sein. Das Distributionsformat selbst kommt zwar mit 24-bit Wortlänge daher, aber da sich die unteren Bits für ein normales Abspielgerät wie Rauschen verhalten, kann man es ohne Komplikationen abspielen, egal ob das Gerät die Wortlänge auf 16 bit reduziert oder nicht. Man muß nur den entsprechenden Rauschpegel akzeptieren, was weniger dramatisch ist als es vielleicht scheint, denn in Sachen Rauschpegel sind die meisten Produktionen sowieso nicht besonders anspruchsvoll.
In den "unteren" Bits, die wie Rauschen wirken, steckt aber zusätzliche Information, die ein spezielles Abspielgerät entdecken, decodieren und verwenden kann. Die zusätzliche Information soll speziell die zeitliche Auflösung verbessern, und damit Artefakte vermeiden helfen, die angeblich bei der Verwendung von 44,1 kHz oder 48 kHz Abtastfrequenz störend in Erscheinung treten können.
Um Zugang zu dieser zusätzlichen Information zu haben, muß man die MQA-Technologie lizensieren (als Hersteller) oder ein entsprechend ausgerüstetes Gerät haben (als Verbraucher). Damit verbunden ist auch eine Rechteverwaltung und entsprechende lizenzrechtliche Vereinbarungen. Natürlich muß die Quelle solche Informationen erst einmal enthalten, also mit MQA-Technologie erstellt worden sein. Außerdem darf keine Signalbearbeitung dazwischen geschehen sein, sonst wäre die Zusatzinformation zerstört. Es sei denn das bearbeitende Gerät ist selbst wieder MQA-kompatibel, so daß es die Information erkennt und bewahren kann. MQA verlangt also eine komplett MQA-konforme (und lizensierte) Signalkette, andernfalls ist man auf das 48 kHz Basisformat zurückgeworfen, dessen Qualität noch unter der einer gewöhnlichen CD liegt (weil weniger als 16 "effektive" Bits zur Verfügung stehen).
Wie das genau funktioniert mit der Verbesserung der zeitlichen Auflösung ist (mir) nicht so klar, aber das ist vielleicht auch gar nicht so wichtig. Für den Anwender ist damit jedenfalls schon klar, worin der Haken besteht, der sich im Köder verbirgt: Es ist ein neuerlicher Versuch, eine Rechteverwaltung im Material unterzubringen, um damit kontrollieren zu können was der Endanwender mit dem Material machen kann. Zudem braucht es eine komplett MQA-kompatible Signalkette, was entsprechende Lizenzeinnahmen für Meridian nach sich zieht.
Damit wird deutlich, was dabei für Meridian heraus springen soll, und es läßt auch erahnen, warum das die Rechteinhaber des Quellmaterials interessant finden könnten. Weniger klar ist, warum das der Konsument gut finden soll.
Natürlich versucht man es über die Behauptung einer Qualitätssteigerung. Das ist nichts Neues, denn so wird seit Jahrzehnten jede Neuerung im HiFi-Bereich beworben, was nicht verhindert hat, daß die wahrgenommene Qualität der Musik-Veröffentlichungen wegen des Loudness-Wars immer schlechter wurde. Entsprechend oft sind solche angeblichen Verbesserungen auch wieder in der Versenkung verschwunden. Was die audiophilen Meinungsmacher nicht daran hindert, auf die gleiche Masche immer wieder hereinzufallen, und die Neuerung in den höchsten Tönen zu lobhudeln.
Im Grunde wird man bei MQA unweigerlich an die HDCD erinnert. Ähnlich wie bei HQA wurde dort zusätzliche Information in den niedrigen Bits kodiert, die ein lizensiertes Abspielgerät verstehen und verwenden konnte, um die Qualität zu verbessern. Für normale Geräte ist die zusätzliche Information einfach Rauschen. Die grundsätzliche Idee ist also uralt. Der Erfolg war bei HDCD ziemlich überschaubar. Der interessierte Leser möge mal recherchieren, in welchen hymnischen Worten damals (ist immerhin 20 Jahre her) die Qualität von HDCD besungen wurde. Ähnlichkeiten mit der Situation heute bei HQA wären nicht rein zufällig.
Nun ging es bei HDCD in erster Linie um die Vergrößerung der Wortlänge von 16 auf (so wurde behauptet) 20 Bit. Bei HQA steht demgegenüber die zeitliche Komponente im Vordergrund, also letztlich die Abtastfrequenz. Nun ist man ziemlich frei in dem was man in den "Rauschbits" unterbringt. Man kann damit die scheinbare Wortlänge (also den Dynamikumfang) zu vergrößern versuchen, oder den Frequenzumfang (was mit der "Zeitauflösung" gemeint ist), oder irgend etwas anderes. Das ist der Vorteil der Datentechnik, daß man den Bits eine beliebige Bedeutung geben kann.
Nun ist's also die Zeitinformation. Das passt zwar zum momentanen Output der audiophilen Hype-Maschine, wo solche zeitbezogenen Begriffe (ich schrecke davor zurück, es "Argumente" zu nennen) ziemlich Konjunktur haben. Es ist aber eben auch gefühliger Unsinn, der einer genaueren Betrachtung nicht standhält. Ich habe dazu schon Einiges hier im Blog geschrieben. Warum sollte es diesmal besser gehen als damals bei HDCD? Ich sehe keinen überzeugenden Grund.
Letztlich steht dahinter die alte Frage, ob die CD, bzw. das von ihr verwendete Format von 44,1 kHz bei 16 bit für ein Distributionsformat ausreicht, und wenn nicht warum nicht. Seit die CD kopierbar wurde ersehnen sich die "Rechteinhaber" heiß und inniglich den Tod der CD herbei, und ihren Ersatz durch irgend etwas, was ihnen das Gefühl zurück gibt, sie hätten die Kontrolle über das was der Verbraucher mit ihrem Produkt macht. Unzählige Versuche in diese Richtung, manche sehr dilettantisch, manche weniger, hat es seither in diese Richtung gegeben, und die CD hat alle überlebt, einschließlich daß man auf ihrem Image herumtrampelt so sehr man kann. Es sind eben nicht alle Verbraucher so blöd wie viele Audiophile, und wie es sich die "Industrie" wünscht.
Weil das die entscheidende, zugrunde liegende Frage ist, haben sich die Meridian-Leute ihr direkt gewidmet, nämlich in einem Vortrag auf der AES-Convention im Herbst des vorletzten Jahres. Darüber habe ich hier schon einmal geschrieben. Kurz gesagt: Sie haben nicht gezeigt, daß die CD nicht ausreicht, obwohl das weithin so interpretiert wurde. Diese Interpretation wollten sie offensichtlich erreichen, und in der leichtgläubigen audiophilen Szene ist ihnen das auch gelungen.
Die Marketing-Aktion geht aber weiter, nicht bloß in den entsprechenden Messen wie der High-End, oder kürzlich der CES in Las Vegas. Auch die wissenschaftlich orientierte Fachöffentlichkeit wird weiter bedient. So erschien z.B. im vergangenen Herbst im AES-Journal ein zweiseitiger Versuch von Bob Stuart von Meridian, "High-Resolution Audio" zu definieren. MQA wird nicht ausdrücklich erwähnt, ist aber eindeutig gemeint.
Ich finde dabei insbesondere bemerkenswert, wie Stuart darin versucht, eine wissenschaftliche Anmutung (jede Menge wissenschaftlich klingende Prosa einschließlich Literaturverweise und scheinbare Fakten) mit ziemlich unwissenschaftlichen Assoziationen zu verbinden. Es ist ein Beispiel für Propaganda, spezialisiert auf das AES-Fachpublikum. Ich möchte hier nicht schließen bevor ich nicht ein paar wenige Beispiele dafür auseinander genommen habe.
Stuart vergleicht gleich zu Anfang den Begriff der Auflösung (Resolution) mit dem analogen Begriff der Optik. Das klingt plausibel, ist aber ausgesprochen unredlich. Die Art der Analogie, die er zu ziehen versucht, passt zwischen Bild und Ton eben gerade nicht. Im Bildbereich bezeichnet die Auflösung, wie er richtig schreibt, die Fähigkeit, zwei Objekte zu unterscheiden, die sich in großer räumlicher Nähe zueinander befinden. Würde man das auf den Ton übertragen, müsste man darunter die Fähigkeit verstehen, zwei Schallereignisse unterscheiden zu können, die sich in großer zeitlicher Nähe befinden. Das ist ein Problem, das die Psychoakustik schon seit langer Zeit untersucht hat. Das Ergebnis ist in keiner Hinsicht ein Argument für "High Resolution Audio", denn der zeitliche Abstand liegt im Millisekundenbereich, wozu man nun wahrlich kein HRA braucht.
Stuart spricht stattdessen diffus von "temporal microstructure in sound", und macht damit wenig mehr als das Bullshit-Wörterbuch der Audiophilie zu zitieren, ohne dem eine klare Bedeutung zu geben. Der Bezug zu einer konkreten Abtastfrequenz wird nirgendwo stringent abgeleitet oder auch nur plausibel argumentiert. Die ganze Analogie zum Bild bricht damit in sich zusammen. Es ist kein wissenschaftliches Argument, sondern ein Appell an die Vorstellung.
Es spricht auch nicht für ihn, daß er den schon oft widerlegten Fehler wiederholt, aus der Bandbreite eines einzelnen Kanals eine zeitliche Auflösungsgrenze abzuleiten, die nur scheinbar mit der relativen zeitlichen Auflösung neuronaler Prozesse korrelliert. Für eine relative zeitliche Auflösung von z.B. 8 µs braucht es aber beileibe keine analoge Bandbreite von 44 kHz. Die von Stuart erwähnte neuronale Informationsverarbeitung hat nirgends diese Bandbreite, nicht einmal annähernd. Die Wiederholung der Falschinformation wirkt insbesondere deswegen ziemlich übel, weil er noch meint mit den "modernen Einsichten" der Psychophysik argumentieren zu müssen. Die ganze Begründung, warum man so eine hohe Bandbreite brauchen soll, ist ein Fehlschluss, der anscheinend nicht oft genug widerlegt werden kann, er wird einfach immer wieder wiederholt.
In der weiteren Folge postuliert Stuart eine "Selbstähnlichkeit" von Schallereignissen, die man ausnutzen könne, was er alternativ eine "endliche Neuerungsrate" nennt. Er versäumt es, zu erklären warum das nicht in direktem Widerspruch zu dem steht, was Audiophile gern mit dem Begriff "Impuls" bezeichnen. Mir scheint das geradewegs die Antithese dazu zu sein. Der Impuls ist schließlich gerade dadurch gekennzeichnet, daß er spontan und nicht vorhersehbar auftritt, so daß dessen Neuerungsrate eben gerade nicht begrenzt ist. Man sieht daß Stuart zwischen diffusen audiophilen Termini auf der einen Seite, und wissenschaftlichen Begriffen auf der anderen Seite, hin- und her schwankt, ohne für dabei auftretende Widersprüche empfindlich zu sein. Das ist für Pseudowissenschaft nicht untypisch.
Es geht so weiter, aber dabei will ich es mal bewenden lassen. Stuart agiert und argumentiert geschickt, und er versteht die Marktmechanismen. Ob das zum Erfolg reicht bleibt aber fraglich. Ich hoffe darauf, daß die große Mehrheit der Verbraucher abgebrüht genug ist, um ihm nicht auf den Leim zu gehen.
Nachtrag mit Links auf interessante Seiten zu MQA (auf Englisch):
Diskussion auf Hydrogenaudio
Archimago's Untersuchungen
Auf youtube gibt's zu MQA jede Menge Promomaterial, meist von dubioser bis nicht vorhandener Seriosität oder Informativität.
Sonntag, 10. Januar 2016
Klartext
Vor Jahren, als ich den Kommentarbereich hier im Blog noch völlig offen und unmoderiert gehalten hatte, kam es zu einigen ziemlich unappetitlichen Ausschreitungen, wie man unter den entsprechenden älteren Blogartikeln noch immer nachlesen kann. Damals dachte ich, das wäre schon ziemlich kraß gewesen, immerhin habe ich mich veranlaßt gefühlt, den Kommentarbereich zu schließen, und stattdessen auf einen Thread im Hifi-Forum umzusteigen. Nicht weil ich mich selber schützen wollte, sondern um "Kollateralschäden", also negative Auswirkungen auf andere Leute, zu vermeiden.
Ich denke noch heute so, daß man ruhig offen sagen können sollte, was einem beliebt, und daß es zur Toleranz auch dazu gehört, Schmähungen zu ertragen, die jemand meint aussprechen zu müssen. Ich bin der Meinung, daß sich Leute letztlich selber schaden und lächerlich machen, wenn sie dabei aus dem Rahmen fallen. Mit anderen Worten, daß man beim Leser Mündigkeit erwarten kann und sich nicht anmaßen sollte, an seiner Stelle darüber zu urteilen, ob ein Kommentar akzeptabel ist oder nicht. Die selbsternannte "Political-Correctness-Polizei" ist mir immer auf die Nerven gegangen, denn bei denen steht grundsätzlich die Form über dem Inhalt; ein Prinzip mit dem ich nichts anfangen kann. Ich bevorzuge Klartext ohne falsche Rücksichten und erwarte daß die Leute damit umgehen können. Einige können's nicht: Ihr Problem.
Jedoch: Gemessen an dem was inzwischen in den sozialen Netzwerken und Foren zum Thema Asyl und Ausländer abgeht, ist das was hier im Forum früher abgelaufen ist eine amüsante Lappalie. Was mich dabei nervös macht sind weniger die Ausschreitungen selbst, ich kann insbesondere nicht recht einschätzen welcher Anteil der Ausschreitungen aus reiner Provokationslust entsteht, ohne daß die Leute wirklich hinter den Inhalten stünden, und welcher Anteil eine tatsächlich so vorhandene Meinung ausdrückt. Kurz gesagt, welcher Teil sind Trolle und welcher Teil Extremisten?
Es gibt ja durchaus eine Lust an der Provokation, das wird man gerade mir gern abnehmen. Und womit könnte man in der aktuellen Zeit besser provozieren als mit rassistischen Parolen? Mit Nazi-Parolen ging das schon immer, inzwischen scheint es aber zu einer kritischen Masse angeschwollen zu sein, in der man sich sicher genug fühlen kann, daß man praktisch keine Hemmungen mehr zu haben braucht. Die Knöpfe waren schon immer da, aber warum bereitet es gerade jetzt so viel Lust draufzudrücken? Oder glauben wirklich mehr als 10% der Leute hier in Deutschland, daß wir wieder das brauchen was uns im letzten Jahrhundert schon einmal in die absolute Katastrophe geführt hat? Kann ein so großer Teil der Bevölkerung derart gehirnamputiert sein?
Oder geht's bloß um's Dampf ablassen? Brauchen wir als Kontrapunkt zu dem ganzen willkommenskulturellen Gutmenschentum jetzt auch eine ordentliche Dosis hysterisch-xenophobes Schlechtmenschentum? Das deutsche Arschloch, zwischendurch fast im Aussterben begriffen, wird wieder kultiviert. Ist das bloß eine Abwehrmaßnahme, in der Hoffnung daß angesichts von so viel blanker Idiotie weniger Flüchtlinge nach Deutschland kommen wollen? Ich fürchte diese Rechnung geht nicht auf.
Aber wenn man einfach mal die Sau rauslassen will, damit's einem danach wieder wohler ist, warum nicht? Wir könnten ja mal ein Jahr der politischen Inkorrektheit ausrufen. Jeder darf nicht nur verbal ausrasten, er soll es sogar! Volle Kanne! Raus mit dem wüsten Zeug, bevor es das Gemüt vergiftet! Einzige Regel: Nicht körperlich werden! Ein Jahr hysterisches Geschrei auf allen Kanälen, dann hat hoffentlich jeder genug davon und realisiert, daß es vielleicht doch besser wäre wenn man sich wieder auf Argumente besinnt, und ein bißchen Zeit für's Nachdenken abzweigt.
Ich wäre dann während des Jahres ein schmunzelnder bis kopfschüttelnder Kommentator am Rande, und fände es spannend zu sehen wie sich die Methoden und Parolen über alle Lager hinweg angleichen, und wie sich dabei Leute immer ähnlicher werden die den allergrößten Wert darauf legen, als unähnlich zu gelten.
Aber vielleicht ist das ja schon so, auch ohne offiziell erklärtem Jahr der politischen Inkorrektheit. Ich finde es zum Beispiel amüsant, wie nahe die Pegida-Demonstranten gerade gestern in Köln inhaltlich an den islamischen Machos waren, gegen die sie sich als Schutzmacht anbieten wollen: Sie haben Tommy Robinson eingeflogen, den früheren Chef der "English Defence League". In seiner Rede sagte er z.B.: "it is our God-given right and duty to protect our women. It’s what men do". Das ist eigentlich die gleiche Ansicht wie bei den Islamisten. Die Angreifer in der Kölner Silvesternacht haben demnach nicht den Fehler gemacht, sich an Frauen zu vergreifen, sondern sich an "unseren" Frauen zu vergreifen. Ich schlußfolgere: Wären die Opfer stattdessen Frauen "nordafrikanischer oder nahöstlicher Herkunft" gewesen, dann hätte man auf Seiten von Robinson und der Pegida wohl kaum ein Problem damit gehabt. Frauen sind Eigentum, genau wie bei den Islamisten, nur mit umgekehrtem Vorzeichen. Nicht die Verletzung der Persönlichkeitsrechte der Frauen ist das Problem, sondern die Verletzung der rassistisch begründeten Eigentumsrechte der Männer. So sind sich die heftigsten Gegner letztlich am ähnlichsten.
Ich denke noch heute so, daß man ruhig offen sagen können sollte, was einem beliebt, und daß es zur Toleranz auch dazu gehört, Schmähungen zu ertragen, die jemand meint aussprechen zu müssen. Ich bin der Meinung, daß sich Leute letztlich selber schaden und lächerlich machen, wenn sie dabei aus dem Rahmen fallen. Mit anderen Worten, daß man beim Leser Mündigkeit erwarten kann und sich nicht anmaßen sollte, an seiner Stelle darüber zu urteilen, ob ein Kommentar akzeptabel ist oder nicht. Die selbsternannte "Political-Correctness-Polizei" ist mir immer auf die Nerven gegangen, denn bei denen steht grundsätzlich die Form über dem Inhalt; ein Prinzip mit dem ich nichts anfangen kann. Ich bevorzuge Klartext ohne falsche Rücksichten und erwarte daß die Leute damit umgehen können. Einige können's nicht: Ihr Problem.
Jedoch: Gemessen an dem was inzwischen in den sozialen Netzwerken und Foren zum Thema Asyl und Ausländer abgeht, ist das was hier im Forum früher abgelaufen ist eine amüsante Lappalie. Was mich dabei nervös macht sind weniger die Ausschreitungen selbst, ich kann insbesondere nicht recht einschätzen welcher Anteil der Ausschreitungen aus reiner Provokationslust entsteht, ohne daß die Leute wirklich hinter den Inhalten stünden, und welcher Anteil eine tatsächlich so vorhandene Meinung ausdrückt. Kurz gesagt, welcher Teil sind Trolle und welcher Teil Extremisten?
Es gibt ja durchaus eine Lust an der Provokation, das wird man gerade mir gern abnehmen. Und womit könnte man in der aktuellen Zeit besser provozieren als mit rassistischen Parolen? Mit Nazi-Parolen ging das schon immer, inzwischen scheint es aber zu einer kritischen Masse angeschwollen zu sein, in der man sich sicher genug fühlen kann, daß man praktisch keine Hemmungen mehr zu haben braucht. Die Knöpfe waren schon immer da, aber warum bereitet es gerade jetzt so viel Lust draufzudrücken? Oder glauben wirklich mehr als 10% der Leute hier in Deutschland, daß wir wieder das brauchen was uns im letzten Jahrhundert schon einmal in die absolute Katastrophe geführt hat? Kann ein so großer Teil der Bevölkerung derart gehirnamputiert sein?
Oder geht's bloß um's Dampf ablassen? Brauchen wir als Kontrapunkt zu dem ganzen willkommenskulturellen Gutmenschentum jetzt auch eine ordentliche Dosis hysterisch-xenophobes Schlechtmenschentum? Das deutsche Arschloch, zwischendurch fast im Aussterben begriffen, wird wieder kultiviert. Ist das bloß eine Abwehrmaßnahme, in der Hoffnung daß angesichts von so viel blanker Idiotie weniger Flüchtlinge nach Deutschland kommen wollen? Ich fürchte diese Rechnung geht nicht auf.
Aber wenn man einfach mal die Sau rauslassen will, damit's einem danach wieder wohler ist, warum nicht? Wir könnten ja mal ein Jahr der politischen Inkorrektheit ausrufen. Jeder darf nicht nur verbal ausrasten, er soll es sogar! Volle Kanne! Raus mit dem wüsten Zeug, bevor es das Gemüt vergiftet! Einzige Regel: Nicht körperlich werden! Ein Jahr hysterisches Geschrei auf allen Kanälen, dann hat hoffentlich jeder genug davon und realisiert, daß es vielleicht doch besser wäre wenn man sich wieder auf Argumente besinnt, und ein bißchen Zeit für's Nachdenken abzweigt.
Ich wäre dann während des Jahres ein schmunzelnder bis kopfschüttelnder Kommentator am Rande, und fände es spannend zu sehen wie sich die Methoden und Parolen über alle Lager hinweg angleichen, und wie sich dabei Leute immer ähnlicher werden die den allergrößten Wert darauf legen, als unähnlich zu gelten.
Aber vielleicht ist das ja schon so, auch ohne offiziell erklärtem Jahr der politischen Inkorrektheit. Ich finde es zum Beispiel amüsant, wie nahe die Pegida-Demonstranten gerade gestern in Köln inhaltlich an den islamischen Machos waren, gegen die sie sich als Schutzmacht anbieten wollen: Sie haben Tommy Robinson eingeflogen, den früheren Chef der "English Defence League". In seiner Rede sagte er z.B.: "it is our God-given right and duty to protect our women. It’s what men do". Das ist eigentlich die gleiche Ansicht wie bei den Islamisten. Die Angreifer in der Kölner Silvesternacht haben demnach nicht den Fehler gemacht, sich an Frauen zu vergreifen, sondern sich an "unseren" Frauen zu vergreifen. Ich schlußfolgere: Wären die Opfer stattdessen Frauen "nordafrikanischer oder nahöstlicher Herkunft" gewesen, dann hätte man auf Seiten von Robinson und der Pegida wohl kaum ein Problem damit gehabt. Frauen sind Eigentum, genau wie bei den Islamisten, nur mit umgekehrtem Vorzeichen. Nicht die Verletzung der Persönlichkeitsrechte der Frauen ist das Problem, sondern die Verletzung der rassistisch begründeten Eigentumsrechte der Männer. So sind sich die heftigsten Gegner letztlich am ähnlichsten.
Donnerstag, 29. Oktober 2015
Irreführung gut gemeint
Es ist schon erstaunlich wie die Grundlagen von Digital-Audio noch Jahrzehnte nach der technischen Einführung falsch dargestellt werden. Es ist anscheinend so, daß sich die falschen Darstellungen durch stetige Weiterverbreitung immer wieder selbst bestätigen und in Umlauf halten. Und sie werden so sogar von gutmeinenden Leuten weiterverbreitet, die meinen damit Anderen einen Dienst zu tun, dabei aber eher zur Verwirrung beitragen.
Kürzlich machte mich ein Blogleser auf dieses aktuelle Beispiel aufmerksam. Es ist ein Video auf Englisch, aber die meisten von Euch werden's wohl verstehen. Der "Präsentator" David Domminney Fowler gibt von sich an, er sei "Programmer, Producer and Professional Musician". Was Digital-Audio angeht scheint er jedenfalls nicht über die Basics hinaus gekommen zu sein.
Was macht er falsch? Ich handle das mal in Listenform ab:
Es gibt immer wieder Leute, die behaupten sie könnten noch weit darüber was hören, aber es ist die Frage woher sie das haben. Man kann auch auf Verzerrungen und andere "Falschmeldungen" hereinfallen, wenn man nicht aufpaßt. Wen's interessiert: Hört Euch einmal einen aufsteigenden "Sweep" an, mit Kopfhörer oder per Lautsprecher. So etwas kann man als Datei entweder mit geeigneter Software selbst erzeugen, oder man findet es im Netz. Es sollte nicht zu schnell gehen damit man auch was mitkriegt. Wenn der Pfeifton extrem hoch wird, wird er auch leiser und verschwindet irgendwann. Sollte er in der Tonhöhe zwischendurch wieder niedriger werden, oder springen, dann stimmt was nicht, und man hört "Störungs-Artefakte", aber nicht die höhere Frequenz. Ich würde wetten daß von Euch Lesern so gut wie niemand über 20 kHz hinaus kommen wird. Die allermeisten vermutlich nicht mal über 16 kHz. Das ist normal.
Der Tonhöhenumfang eines üblichen Konzertflügels reicht in etwa von 27 Hz bis knapp unter 9000 Hz. Manche Instrumente haben ein paar Tasten mehr und kommen damit etwas weiter. Für die Musik spielt das aber so gut wie keine Rolle. Andere Instrumente haben tendenziell weniger Tonumfang, allenfalls üppig ausgestattete Kirchenorgeln kommen noch darüber hinaus. Auch der Hinweis auf Obertöne ("Harmonische") zieht nicht wirklich, denn die Töne, für die die Obertöne klangrelevant sind, sind nicht die ganz hohen Töne. Die Obertöne der höchsten Flügelsaite hört so gut wie niemand. Folglich kann man sagen daß sich die Musik, selbst anspruchsvolle Musik, im Frequenzbereich zwischen etwa 30 und 8000 Hz abspielt. Darunter und darüber spielt nur noch eine geringe Rolle, besonders mit steigendem Alter des Hörers.
Ich finde man sollte das als professioneller Musiker und Tonschaffender wissen.
Der üblicherweise angegebene Hörbereich von 20 Hz bis 20 kHz ist damit schon eine großzügige Festlegung, die nur noch von sehr wenigen Personen und Situationen übertroffen werden dürfte, und sie hat darüber hinaus den Vorteil der Einfachheit. Deswegen wurde sie zugrunde gelegt, als man die CD und die weiteren Digital-Audio-Systeme eingeführt hat. Und wie es zu den 44,1 kHz kam ist auch recht einfach erklärbar: Es hat mit dem Mastering zu tun, das in der Anfangsphase der CD nicht auf dem Computer geschah, sondern mit Hilfe von PCM-Adaptern, die das digitale Audiosignal in ein analoges Videosignal umgewandelt haben, damit man es auf Videobändern aufnehmen konnte. Die Abtasftrequenz mußte deswegen zu der Videofrequenz passen, und 44,1 kHz war eine der möglichen Frequenzen. Da hat Fowler einfach ahnungslos vor sich hin spekuliert.
Nochmal zur Bestätigung: Mit ein klein wenig Rauschen wird die Digital-Audio-Technik zur Analog-Audio-Technik äquivalent, und in beiden Fällen passiert das Gleiche: Man hat einen Rauschteppich, und Signale gehen im Rauschteppich unter, wenn sie leiser werden. Bei 24 Bit ist einfach der Rauschteppich leiser als bei 16 Bit, aber in beiden Fällen ist, wie jeder leicht nachprüfen kann, der Rauschteppich sowieso schon niedriger als der von analogen Medien.
Wenn Fowler Probleme hat mit kleinen Signalen, die rauh und "grainy" werden wenn sie leiser werden, dann hat er einen Fehler, den er dingfest machen sollte. Entweder es fehlt Dither, oder er hat irgendwelche Verzerrungen im Kleinsignalbereich, möglicherweise gar nicht im digitalen Teil seiner Anlage sondern im analogen. Mit den Grundlagen der Digital-Audio-Technik hat es nichts zu tun.
Das bedeutet auch, daß es nicht viel bringt, die Anzahl der möglichen Stufen der Codierungen miteinander zu vergleichen. Klar sind mehr als 16 Millionen viel eindrücklicher als nur gut 65000, aber was heißt das für das Audiosignal? Nicht viel. Da wir gesehen haben daß der Unterschied im Pegel des Rauschteppichs liegt, ist es viel sinnvoller, diesen Unterschied zu benennen. Dabei kommt die viel nützlichere Zahl heraus. Nämlich daß durch die zusätzlichen 8 bit der Rauschteppich um etwa 48 dB niedriger ist. Das ist ein Maß, das im Audiokontext einen Sinn ergibt, im Gegensatz zu irgendwelchen freischwebenden Zahlen.
Das ist richtig und falsch zugleich. Richtig ist natürlich, daß man beide Halbwellen codieren können muß. Der von ihm vernachlässigte Punkt ist aber, daß es diese Mittellinie nicht wirklich gibt. Es ist ein darstellerisches Artefakt ohne Entsprechung im physikalischen Signal. Man hört keine Gleichspannung, also keine Frequenz Null. Eventuell vorhandene Gleichspannungen werden sogar von Audiosystemen weggefiltert, denn sie können die Technik stören. Das bedeutet man könnte die Nullinie beliebig hoch oder runter schieben, ohne daß sich etwas ändert. Speziell kann man genauso gut so tun als wäre die Nullinie ganz unten, und alle Zahlen positiv. Der für Audio relevante Signalanteil würde sich dadurch nicht ändern; es gäbe nur einen irrelevanten Gleichspannungs-Offset.
Ergo: Man hat 16 Bit für die Codierung zur Verfügung, das ist alles was man wissen muß.
Immerhin, Fowler hat auch ein paar gute Hinweise in seinem Vortrag, nämlich z.B. was Headroom angeht, und Clipping, besonders wenn man Signale zusammen mischt. Könnte also schlimmer sein. Trotzdem, mir wäre es lieber, wenn die falschen Vorstellungen korrigiert würden, anstatt als Tutorial weiter unter den Leuten verbreitet zu werden.
Kürzlich machte mich ein Blogleser auf dieses aktuelle Beispiel aufmerksam. Es ist ein Video auf Englisch, aber die meisten von Euch werden's wohl verstehen. Der "Präsentator" David Domminney Fowler gibt von sich an, er sei "Programmer, Producer and Professional Musician". Was Digital-Audio angeht scheint er jedenfalls nicht über die Basics hinaus gekommen zu sein.
Was macht er falsch? Ich handle das mal in Listenform ab:
Fowler kennt offenbar die menschlichen Hörfähigkeiten schlecht.
Es gibt immer wieder Leute, die behaupten sie könnten noch weit darüber was hören, aber es ist die Frage woher sie das haben. Man kann auch auf Verzerrungen und andere "Falschmeldungen" hereinfallen, wenn man nicht aufpaßt. Wen's interessiert: Hört Euch einmal einen aufsteigenden "Sweep" an, mit Kopfhörer oder per Lautsprecher. So etwas kann man als Datei entweder mit geeigneter Software selbst erzeugen, oder man findet es im Netz. Es sollte nicht zu schnell gehen damit man auch was mitkriegt. Wenn der Pfeifton extrem hoch wird, wird er auch leiser und verschwindet irgendwann. Sollte er in der Tonhöhe zwischendurch wieder niedriger werden, oder springen, dann stimmt was nicht, und man hört "Störungs-Artefakte", aber nicht die höhere Frequenz. Ich würde wetten daß von Euch Lesern so gut wie niemand über 20 kHz hinaus kommen wird. Die allermeisten vermutlich nicht mal über 16 kHz. Das ist normal.
Der Tonhöhenumfang eines üblichen Konzertflügels reicht in etwa von 27 Hz bis knapp unter 9000 Hz. Manche Instrumente haben ein paar Tasten mehr und kommen damit etwas weiter. Für die Musik spielt das aber so gut wie keine Rolle. Andere Instrumente haben tendenziell weniger Tonumfang, allenfalls üppig ausgestattete Kirchenorgeln kommen noch darüber hinaus. Auch der Hinweis auf Obertöne ("Harmonische") zieht nicht wirklich, denn die Töne, für die die Obertöne klangrelevant sind, sind nicht die ganz hohen Töne. Die Obertöne der höchsten Flügelsaite hört so gut wie niemand. Folglich kann man sagen daß sich die Musik, selbst anspruchsvolle Musik, im Frequenzbereich zwischen etwa 30 und 8000 Hz abspielt. Darunter und darüber spielt nur noch eine geringe Rolle, besonders mit steigendem Alter des Hörers.
Ich finde man sollte das als professioneller Musiker und Tonschaffender wissen.
Der üblicherweise angegebene Hörbereich von 20 Hz bis 20 kHz ist damit schon eine großzügige Festlegung, die nur noch von sehr wenigen Personen und Situationen übertroffen werden dürfte, und sie hat darüber hinaus den Vorteil der Einfachheit. Deswegen wurde sie zugrunde gelegt, als man die CD und die weiteren Digital-Audio-Systeme eingeführt hat. Und wie es zu den 44,1 kHz kam ist auch recht einfach erklärbar: Es hat mit dem Mastering zu tun, das in der Anfangsphase der CD nicht auf dem Computer geschah, sondern mit Hilfe von PCM-Adaptern, die das digitale Audiosignal in ein analoges Videosignal umgewandelt haben, damit man es auf Videobändern aufnehmen konnte. Die Abtasftrequenz mußte deswegen zu der Videofrequenz passen, und 44,1 kHz war eine der möglichen Frequenzen. Da hat Fowler einfach ahnungslos vor sich hin spekuliert.
Fowler scheint nichts von Dither gehört zu haben.
Nochmal zur Bestätigung: Mit ein klein wenig Rauschen wird die Digital-Audio-Technik zur Analog-Audio-Technik äquivalent, und in beiden Fällen passiert das Gleiche: Man hat einen Rauschteppich, und Signale gehen im Rauschteppich unter, wenn sie leiser werden. Bei 24 Bit ist einfach der Rauschteppich leiser als bei 16 Bit, aber in beiden Fällen ist, wie jeder leicht nachprüfen kann, der Rauschteppich sowieso schon niedriger als der von analogen Medien.
Wenn Fowler Probleme hat mit kleinen Signalen, die rauh und "grainy" werden wenn sie leiser werden, dann hat er einen Fehler, den er dingfest machen sollte. Entweder es fehlt Dither, oder er hat irgendwelche Verzerrungen im Kleinsignalbereich, möglicherweise gar nicht im digitalen Teil seiner Anlage sondern im analogen. Mit den Grundlagen der Digital-Audio-Technik hat es nichts zu tun.
Das bedeutet auch, daß es nicht viel bringt, die Anzahl der möglichen Stufen der Codierungen miteinander zu vergleichen. Klar sind mehr als 16 Millionen viel eindrücklicher als nur gut 65000, aber was heißt das für das Audiosignal? Nicht viel. Da wir gesehen haben daß der Unterschied im Pegel des Rauschteppichs liegt, ist es viel sinnvoller, diesen Unterschied zu benennen. Dabei kommt die viel nützlichere Zahl heraus. Nämlich daß durch die zusätzlichen 8 bit der Rauschteppich um etwa 48 dB niedriger ist. Das ist ein Maß, das im Audiokontext einen Sinn ergibt, im Gegensatz zu irgendwelchen freischwebenden Zahlen.
Es gibt keine "Centerline", durch die sich die Bit-Tiefe halbiert.
Das ist richtig und falsch zugleich. Richtig ist natürlich, daß man beide Halbwellen codieren können muß. Der von ihm vernachlässigte Punkt ist aber, daß es diese Mittellinie nicht wirklich gibt. Es ist ein darstellerisches Artefakt ohne Entsprechung im physikalischen Signal. Man hört keine Gleichspannung, also keine Frequenz Null. Eventuell vorhandene Gleichspannungen werden sogar von Audiosystemen weggefiltert, denn sie können die Technik stören. Das bedeutet man könnte die Nullinie beliebig hoch oder runter schieben, ohne daß sich etwas ändert. Speziell kann man genauso gut so tun als wäre die Nullinie ganz unten, und alle Zahlen positiv. Der für Audio relevante Signalanteil würde sich dadurch nicht ändern; es gäbe nur einen irrelevanten Gleichspannungs-Offset.
Ergo: Man hat 16 Bit für die Codierung zur Verfügung, das ist alles was man wissen muß.
Immerhin, Fowler hat auch ein paar gute Hinweise in seinem Vortrag, nämlich z.B. was Headroom angeht, und Clipping, besonders wenn man Signale zusammen mischt. Könnte also schlimmer sein. Trotzdem, mir wäre es lieber, wenn die falschen Vorstellungen korrigiert würden, anstatt als Tutorial weiter unter den Leuten verbreitet zu werden.
Freitag, 9. Oktober 2015
Gedämpftes Verständnis
Der sogenannte "Dämpfungsfaktor" ist ein Begriff, dem man im Zusammenhang mit Verstärkern und Lautsprechern seit vielen Jahrzehnten begegnet, und um den sich viel Ideologie, aber auch viel Unverstand rankt. Ich finde, die damit erzeugte Verwirrung ist größer als die erzeugte Einsicht, und wenn's nach mir ginge müßte man den Begriff in der Versenkung verschwinden lassen. Ich werde hier den Versuch machen, zu erklären worum es überhaupt geht, und wie ich zu dieser vielleicht etwas provokativen Ansicht komme.
Der Dämpfungsfaktor ist ein Begriff, der sich im Zusammenspiel zwischen einem Verstärker und dem daran angeschlossenen Lautsprecher ergibt. Er wird gebildet als das Verhältnis aus der Impedanz der Last (Lautsprecher) und der Impedanz der Quelle (Verstärker). Er beschreibt damit eine Situation, und nicht etwa die Eigenschaften eines Gerätes. Das ist schon das erste Problem.
Oft wird versucht, einen Dämpfungsfaktor-Wert als Eigenschaft eines Verstärker auszugeben. Etwas, was man in die technischen Daten des Verstärkers hinein schreibt. Dafür muß man aber den angeschlossenen Lautsprecher idealisieren, und sein Verhalten in Form einer einzigen Zahl ausdrücken, nämlich seiner Nennimpedanz. Das ist eine derartig radikale Vereinfachung, daß man damit der Praxis nicht ansatzweise gerecht wird. Es dient nur dazu, den Dämpfungsfaktor ebenfalls als eine einzelne Zahl ausdrücken zu können, was natürlich ebenso wenig praxisgerecht ist. Es würde lediglich die Situation ausdrücken, die entsteht wenn man an den Verstärker einen Lastwiderstand anschließen würde, anstelle eines echten Lautsprechers. Das ist nur für den Labortisch relevant.
Will man die Eigenschaften des Verstärkers für sich angeben, z.B. für seine technischen Daten, dann sollte das auf eine Weise geschehen, die möglichst keine künstlichen Annahmen über den angeschlossenen Lautsprecher braucht. Das wäre die Angabe der Ausgangsimpedanz (= Quellimpedanz des Verstärkers). Weil die in aller Regel mit der Frequenz variiert, und oft auch reaktive Komponenten hat (also nicht so wirkt wie ein einfacher Widerstand), wäre es günstig, einen Impedanzschrieb über die Frequenz als Diagramm darzustellen, und zwar nach Betrag und Phase. Bei Lautsprechern kennt man solche Impedanz-Diagramme, aber das Gleiche wäre auch für Verstärker sinnvoll. Eine solche Angabe würde dann lediglich den Verstärker selbst charakterisieren, ohne Abhängigkeit vom Lautsprecher.
Hat man ein solches Impedanzdiagramm für den Verstärker und eines für den Lautsprecher, dann kann man für diese Kombination (bzw. Situation) auch den tatsächlichen Dämpfungsfaktor bestimmen, und zwar sogar in seinem Frequenzverlauf, und nicht bloß als einzelne Zahl. Das wäre erheblich aufschlußreicher und näher am echten Verhalten. Nur wäre das ein bißchen zu anspruchsvoll für Leute, die sich lieber an einzelnen Zahlen festhalten, weil die besser für den Schwanzlängenvergleich taugen.
Aber das ist erst der Anfang. Bis hierher ging es um den Dämpfungsfaktor an der Schnittstelle zwischen dem Verstärker und dem Lautsprecher. An dieser Stelle geht es darum, welchen Einfluß der Dämpfungsfaktor auf den Frequenzgang des gesamten Arrangements hat. Man sieht die Kombination von Lautsprecher und Verstärker als einen frequenzabhängigen Spannungsteiler, bestehend aus der Lastimpedanz und der Quellimpedanz. Ein Spannungsteiler ist etwas recht einfaches, und selbst die Frequenzabhängigkeit macht das nicht wesentlich komplizierter. Das Ergebnis ist eine Frequenzgang-Kurve, von der man natürlich meist möchte, daß sie möglichst gerade horizontal verläuft. Das klappt am besten wenn die Quellimpedanz möglicht klein gegenüber der Lastimpedanz ist. Das entspricht dann einem hohen Dämpfungsfaktor.
Aber mit dem Dämpfungsfaktor wird auch oft ein ganz anderes Konzept verbunden, nämlich die "Kontrolle" des Lautsprechers. Dabei geht's um Folgendes: Ein Lautsprecher-Chassis, also eine Anordnung aus Magnet, Schwingspule, Membran und Korb, ist ein schwingfähiges mechanisches System, in dem die schwingenden Teile eine Massenträgheit haben. Einmal in Bewegung, möchten sie sich weiter bewegen, auch ohne Antrieb. Wenn der Strom zum "Motor", bestehend aus Magnet und Schwingspule, abgestellt wird, dann bewirkt die Massenträgheit, daß die Bewegung weitergeht, und die Funktion des Motors sich umkehrt und er zum Generator wird. Das Teil liefert Strom. Man nennt das die Gegen-EMK (Elektromotorische Kraft). Dieser Strom fließt zurück zum Verstärker. Die Quellimpedanz des Verstärkers bildet für diesen Strom die "Last". Der vorhin erwähnte Spannungsteiler wirkt jetzt anders herum. Auch diesmal ist es günstig, wenn die Ausgangsimpedanz des Verstärkers möglichst klein ist, denn umso mehr wird die Gegen-EMK "kurzgeschlossen", was dazu führt daß die Bewegung des Motors möglichst schnell abgebremst wird. Das ist was man mit "Kontrolle" meint: Möglichst wenig eigenmächtige Bewegung der Membran aufgrund von Massenträgheit; die Membran soll so unmittelbar wie möglich den Vorgaben des Verstärkers folgen, also der Spannung, die er abgibt. Besonders deutlich wird das bei der Resonanzfrequenz des Chassis, wo die Tendenz zur eigenständigen Bewegung am größten ist.
Daher kommt ursprünglich der Begriff: Die Tendenz der Lautsprechermembran zur eigenmächtigen Bewegung soll so gut wie möglich gedämpft werden. Der Begriff des Dämpfungsfaktors sollte dem ein Maß geben.
So lange der Verstärker direkt an das Lautsprecher-Chassis angeschlossen ist, stimmen diese beiden Betrachtungsweisen sogar einigermaßen überein. So ist es aber in der Praxis nicht: Man hat es mit einem Lautsprecher zu tun, der aus mehreren Chassis und einer passiven Frequenzweiche besteht. Die Frequenzweiche sitzt zwischen Verstärker und Chassis. Das bedeutet, daß man für die Betrachtung des Dämpfungsfaktors entscheiden muß, auf welcher Seite der Weiche man guckt.
Will man wissen, wie gut die Gegen-EMK des Chassis gedämpft wird, dann muß man die Weiche rechnerisch zum Verstärker schlagen. Man betrachtet also die Quelle als die Kombination von Verstärker und Weiche, und die Last ist dann das einzelne Lautsprecher-Chassis.* Es liegt auf der Hand daß dann die Impedanzen ganz anders ausfallen als bei der Betrachtung oben, wo man die Weiche zum Lautsprecher gerechnet hat. Entsprechend andere Dämpfungsfaktoren ergeben sich. Konkret läuft es darauf hinaus, daß in aller Regel die Weiche eine größere Rolle spielt als der Verstärker. Die Ausgangsimpedanz des Verstärkers wird irrelevant wenn sie einmal deutlich unter der Impedanz der Weiche liegt, und dazu braucht's nicht viel.
Mit anderen Worten: Die Kontrolle des Lautsprechers kann nicht besser werden als es die Weiche erlaubt.
Nachdem die meisten Verstärker heutzutage Ausgangsimpedanzen haben, die unter der Weichenimpedanz liegen, bedeutet das, daß der Verstärker bei der Kontrolle der Gegen-EMK von Lautsprechern eine eher untergeordnete Rolle spielt, und der Dämpfungsfaktor, so wie er üblicherweise angegeben wird, wird entsprechend nebensächlich.
Diese Betrachtung geht davon aus, daß das Problem der Gegen-EMK das Bass-Chassis betrifft, und daß die Weiche für dieses Chassis eine Serien-Induktivität hat. Das dürfte der Normalfall sein. Andere Lautsprecher-Konstruktionen, so wie z.B. Elektrostaten, bieten andere Bedingungen, so daß ich nicht den Anspruch auf universelle Gültigkeit meiner Argumentation erhebe. Das ist aber egal, denn mir geht's um die üblichen Situationen. Spezielle Situationen brauchen sowieso eine getrennte Betrachtung.
Der Punkt, um den es mir geht, ist daß der Begriff des Dämpfungsfaktors keinen Praxisnutzen bringt, und gerade im Beisein einer Weiche eher Verwirrung stiftet. Also so gut wie immer. Geht es um die Kontrolle der Gegen-EMK, dann dominiert die Weiche, über deren Daten man meist zu wenig weiß. Geht es um die Linearität des Frequenzgangs, dann wäre man besser bedient mit den Impedanzschrieben von Lautsprecher und Verstärker, weil die üblich angegebene Zahl für den Dämpfungsfaktor zu wenig über die tatsächliche Situation sagt.
Im Grunde ist das ein Argument für Aktivboxen, denn da hat in der Regel jedes Chassis seinen eigenen Verstärker, und die Weiche entfällt. Für jede Paarung eines Chassis mit einem Verstärker in der Aktivbox gibt es dann jeweils einen eigenen Dämpfungsfaktor, aber das braucht nur den Hersteller zu interessieren. Als Anwender hat man mit derlei Details und ihrer korrekten Interpretation nichts zu tun.
Besonders absurd wird es meiner Ansicht nach dann, wenn in der audiophilen Szene besonders teure und aufwändige Weichen benutzt werden. Beispielsweise gibt es Leute, die darauf schwören, die Induktivität für das Tiefton-Chassis möglichst niederohmig zu machen, eben gerade um die "Kontrolle" zu optimieren. Mir erscheint das widersinnig spätestens dann, wenn dabei eine Bauteilrechnung zusammen kommt, für die man auch die für eine Aktivbox nötigen Verstärker bezahlen könnte. Was einem dabei zupaß kommt ist, daß die Bauteile für einen guten Verstärker immer billiger geworden sind. Für eine gute Drossel, die ein Audiophiler akzeptieren würde, hängt der Preis aber mit dem Materialverbrauch an Kupfer (und evtl. Eisen) zusammen, und das wird eher teurer. Damit wird die Passivweiche wirtschaftlich immer unvorteilhafter. Elektronisch war sie ohnehin schon immer die schlechtere Lösung.
Ich hoffe, daß daraus ein Trend zur Aktivbox wird, womit sich dann auch das Thema Dämpfungsfaktor erledigen würde. Es wäre langsam Zeit.
* Das ist, wie ich dem Hinweis eines Bloglesers verdanke, im Grunde sogar noch zu optimistisch dargestellt. Für die Dämpfung einer Eigenbewegung müßte idealerweise der Widerstand im kompletten Stromkreis, in dem die Gegen-EMK wirkt, möglichst niedrig sein. Da gehört auch der Widerstand der Schwingspule dazu, neben dem des Verstärkers und der Weiche. In der Praxis hat der Widerstand der Schwingspule den größten Anteil, gefolgt (meistens) von der Weiche, dann erst vom Verstärker und dem Kabel. Es ist also noch unwahrscheinlicher, daß sich dabei Verstärker und Kabel bemerkbar machen.
Der Dämpfungsfaktor ist ein Begriff, der sich im Zusammenspiel zwischen einem Verstärker und dem daran angeschlossenen Lautsprecher ergibt. Er wird gebildet als das Verhältnis aus der Impedanz der Last (Lautsprecher) und der Impedanz der Quelle (Verstärker). Er beschreibt damit eine Situation, und nicht etwa die Eigenschaften eines Gerätes. Das ist schon das erste Problem.
Oft wird versucht, einen Dämpfungsfaktor-Wert als Eigenschaft eines Verstärker auszugeben. Etwas, was man in die technischen Daten des Verstärkers hinein schreibt. Dafür muß man aber den angeschlossenen Lautsprecher idealisieren, und sein Verhalten in Form einer einzigen Zahl ausdrücken, nämlich seiner Nennimpedanz. Das ist eine derartig radikale Vereinfachung, daß man damit der Praxis nicht ansatzweise gerecht wird. Es dient nur dazu, den Dämpfungsfaktor ebenfalls als eine einzelne Zahl ausdrücken zu können, was natürlich ebenso wenig praxisgerecht ist. Es würde lediglich die Situation ausdrücken, die entsteht wenn man an den Verstärker einen Lastwiderstand anschließen würde, anstelle eines echten Lautsprechers. Das ist nur für den Labortisch relevant.
Will man die Eigenschaften des Verstärkers für sich angeben, z.B. für seine technischen Daten, dann sollte das auf eine Weise geschehen, die möglichst keine künstlichen Annahmen über den angeschlossenen Lautsprecher braucht. Das wäre die Angabe der Ausgangsimpedanz (= Quellimpedanz des Verstärkers). Weil die in aller Regel mit der Frequenz variiert, und oft auch reaktive Komponenten hat (also nicht so wirkt wie ein einfacher Widerstand), wäre es günstig, einen Impedanzschrieb über die Frequenz als Diagramm darzustellen, und zwar nach Betrag und Phase. Bei Lautsprechern kennt man solche Impedanz-Diagramme, aber das Gleiche wäre auch für Verstärker sinnvoll. Eine solche Angabe würde dann lediglich den Verstärker selbst charakterisieren, ohne Abhängigkeit vom Lautsprecher.
Hat man ein solches Impedanzdiagramm für den Verstärker und eines für den Lautsprecher, dann kann man für diese Kombination (bzw. Situation) auch den tatsächlichen Dämpfungsfaktor bestimmen, und zwar sogar in seinem Frequenzverlauf, und nicht bloß als einzelne Zahl. Das wäre erheblich aufschlußreicher und näher am echten Verhalten. Nur wäre das ein bißchen zu anspruchsvoll für Leute, die sich lieber an einzelnen Zahlen festhalten, weil die besser für den Schwanzlängenvergleich taugen.
Aber das ist erst der Anfang. Bis hierher ging es um den Dämpfungsfaktor an der Schnittstelle zwischen dem Verstärker und dem Lautsprecher. An dieser Stelle geht es darum, welchen Einfluß der Dämpfungsfaktor auf den Frequenzgang des gesamten Arrangements hat. Man sieht die Kombination von Lautsprecher und Verstärker als einen frequenzabhängigen Spannungsteiler, bestehend aus der Lastimpedanz und der Quellimpedanz. Ein Spannungsteiler ist etwas recht einfaches, und selbst die Frequenzabhängigkeit macht das nicht wesentlich komplizierter. Das Ergebnis ist eine Frequenzgang-Kurve, von der man natürlich meist möchte, daß sie möglichst gerade horizontal verläuft. Das klappt am besten wenn die Quellimpedanz möglicht klein gegenüber der Lastimpedanz ist. Das entspricht dann einem hohen Dämpfungsfaktor.
Aber mit dem Dämpfungsfaktor wird auch oft ein ganz anderes Konzept verbunden, nämlich die "Kontrolle" des Lautsprechers. Dabei geht's um Folgendes: Ein Lautsprecher-Chassis, also eine Anordnung aus Magnet, Schwingspule, Membran und Korb, ist ein schwingfähiges mechanisches System, in dem die schwingenden Teile eine Massenträgheit haben. Einmal in Bewegung, möchten sie sich weiter bewegen, auch ohne Antrieb. Wenn der Strom zum "Motor", bestehend aus Magnet und Schwingspule, abgestellt wird, dann bewirkt die Massenträgheit, daß die Bewegung weitergeht, und die Funktion des Motors sich umkehrt und er zum Generator wird. Das Teil liefert Strom. Man nennt das die Gegen-EMK (Elektromotorische Kraft). Dieser Strom fließt zurück zum Verstärker. Die Quellimpedanz des Verstärkers bildet für diesen Strom die "Last". Der vorhin erwähnte Spannungsteiler wirkt jetzt anders herum. Auch diesmal ist es günstig, wenn die Ausgangsimpedanz des Verstärkers möglichst klein ist, denn umso mehr wird die Gegen-EMK "kurzgeschlossen", was dazu führt daß die Bewegung des Motors möglichst schnell abgebremst wird. Das ist was man mit "Kontrolle" meint: Möglichst wenig eigenmächtige Bewegung der Membran aufgrund von Massenträgheit; die Membran soll so unmittelbar wie möglich den Vorgaben des Verstärkers folgen, also der Spannung, die er abgibt. Besonders deutlich wird das bei der Resonanzfrequenz des Chassis, wo die Tendenz zur eigenständigen Bewegung am größten ist.
Daher kommt ursprünglich der Begriff: Die Tendenz der Lautsprechermembran zur eigenmächtigen Bewegung soll so gut wie möglich gedämpft werden. Der Begriff des Dämpfungsfaktors sollte dem ein Maß geben.
So lange der Verstärker direkt an das Lautsprecher-Chassis angeschlossen ist, stimmen diese beiden Betrachtungsweisen sogar einigermaßen überein. So ist es aber in der Praxis nicht: Man hat es mit einem Lautsprecher zu tun, der aus mehreren Chassis und einer passiven Frequenzweiche besteht. Die Frequenzweiche sitzt zwischen Verstärker und Chassis. Das bedeutet, daß man für die Betrachtung des Dämpfungsfaktors entscheiden muß, auf welcher Seite der Weiche man guckt.
Will man wissen, wie gut die Gegen-EMK des Chassis gedämpft wird, dann muß man die Weiche rechnerisch zum Verstärker schlagen. Man betrachtet also die Quelle als die Kombination von Verstärker und Weiche, und die Last ist dann das einzelne Lautsprecher-Chassis.* Es liegt auf der Hand daß dann die Impedanzen ganz anders ausfallen als bei der Betrachtung oben, wo man die Weiche zum Lautsprecher gerechnet hat. Entsprechend andere Dämpfungsfaktoren ergeben sich. Konkret läuft es darauf hinaus, daß in aller Regel die Weiche eine größere Rolle spielt als der Verstärker. Die Ausgangsimpedanz des Verstärkers wird irrelevant wenn sie einmal deutlich unter der Impedanz der Weiche liegt, und dazu braucht's nicht viel.
Mit anderen Worten: Die Kontrolle des Lautsprechers kann nicht besser werden als es die Weiche erlaubt.
Nachdem die meisten Verstärker heutzutage Ausgangsimpedanzen haben, die unter der Weichenimpedanz liegen, bedeutet das, daß der Verstärker bei der Kontrolle der Gegen-EMK von Lautsprechern eine eher untergeordnete Rolle spielt, und der Dämpfungsfaktor, so wie er üblicherweise angegeben wird, wird entsprechend nebensächlich.
Diese Betrachtung geht davon aus, daß das Problem der Gegen-EMK das Bass-Chassis betrifft, und daß die Weiche für dieses Chassis eine Serien-Induktivität hat. Das dürfte der Normalfall sein. Andere Lautsprecher-Konstruktionen, so wie z.B. Elektrostaten, bieten andere Bedingungen, so daß ich nicht den Anspruch auf universelle Gültigkeit meiner Argumentation erhebe. Das ist aber egal, denn mir geht's um die üblichen Situationen. Spezielle Situationen brauchen sowieso eine getrennte Betrachtung.
Der Punkt, um den es mir geht, ist daß der Begriff des Dämpfungsfaktors keinen Praxisnutzen bringt, und gerade im Beisein einer Weiche eher Verwirrung stiftet. Also so gut wie immer. Geht es um die Kontrolle der Gegen-EMK, dann dominiert die Weiche, über deren Daten man meist zu wenig weiß. Geht es um die Linearität des Frequenzgangs, dann wäre man besser bedient mit den Impedanzschrieben von Lautsprecher und Verstärker, weil die üblich angegebene Zahl für den Dämpfungsfaktor zu wenig über die tatsächliche Situation sagt.
Im Grunde ist das ein Argument für Aktivboxen, denn da hat in der Regel jedes Chassis seinen eigenen Verstärker, und die Weiche entfällt. Für jede Paarung eines Chassis mit einem Verstärker in der Aktivbox gibt es dann jeweils einen eigenen Dämpfungsfaktor, aber das braucht nur den Hersteller zu interessieren. Als Anwender hat man mit derlei Details und ihrer korrekten Interpretation nichts zu tun.
Besonders absurd wird es meiner Ansicht nach dann, wenn in der audiophilen Szene besonders teure und aufwändige Weichen benutzt werden. Beispielsweise gibt es Leute, die darauf schwören, die Induktivität für das Tiefton-Chassis möglichst niederohmig zu machen, eben gerade um die "Kontrolle" zu optimieren. Mir erscheint das widersinnig spätestens dann, wenn dabei eine Bauteilrechnung zusammen kommt, für die man auch die für eine Aktivbox nötigen Verstärker bezahlen könnte. Was einem dabei zupaß kommt ist, daß die Bauteile für einen guten Verstärker immer billiger geworden sind. Für eine gute Drossel, die ein Audiophiler akzeptieren würde, hängt der Preis aber mit dem Materialverbrauch an Kupfer (und evtl. Eisen) zusammen, und das wird eher teurer. Damit wird die Passivweiche wirtschaftlich immer unvorteilhafter. Elektronisch war sie ohnehin schon immer die schlechtere Lösung.
Ich hoffe, daß daraus ein Trend zur Aktivbox wird, womit sich dann auch das Thema Dämpfungsfaktor erledigen würde. Es wäre langsam Zeit.
* Das ist, wie ich dem Hinweis eines Bloglesers verdanke, im Grunde sogar noch zu optimistisch dargestellt. Für die Dämpfung einer Eigenbewegung müßte idealerweise der Widerstand im kompletten Stromkreis, in dem die Gegen-EMK wirkt, möglichst niedrig sein. Da gehört auch der Widerstand der Schwingspule dazu, neben dem des Verstärkers und der Weiche. In der Praxis hat der Widerstand der Schwingspule den größten Anteil, gefolgt (meistens) von der Weiche, dann erst vom Verstärker und dem Kabel. Es ist also noch unwahrscheinlicher, daß sich dabei Verstärker und Kabel bemerkbar machen.
Sonntag, 9. August 2015
Digital ist auch nur analog, oder?
Seit immer mehr Audiogeräte mit dem Internet verbunden werden, gibt's immer mehr Netzwerkverbindungen in einer typischen Audio-Anlage. Der Audiophile braucht daher standesgemäße Netzwerkkabel, denn es kann ja nicht sein, daß ein profanes Patchkabel für 'nen Euro keine hörbaren Probleme macht. Ergo hat sich ein Markt für "audiophile Netzwerkkabel" entwickelt, selbstredend mit einer nach oben offenen Preis-Skala, und der ebenfalls nach oben offenen Bullshit-Skala in den dazugehörigen Werbetexten.
Das wäre für sich gesehen nichts Neues; so erwartet man's von der audiophilen Szene. Jetzt hat die britische Seite Ars Technica ein solches Kabel unter die Lupe genommen, und auch mal zerlegt, damit man sieht wie es drinnen aussieht. Für 300 englische Pfund bekommt man 1,5 Meter davon, immerhin mit coolen Steckern aus deutscher Produktion, von einer ganz Voodoo-unverdächtigen Firma. Das Kabel selbst ist eher solide Industrieware, die offensichtlich für Festverlegung gedacht ist (es werden keine Litzen, sondern Einzeldrähte für die Leiterpaare benutzt, und die geschäumte Adernisolierung ist zwar gut für die Dämpfung bei langen Kabeln, aber nicht so gut für die Langzeitstabilität bei mechanischer Knick- und Biegebelastung). Es ist also eigentlich kein Patchkabel. Macht aber für Audiophile sicher Sinn, denn steifere Kabel haben da eine größere Qualitätsanmutung, frei nach dem Motto: Je unpraktischer, desto besser muß es sein.
Ebenfalls sehr audiophil ist die Idee, die Schirmung nicht durchzuverbinden. Nun bin ich zwar selbst ein Freund von ungeschirmten Ethernet-Patchkabeln, denn da ist einfach die Chance geringer, daß man mit Brummschleifen Probleme kriegt, aber dann lasse ich den Schirm doch lieber gleich weg, anstatt ihn innen drin mit Kreppband zu isolieren.
Ars Technica hat das Kabel nicht bloß auseinander genommen, sondern auch einen Hörtest organisiert, und zwar gleich zusammen mit dem Magier und Esoteriker-Schreck Randi, mit einem wenig überraschenden Ergebnis. Lest selber nach, ich brauche das nicht zu kommentieren. Stattdessen geht's mir hier um was anderes, über das ich bei dieser Gelegenheit gestolpert bin. Es geht um Analog vs. Digital, und was daran der fundamentale Unterschied ist.
Vor zwei Jahren schrieb Michael Lavorgna einen zweiteiligen Artikel über ein (email-)Gespräch mit drei Leuten über dieses Thema, nämlich mit Charles Hansen, Gordon Rankin und Steve Silberman. Wer sind diese Leute?
Lavorgna ist der Editor von AudioStream, einer Schwesterpublikation der bekannteren Stereophile, mit einem Schwerpunkt auf Audio Streaming bzw. Computer Audio. Ein wirklich unangenehmer Bullshitter in der Art wie Michael Fremer von der Stereophile. Was er schreibt hat beinahe eine Schwachsinns-Garantie. Kann gelegentlich auch unterhaltsam sein.
Hansen ist der Chef von Ayre Acoustics, einer High-End-Marke an der vordersten Front der Anti-Feedback-Bewegung, und die Firma, die für Neil Young den Pono entwickelt hat.
Rankin ist der Chef von Wavelength Audio, ebenfalls ein High-End Hersteller, unter anderem von USB-DACs.
Silberman schließlich ist Vizepräsident für Entwicklung bei AudioQuest (früher war er im Marketing für Ayre und AudioQuest, was schon zeigt welche Qualifikation man in diesem Bereich für die Entwicklung braucht), also der Firma, die das bei Ars Technica getestete Ethernet-Kabel anbietet.
Jetzt wißt Ihr wie ich auf diese Diskussion gekommen bin. Auf etwas verschlungenen Pfaden, wie das öfter so ist wenn man im Internet unterwegs ist. Sei's drum, ich fand dieses Thema "Analog vs. Digital", so wie die vier Herren es sehen, für symptomatisch dafür, wie sogar die grundlegendsten Fakten von den Akteuren im audiophilen Markt völlig verdreht und verzerrt werden, bis hin zum Verdacht daß sie selbst von Tuten und Blasen keine Ahnung haben, obwohl sie Produkte zu verkaufen versuchen, die auf diesen Grundlagen basieren. Entweder das, oder es sind gewohnheitsmäßige Lügner. So oder so verheerend.
Das zentrale Argument, das man nicht nur dort, sondern auch hierzulande, immer wieder hört, ist: Digital ist in Wirklichkeit auch Analog. Es leidet damit unter den gleichen Problemen wie Analog, und die angebliche "Perfektion" von Digitaltechnik ist eine Schimäre.
Weil nicht allen Lesern klar sein dürfte, wo darin der fundamentale Fehler ist, habe ich mich entschlossen, mal einen Blogbeitrag dazu zu schreiben. Diejenigen, die das alles völlig trivial finden (und es ist tatsächlich trivial), mögen mir verzeihen und brauchen nicht weiter zu lesen. Ihr könnt Euch stattdessen direkt über die beiden Teile des erwähnten Artikels amüsieren. Unterdessen arbeite ich das hier mal ein bißchen auf.
Gleich zu Beginn: Was ist der entscheidende, fundamentale Unterschied zwischen Analog und Digital? Man kann es auf diverse Arten beschreiben, aber letztlich läuft es darauf hinaus, daß man für die digitale Darstellung eines Signals ein Alphabet benutzt, während man für die analoge Darstellung direkt eine physikalische Größe benutzt. Letzlich wird zwar für die Darstellung des Alphabets auch wieder eine physikalische Größe herangezogen, aber das ändert nichts an der Tatsache, daß hier ein Zwischenschritt über ein Alphabet existiert, der bei der analogen Darstellung nicht existiert. Selbst wenn beidesmal dieselbe physikalische Größe, wie z.B. eine elektrische Spannung, zur Repräsentation benutzt wird, ist der Unterschied immer noch da: Einmal mit Alphabet, einmal ohne.
Es ist klar, worin das "Alphabet", von dem ich hier etwas kryptisch spreche, tatsächlich besteht, wenn wir über Digital-Audio reden: Es sind Zahlen, im Zweiersystem als Einsen und Nullen codiert, weil man damit in der Elektronik so schön einfach umgehen kann. Das ist aber nicht so wichtig. Es könnte auch eine andere Art der Codierung sein, ohne daß sich an diesem Argument etwas ändern würde. Und tatsächlich kommen andere Arten der Codierung in der Technik vor.
Es ist wichtig, diesen Grundsatz festzuhalten: Der Unterschied zwischen Analog und Digital liegt in der Verwendung einer Codierung mittels eines Alphabets bei der Digitaltechnik. Bei der Analogtechnik fehlt das, und die Information wird direkt als kontinuierliche physikalische Größe ausgedrückt.
Jetzt seht mal nach ob man von diesem Sachverhalt auch nur eine Spur in der Argumentation der vier High-End-Diskutanten bemerkt. Fehlanzeige. Im Gegenteil wird explizit so getan als gäbe es diesen Unterschied nicht.
Was gewinnt man durch den Umweg über ein Alphabet? Das ist ja unzweifelhaft mit zusätzlichem Aufwand verbunden, den man bei der Analogtechnik nicht hat.
Man kann sich das als Analogie recht einfach klar machen, auch ohne jede Kenntnis der Digitaltechnik. Ich schreibe hier Text, den Ihr lest. Der besteht aus Buchstaben, aus denen Wörter geformt werden. Ich verwende ein Alphabet, eine Sprache. Was Ihr seht, sind optische Muster. Auf dem Computerbildschirm werden die durch ein Punkteraster erzeugt, wenn der Text auf Papier gedruckt wäre, dann wären es Tintenflecke. Man könnte es auch von Hand schreiben, mit Kugelschreiber oder Bleistift. Man kann es größer schreiben oder kleiner, mit unterschiedlicher Schriftform, unterschiedlicher Farbe, usw.
Das Wichtige dabei: Der Inhalt bleibt der gleiche.
Das Alphabet bewirkt, daß man ohne einen Einfluß auf den Inhalt der Information, ihre Darstellung, bzw. ihre physikalische Repräsentation, in weiten Bereichen ändern kann. Die Information wird von ihrer Darstellung entkoppelt.
Das hat weit reichende Konsequenzen. Eine sehr wichtige Konsequenz besteht in der Möglichkeit, Fehler zu erkennen, und sie wieder rückgängig zu machen. Ich mache in meinen Artikeln hier im Blog immer wieder einen Tippfehler, der unkorrigiert bleibt. Aber das macht nichts, weil er in aller Regel leicht erkennbar ist, und die Bedeutung nicht verändert. Das verleiht der Digitaltechnik eine Robustheit, die die Analogtechnik nicht hat. Die Schrift, und unsere Sprache, sind in diesem Sinn ebenfalls digital, sind das schon immer gewesen, auch wenn die Darstellung als Bits eher neu ist.
Der Begriff "Digital" geht auf die Finger zurück (Digitus = Finger), mit denen man z.B. zählen kann (üblicherweise im Zehnersystem, daher bedeutet Digital nicht automatisch gleich Einsen und Nullen). Aber es geht streng genommen nicht allein um Zahlen, sondern um beliebige Symbole, um ein Alphabet. Mit dem kann man zwar auch Zahlen darstellen, die Idee ist aber viel allgemeiner, und erlaubt es, jede Information darzustellen, sofern man dafür eine passende Codierung hat (= eine Sprache). Aus dem gleichen Grund kann ein Computer nicht bloß rechnen, sondern auch andere Arten von Information verarbeiten, einschließlich menschlicher Sprache, oder eben auch Musik.
Das heißt, nebenbei gesagt, daß das "digitale Zeitalter", in dem wir uns angeblich befinden, nicht erst mit dem Computer begonnen hat, sondern mit der Erfindung der Schrift. Genauer gesagt, mit der Erfindung (bzw. Entdeckung) des Prinzips, daß man mit Symbolen Informationen darstellen kann. Die Computer bieten "nur" die Möglichkeit, mit diesen Symbolen "automatisch" zu hantieren, außerhalb des menschlichen Kopfes.
Daraus entsteht die Frage, was denn im Falle der Digitaltechnik eigentlich die "Information" ist, oder das "Signal". An dieser Frage macht sich der grundlegende Fehler fest, in dem sich die vier audiophilen Faktenverdreher geradezu wälzen: Sie setzen auch bei der Digitaltechnik das Signal gleich mit der elektrischen Kurvenform, die man z.B. bei der Übertragung auf einem Kabel würde messen können. Diese Kurvenform ist natürlich immer "analog", denn eine physikalische Größe wie die elektrische Spannung macht in der Natur nun einmal keine Sprünge. Die Änderungen werden da immer kontinuierlich sein, und folglich auch Zwischenwerte einnehmen, die nicht eindeutig einem Symbol aus dem Alphabet (im einfachsten Fall 0 oder 1) zuzuordnen sind.
Nur ist bei der Digitaltechnik diese Kurvenform nicht das Signal um das es geht. Es ist nur die Repräsentation. Um in der Analogie mit der Schrift zu bleiben: Das wäre die Form der Buchstaben, also z.B. die Dicke und Farbe der Linien. So lange man den Buchstaben erkennt, bleibt der Text derselbe, der Inhalt unberührt. Darin besteht eben die Robustheit der Digitaltechnik: Die Repräsentation kann man bis zu einem gewissen Ausmaß ändern und stören, der Inhalt bleibt unverändert. Das ist der entscheidende Punkt und die Motivation warum man den Umweg über das Alphabet macht. Es ist der Existenzgrund für die Digitaltechnik, und auch der Existenzgrund für die Schrift, ich kann das nur nochmal betonen.
An dieser Stelle sollte klar sein, warum die Argumente unserer vier Audiophilen auf der einen Seite richtig sind (auch digitale Signale werden als "analoge" = kontinuierliche Kurvenformen übertragen), und auf der anderen Seite eine völlige Themenverfehlung und Unverständnis über die Grundlagen der Digitaltechnik bedeuten (die Information steckt bei der Digitaltechnik nicht in der kontinuierlichen Kurvenform, sondern in den damit codierten Symbolen). Sie bringen durcheinander, was eigentlich das "Signal" ist, um das es hier geht. So ignorieren sie den eigentlichen Grund dafür, warum es die Digitaltechnik überhaupt gibt.
Ich hätte noch ein gewisses Verständnis dafür, wenn es sich um Laien handeln würde, bei denen man den entsprechenden Sachverstand nicht unbedingt voraussetzen kann. Bei Leuten, die sich zum Teil schon seit Jahrzehnten mit der digitalen Audiotechnik beschäftigen, und sogar eigene Produkte entwickeln, ist ein solcher Verständnisfehler ein Offenbarungseid. Wenn man unterstellt, daß sie hier wirklich ehrlich sind, und ihr eigenes Verständnis der Sache darstellen, dann wären sie in einem Ausmaß unfähig, das sie als Diskussionspartner disqualifizieren würde. Ich kann das nicht recht glauben. Ich glaube sie verbreiten bewußt Desinformation, und wissen insgeheim wie sich die Sache wirklich verhält. Mit anderen Worten: Sie lügen. Außer vielleicht Lavorgna. Der könnte wirklich so unfähig sein; es wird schließlich einen Grund geben warum er als Editor bei so einer Publikation arbeitet.
Nur damit keine falschen Eindrücke entstehen: Es dürfte klar sein, daß bei genügend großen Fehlern in der Kurvenform eines Digitalsignals, irgendwann auch mal die Information verfälscht wird, weil die Erkennung der Symbole auf der empfangenden Seite nicht mehr korrekt funktioniert. Das ist bei der Schrift auch nicht anders: Wenn die Zeichen zu stark verzerrt sind, kann man's nicht mehr zuverlässig lesen, und die Information wird verfälscht. Komplett egal ist damit die "analoge Seite der Digitaltechnik" nicht. Man muß dafür sorgen, daß die Erkennungssicherheit gut genug ist. Das ist ein wichtiges Gebiet in Forschung und Technik mit einem riesigen Ausmaß an Literatur. Man kann das studieren (Nachrichtentechnik). Hätten die vier Bullshitter auch nur die ersten 25 Seiten eines entsprechenden Lehrbuches gelesen, hätten sie sich nicht derart blamieren müssen.
Und noch ein Punkt: Wenn ein Taktsignal mit übertragen wird, wie das oft der Fall ist bei Digital Audio, dann ist das nicht digital kodiert. Das Taktsignal ist ein Analogsignal, auch wenn die restliche Information digital übertragen wird. Damit gilt die ganze Argumentation, die ich oben angeführt habe, nicht in dieser Form für die Taktübertragung, sondern nur für das Signal als solches. Also z.B. für die Musik.
Das heißt aber nicht, daß man bei der Taktübertragung keine Korrekturmöglichkeit hätte. Im Gegenteil, da man weiß daß der Takt gleichmäßig sein muß, kann man Unregelmäßigkeiten ("Jitter") ganz gut herausfiltern. Auch das ist ein Standardproblem, mit dem man sich seit Jahrzehnten in Forschung und Technik auseinander setzt, so daß es keinen Mangel an Literatur gibt, wie man mit diesen Problemen umgeht. Aber dazu habe ich schon genug in vorigen Artikeln geschrieben.
Das wäre für sich gesehen nichts Neues; so erwartet man's von der audiophilen Szene. Jetzt hat die britische Seite Ars Technica ein solches Kabel unter die Lupe genommen, und auch mal zerlegt, damit man sieht wie es drinnen aussieht. Für 300 englische Pfund bekommt man 1,5 Meter davon, immerhin mit coolen Steckern aus deutscher Produktion, von einer ganz Voodoo-unverdächtigen Firma. Das Kabel selbst ist eher solide Industrieware, die offensichtlich für Festverlegung gedacht ist (es werden keine Litzen, sondern Einzeldrähte für die Leiterpaare benutzt, und die geschäumte Adernisolierung ist zwar gut für die Dämpfung bei langen Kabeln, aber nicht so gut für die Langzeitstabilität bei mechanischer Knick- und Biegebelastung). Es ist also eigentlich kein Patchkabel. Macht aber für Audiophile sicher Sinn, denn steifere Kabel haben da eine größere Qualitätsanmutung, frei nach dem Motto: Je unpraktischer, desto besser muß es sein.
Ebenfalls sehr audiophil ist die Idee, die Schirmung nicht durchzuverbinden. Nun bin ich zwar selbst ein Freund von ungeschirmten Ethernet-Patchkabeln, denn da ist einfach die Chance geringer, daß man mit Brummschleifen Probleme kriegt, aber dann lasse ich den Schirm doch lieber gleich weg, anstatt ihn innen drin mit Kreppband zu isolieren.
Ars Technica hat das Kabel nicht bloß auseinander genommen, sondern auch einen Hörtest organisiert, und zwar gleich zusammen mit dem Magier und Esoteriker-Schreck Randi, mit einem wenig überraschenden Ergebnis. Lest selber nach, ich brauche das nicht zu kommentieren. Stattdessen geht's mir hier um was anderes, über das ich bei dieser Gelegenheit gestolpert bin. Es geht um Analog vs. Digital, und was daran der fundamentale Unterschied ist.
Vor zwei Jahren schrieb Michael Lavorgna einen zweiteiligen Artikel über ein (email-)Gespräch mit drei Leuten über dieses Thema, nämlich mit Charles Hansen, Gordon Rankin und Steve Silberman. Wer sind diese Leute?
Lavorgna ist der Editor von AudioStream, einer Schwesterpublikation der bekannteren Stereophile, mit einem Schwerpunkt auf Audio Streaming bzw. Computer Audio. Ein wirklich unangenehmer Bullshitter in der Art wie Michael Fremer von der Stereophile. Was er schreibt hat beinahe eine Schwachsinns-Garantie. Kann gelegentlich auch unterhaltsam sein.
Hansen ist der Chef von Ayre Acoustics, einer High-End-Marke an der vordersten Front der Anti-Feedback-Bewegung, und die Firma, die für Neil Young den Pono entwickelt hat.
Rankin ist der Chef von Wavelength Audio, ebenfalls ein High-End Hersteller, unter anderem von USB-DACs.
Silberman schließlich ist Vizepräsident für Entwicklung bei AudioQuest (früher war er im Marketing für Ayre und AudioQuest, was schon zeigt welche Qualifikation man in diesem Bereich für die Entwicklung braucht), also der Firma, die das bei Ars Technica getestete Ethernet-Kabel anbietet.
Jetzt wißt Ihr wie ich auf diese Diskussion gekommen bin. Auf etwas verschlungenen Pfaden, wie das öfter so ist wenn man im Internet unterwegs ist. Sei's drum, ich fand dieses Thema "Analog vs. Digital", so wie die vier Herren es sehen, für symptomatisch dafür, wie sogar die grundlegendsten Fakten von den Akteuren im audiophilen Markt völlig verdreht und verzerrt werden, bis hin zum Verdacht daß sie selbst von Tuten und Blasen keine Ahnung haben, obwohl sie Produkte zu verkaufen versuchen, die auf diesen Grundlagen basieren. Entweder das, oder es sind gewohnheitsmäßige Lügner. So oder so verheerend.
Das zentrale Argument, das man nicht nur dort, sondern auch hierzulande, immer wieder hört, ist: Digital ist in Wirklichkeit auch Analog. Es leidet damit unter den gleichen Problemen wie Analog, und die angebliche "Perfektion" von Digitaltechnik ist eine Schimäre.
Weil nicht allen Lesern klar sein dürfte, wo darin der fundamentale Fehler ist, habe ich mich entschlossen, mal einen Blogbeitrag dazu zu schreiben. Diejenigen, die das alles völlig trivial finden (und es ist tatsächlich trivial), mögen mir verzeihen und brauchen nicht weiter zu lesen. Ihr könnt Euch stattdessen direkt über die beiden Teile des erwähnten Artikels amüsieren. Unterdessen arbeite ich das hier mal ein bißchen auf.
Gleich zu Beginn: Was ist der entscheidende, fundamentale Unterschied zwischen Analog und Digital? Man kann es auf diverse Arten beschreiben, aber letztlich läuft es darauf hinaus, daß man für die digitale Darstellung eines Signals ein Alphabet benutzt, während man für die analoge Darstellung direkt eine physikalische Größe benutzt. Letzlich wird zwar für die Darstellung des Alphabets auch wieder eine physikalische Größe herangezogen, aber das ändert nichts an der Tatsache, daß hier ein Zwischenschritt über ein Alphabet existiert, der bei der analogen Darstellung nicht existiert. Selbst wenn beidesmal dieselbe physikalische Größe, wie z.B. eine elektrische Spannung, zur Repräsentation benutzt wird, ist der Unterschied immer noch da: Einmal mit Alphabet, einmal ohne.
Es ist klar, worin das "Alphabet", von dem ich hier etwas kryptisch spreche, tatsächlich besteht, wenn wir über Digital-Audio reden: Es sind Zahlen, im Zweiersystem als Einsen und Nullen codiert, weil man damit in der Elektronik so schön einfach umgehen kann. Das ist aber nicht so wichtig. Es könnte auch eine andere Art der Codierung sein, ohne daß sich an diesem Argument etwas ändern würde. Und tatsächlich kommen andere Arten der Codierung in der Technik vor.
Es ist wichtig, diesen Grundsatz festzuhalten: Der Unterschied zwischen Analog und Digital liegt in der Verwendung einer Codierung mittels eines Alphabets bei der Digitaltechnik. Bei der Analogtechnik fehlt das, und die Information wird direkt als kontinuierliche physikalische Größe ausgedrückt.
Jetzt seht mal nach ob man von diesem Sachverhalt auch nur eine Spur in der Argumentation der vier High-End-Diskutanten bemerkt. Fehlanzeige. Im Gegenteil wird explizit so getan als gäbe es diesen Unterschied nicht.
Was gewinnt man durch den Umweg über ein Alphabet? Das ist ja unzweifelhaft mit zusätzlichem Aufwand verbunden, den man bei der Analogtechnik nicht hat.
Man kann sich das als Analogie recht einfach klar machen, auch ohne jede Kenntnis der Digitaltechnik. Ich schreibe hier Text, den Ihr lest. Der besteht aus Buchstaben, aus denen Wörter geformt werden. Ich verwende ein Alphabet, eine Sprache. Was Ihr seht, sind optische Muster. Auf dem Computerbildschirm werden die durch ein Punkteraster erzeugt, wenn der Text auf Papier gedruckt wäre, dann wären es Tintenflecke. Man könnte es auch von Hand schreiben, mit Kugelschreiber oder Bleistift. Man kann es größer schreiben oder kleiner, mit unterschiedlicher Schriftform, unterschiedlicher Farbe, usw.
Das Wichtige dabei: Der Inhalt bleibt der gleiche.
Das Alphabet bewirkt, daß man ohne einen Einfluß auf den Inhalt der Information, ihre Darstellung, bzw. ihre physikalische Repräsentation, in weiten Bereichen ändern kann. Die Information wird von ihrer Darstellung entkoppelt.
Das hat weit reichende Konsequenzen. Eine sehr wichtige Konsequenz besteht in der Möglichkeit, Fehler zu erkennen, und sie wieder rückgängig zu machen. Ich mache in meinen Artikeln hier im Blog immer wieder einen Tippfehler, der unkorrigiert bleibt. Aber das macht nichts, weil er in aller Regel leicht erkennbar ist, und die Bedeutung nicht verändert. Das verleiht der Digitaltechnik eine Robustheit, die die Analogtechnik nicht hat. Die Schrift, und unsere Sprache, sind in diesem Sinn ebenfalls digital, sind das schon immer gewesen, auch wenn die Darstellung als Bits eher neu ist.
Der Begriff "Digital" geht auf die Finger zurück (Digitus = Finger), mit denen man z.B. zählen kann (üblicherweise im Zehnersystem, daher bedeutet Digital nicht automatisch gleich Einsen und Nullen). Aber es geht streng genommen nicht allein um Zahlen, sondern um beliebige Symbole, um ein Alphabet. Mit dem kann man zwar auch Zahlen darstellen, die Idee ist aber viel allgemeiner, und erlaubt es, jede Information darzustellen, sofern man dafür eine passende Codierung hat (= eine Sprache). Aus dem gleichen Grund kann ein Computer nicht bloß rechnen, sondern auch andere Arten von Information verarbeiten, einschließlich menschlicher Sprache, oder eben auch Musik.
Das heißt, nebenbei gesagt, daß das "digitale Zeitalter", in dem wir uns angeblich befinden, nicht erst mit dem Computer begonnen hat, sondern mit der Erfindung der Schrift. Genauer gesagt, mit der Erfindung (bzw. Entdeckung) des Prinzips, daß man mit Symbolen Informationen darstellen kann. Die Computer bieten "nur" die Möglichkeit, mit diesen Symbolen "automatisch" zu hantieren, außerhalb des menschlichen Kopfes.
Daraus entsteht die Frage, was denn im Falle der Digitaltechnik eigentlich die "Information" ist, oder das "Signal". An dieser Frage macht sich der grundlegende Fehler fest, in dem sich die vier audiophilen Faktenverdreher geradezu wälzen: Sie setzen auch bei der Digitaltechnik das Signal gleich mit der elektrischen Kurvenform, die man z.B. bei der Übertragung auf einem Kabel würde messen können. Diese Kurvenform ist natürlich immer "analog", denn eine physikalische Größe wie die elektrische Spannung macht in der Natur nun einmal keine Sprünge. Die Änderungen werden da immer kontinuierlich sein, und folglich auch Zwischenwerte einnehmen, die nicht eindeutig einem Symbol aus dem Alphabet (im einfachsten Fall 0 oder 1) zuzuordnen sind.
Nur ist bei der Digitaltechnik diese Kurvenform nicht das Signal um das es geht. Es ist nur die Repräsentation. Um in der Analogie mit der Schrift zu bleiben: Das wäre die Form der Buchstaben, also z.B. die Dicke und Farbe der Linien. So lange man den Buchstaben erkennt, bleibt der Text derselbe, der Inhalt unberührt. Darin besteht eben die Robustheit der Digitaltechnik: Die Repräsentation kann man bis zu einem gewissen Ausmaß ändern und stören, der Inhalt bleibt unverändert. Das ist der entscheidende Punkt und die Motivation warum man den Umweg über das Alphabet macht. Es ist der Existenzgrund für die Digitaltechnik, und auch der Existenzgrund für die Schrift, ich kann das nur nochmal betonen.
An dieser Stelle sollte klar sein, warum die Argumente unserer vier Audiophilen auf der einen Seite richtig sind (auch digitale Signale werden als "analoge" = kontinuierliche Kurvenformen übertragen), und auf der anderen Seite eine völlige Themenverfehlung und Unverständnis über die Grundlagen der Digitaltechnik bedeuten (die Information steckt bei der Digitaltechnik nicht in der kontinuierlichen Kurvenform, sondern in den damit codierten Symbolen). Sie bringen durcheinander, was eigentlich das "Signal" ist, um das es hier geht. So ignorieren sie den eigentlichen Grund dafür, warum es die Digitaltechnik überhaupt gibt.
Ich hätte noch ein gewisses Verständnis dafür, wenn es sich um Laien handeln würde, bei denen man den entsprechenden Sachverstand nicht unbedingt voraussetzen kann. Bei Leuten, die sich zum Teil schon seit Jahrzehnten mit der digitalen Audiotechnik beschäftigen, und sogar eigene Produkte entwickeln, ist ein solcher Verständnisfehler ein Offenbarungseid. Wenn man unterstellt, daß sie hier wirklich ehrlich sind, und ihr eigenes Verständnis der Sache darstellen, dann wären sie in einem Ausmaß unfähig, das sie als Diskussionspartner disqualifizieren würde. Ich kann das nicht recht glauben. Ich glaube sie verbreiten bewußt Desinformation, und wissen insgeheim wie sich die Sache wirklich verhält. Mit anderen Worten: Sie lügen. Außer vielleicht Lavorgna. Der könnte wirklich so unfähig sein; es wird schließlich einen Grund geben warum er als Editor bei so einer Publikation arbeitet.
Nur damit keine falschen Eindrücke entstehen: Es dürfte klar sein, daß bei genügend großen Fehlern in der Kurvenform eines Digitalsignals, irgendwann auch mal die Information verfälscht wird, weil die Erkennung der Symbole auf der empfangenden Seite nicht mehr korrekt funktioniert. Das ist bei der Schrift auch nicht anders: Wenn die Zeichen zu stark verzerrt sind, kann man's nicht mehr zuverlässig lesen, und die Information wird verfälscht. Komplett egal ist damit die "analoge Seite der Digitaltechnik" nicht. Man muß dafür sorgen, daß die Erkennungssicherheit gut genug ist. Das ist ein wichtiges Gebiet in Forschung und Technik mit einem riesigen Ausmaß an Literatur. Man kann das studieren (Nachrichtentechnik). Hätten die vier Bullshitter auch nur die ersten 25 Seiten eines entsprechenden Lehrbuches gelesen, hätten sie sich nicht derart blamieren müssen.
Und noch ein Punkt: Wenn ein Taktsignal mit übertragen wird, wie das oft der Fall ist bei Digital Audio, dann ist das nicht digital kodiert. Das Taktsignal ist ein Analogsignal, auch wenn die restliche Information digital übertragen wird. Damit gilt die ganze Argumentation, die ich oben angeführt habe, nicht in dieser Form für die Taktübertragung, sondern nur für das Signal als solches. Also z.B. für die Musik.
Das heißt aber nicht, daß man bei der Taktübertragung keine Korrekturmöglichkeit hätte. Im Gegenteil, da man weiß daß der Takt gleichmäßig sein muß, kann man Unregelmäßigkeiten ("Jitter") ganz gut herausfiltern. Auch das ist ein Standardproblem, mit dem man sich seit Jahrzehnten in Forschung und Technik auseinander setzt, so daß es keinen Mangel an Literatur gibt, wie man mit diesen Problemen umgeht. Aber dazu habe ich schon genug in vorigen Artikeln geschrieben.
Abonnieren
Posts
(
Atom
)