Samstag, 3. Oktober 2009

Alte Geschichten

Die 91ste AES-Convention in New York im Herbst 1991 muß "interessant" gewesen sein. Sie stand unter dem Titel: "Audio Fact & Fantasy: Reckoning with the Realities". Die Akademiker und Profis in der direkten Auseinandersetzung mit den Subjektivisten. Tut mir fast leid daß ich nicht dabei war, meine erste Convention datiert ein halbes Jahr später, in Wien. Es scheint jedenfalls als habe diese Veranstaltung vor 18 Jahren Nachwirkungen bis in unsere Tage.

Eine solche Konferenz wäre jedenfalls die ideale Gelegenheit für die Subjektivisten gewesen, mal etwas Handfestes vorzutragen, schließlich war zu diesem Zeitpunkt die "Great Debate" bereits über 10 Jahre lang am Laufen, in der es um die für Audiophile geradezu blasphemische Behauptung ging, kompetent konstruierte Verstärker seien im Normalbetrieb klanglich nicht zu unterscheiden. Da wurden reihenweise Blindtests in verschiedenen Ausprägungen durchgeführt, die ebenso reihenweise diese Behauptung gestützt haben, und parallel dazu gab's ein Geheul aus der audiophilen Szene darüber wie "absurd" dieses Ergebnis doch sei. Was es nicht gab waren seriöse Untersuchungen von eben dieser Szene. Das hätte man auf dieser Konferenz ändern können, Zeit genug war dazu schließlich. Das Programmkomittee der AES wird sich gedacht haben: "Jetzt hatten wir seit über 10 Jahren diese Auseinandersetzung, es wird Zeit daß wir das mal bilanzieren und sehen wo wir heute stehen."

Es waren offenbar demzufolge auch etliche Vertreter und Zuschauer von der subjektivistischen Seite anwesend, von der sonst auf AES-Conventions wenig zu merken ist. Deren Wortführerschaft scheint damals die Stereophile gehabt zu haben, und etliche Mitarbeiter aus der Redaktion waren zur Konferenz gekommen. Einer davon, Robert Harley, hielt einen Vortrag zum Thema "The Role of Critical Listening in Evaluating Audio Equipment Quality", der damals in der Stereophile unter dem Titel "The Listener's Manifesto" zu lesen war. Wer ein "klassisches" Beispiel für einen Subjektivisten-Text sucht, dem kann dieses Papier auch heute noch empfohlen werden.

Besonders amüsant finde ich, wie Harley den Eindruck zu erwecken versucht, er könne erklären woher der Konflikt zwischen "Objektivisten" und "Subjektivisten" kommt, und dabei keine Gelegenheit ausläßt den "Objektivisten" die Schuld in die Schuhe zu schieben, indem er sie als Dogmatiker, Wissensverweigerer, Hörverweigerer, etc. hinstellt. Man stelle sich mal vor wie das auf die versammelte Riege von Zuhörern gewirkt haben muß. Die mildeste Reaktion wird gewesen sein, ihn als nicht ernst zu nehmenden Schwachkopf anzusehen, auf den man nicht unbedingt reagieren muß. Einigen wird aber gewaltig der Kamm geschwollen sein. Bei Peter Aczel z.B. ist das nicht überraschend; man kann seine Version der Geschichte hier (ab Seite 36) nachlesen.

Nicht mehr lustig finde ich allerdings die Art wie Harley mit Zitaten seiner objektivistischen Gegner umgeht. Das ist eine ganz miese Tour, und man tut in jedem Einzelfall gut daran, selber nachzuprüfen in welchem Kontext ein Zitat gefallen ist das Harley in seinem Papier anführt. Ein Beispiel: Harley zählt auf Seite 12 seines Papiers eine Anzahl von nach seiner Darstellung typischen Bedingungen von Blindtests auf, die jeden professionellen Blindtester in Rage gebracht haben muß. Im Punkt E heißt es: "The experimenter controls the number of successive trials without regard for the subject's fatigue factor, increasing the number if a trend indicating reliable identification appears." Dazu wird als Fußnote auf einen Text von Stanley Lipshitz verwiesen, aus dem Folgendes zitiert wird: "It is usually best, rather than conducting a preset number of trials, to monitor the statistics as the trials proceed, and to extend the number of trials if there appears to be a reasonable possibility that a subject is performing somewhat better than random."

Es ist offensichtlich was einem hier Harley weismachen will: Wenn es so aussieht als könne jemand tatsächlich einen Unterschied hören, dann plagt man ihn umso länger, bis er erschöpft ist und nichts mehr hört. Wer den Artikel von Lipshitz liest, oder den Mann kennt, wird unschwer erkennen daß er das ganz sicher nicht gemeint haben kann. Ganz im Gegenteil: Es schreibt in besagtem Artikel ganz ausdrücklich daß er zugunsten möglichst hoher Unterscheidungs-Empfindlichkeit so gut wie alle Testmethoden akzeptiert, vorausgesetzt sie sind tatsächlich verblindet, und sie werden seriös ausgewertet. Von einer absichtlichen Verschlechterung der Bedingungen um die Subjekte zu behindern kann nicht die Rede sein. Bei der von Harley zitierten Passage geht es Lipshitz darum, daß man in einem Fall wo ansonsten die statistische Relevanz nicht gegeben wäre die Anzahl der Tests erhöht werden kann, um vielleicht doch noch zu einer Relevanz zu kommen. Es ist ein Versuch, so einen Test für diejenigen zu retten die einen Unterschied propagieren, denn ohne eine Ausweitung der Testanzahl müßte man in dieser Situation den Test wegen mangelnder statistischer Relevanz als Fehlschlag werten.

So etwas ist bei Harley leider kein Einzelfall. Er hat offenbar keine Hemmung, Zitate für seine Zwecke einzuspannen, gerade auch von Leuten die nicht auf seiner Seite stehen, und er ist nicht zimperlig wenn dabei der Sinn völlig verdreht wird. Ein weiteres Beispiel dafür ist sein Versuch, ein Seminar auf der genannten AES-Convention für seine Anti-Blindtest-Propaganda einzusetzen, den er ursprünglich mal bei der Stereophile veröffentlicht hatte, den er aber kürzlich als Editorial für "The Absolute Sound" wieder aufgewärmt hat. Über diese Spur bin ich überhaupt auf dieses doch recht alte Thema hier gekommen, denn die dort erzählte Anekdote findet man vielfach zitiert und kopiert auf diversen audiophilen Webseiten und in Forumsdiskussionen, sowohl in den USA als auch hierzulande.

Die Kritiklosigkeit mit der die Anekdote als Argument gegen Blindtests akzeptiert und geschätzt wird, obwohl sogar ohne Nachprüfen der Quellen mit ein bißchen Nachdenken schnell klar ist welcher Unsinn da von Harley kommt, ist ein neuerliches Beispiel dafür wie ein Ergebnis, das einem gelegen kommt, die Kritikfähigkeit erstickt. Ich hatte das in diesem Blog ja früher schon mal thematisiert.

Das Seminar drehte sich damals um die recht neue und vielversprechende psychoakustische Datenkompression, die man sich anschickte zur Grundlage von Digitalradio und anderen Medien zu machen, weshalb man die benutzten Verfahren standardisieren mußte. Herstellerspezifische Verfahren wie z.B. das von Philips bei der DCC benutzte, oder das von Sony für die Minidisc, kamen dafür nicht in Frage, man hätte sich damit zu sehr an einen Hersteller gebunden. Deshalb der Druck in Richtung internationaler Normierung, die von der MPEG vorangetrieben wurde, und die letztlich um die Zeit der AES-Konferenz herum auch zu einer entsprechenden Norm führte. Das war die Geburt von MP2 und MP3, die erst Jahre danach zum heute sattsam bekannten MP3-Boom führte. Eine Zeit lange vor dem iPod.

Datenkompression war wichtig weil keiner die Sendebandbreite zu spendieren und zu bezahlen bereit war, die es gebraucht hätte um unkomprimiertes Audio zu senden. Da psychoakustische Kompressionsverfahren versprachen, die Datenmenge auf ein Zehntel oder gar mehr einzudampfen, war das ein wirtschaftlicher Faktor den man nicht ignorieren konnte, zumal es so aussah als könne man durch Wahl der Bitrate fast beliebige Kompromisse zwischen Kosten und Qualität ermöglichen, bis hin zu einer "transparenten" Qualität, die von der CD nicht unterscheidbar ist obwohl noch immer nur ein Bruchteil der Datenmenge anfällt.

Eine wichtige Frage zu diesem Zeitpunkt war daher, wie gut die zu der Zeit verfügbaren Codecs in der Praxis waren, und ob sie für Digitalradio hoher Qualität (UKW-Qualität oder besser) zu gebrauchen waren. Als Nebenproblem wollte man wissen mit welchen Datenraten man in der Praxis planen muß. Man führte zu diesem Zweck beim Schwedischen Rundfunk eine groß angelegte Studie durch, in der man die zu diesem Zeitpunkt verfügbaren Codecs in Blindtest-Reihen gegeneinander antreten ließ und bei verschiedenen Datenraten feststellte wie es um die hörbare Qualitätsverschlechterung bestellt war. Das Ergebnis wurde auf dem Seminar anläßlich der AES-Convention in New York diskutiert (es war auf einer anderen AES-Veranstaltung kurz zuvor schon vorgestellt worden), und Harley saß offenbar unter den Zuschauern. Was dort genau passierte ist nirgends neutral nachzulesen und die Rekonstruktion fällt demzufolge schwer wenn man nicht teilgenommen hat. Soweit die Fakten reichen kann Harley's Darstellung durchaus stimmen, aber was er daraus macht ist geradezu perfide.

Der nicht anwesende (inzwischen verstorbene) Bart Locanthi meldete sich mit einer auf Band aufgenommenen Stellungnahme in der Diskussion zu Wort, in der er berichtete wie er Grenzzyklen in den Aufnahmen gefunden habe die ihm die Schweden auf Anforderung geschickt hatten. Dabei handelte es sich um das Material das für die Blindtests verwendet wurde. Beim Blindtest selbst fielen diese Grenzzyklen offenbar nicht auf, aber einmal darauf aufmerksam gemacht konnten sie auch die Schweden hören. Harley macht daraus ein Argument gegen den Blindtest, und sieht darin einen Beweis daß man im Blindtest Dinge nicht hört die im nichtblinden Test mühelos und routinemäßig gehört werden.

Eine unsinnige und ärgerliche Folgerung, die auch Locanthi selbst kaum mitgetragen hätte. Es gibt keinen guten Grund zur Annahme daß Locanthi die Grenzzyklen deswegen gehört hat weil er nichtblind gehört hat. Es spricht eher Vieles dafür daß er es gehört hätte egal ob er blind oder nichtblind vorging. Und daß es die schwedischen Tester ebenfalls gehört hätten wenn sie spezifisch danach gesucht hätten - was sie später ja getan haben. Die Anekdote wäre also kein Argument für oder gegen Blindtests, sondern für die auch damals schon nicht ganz neue Erkenntnis daß man bei subtilen Effekten wissen muß wonach man sucht.

Wenn Harley recht hätte dann würde das bedeuten daß weder die Entwickler des betreffenden Codecs, noch die schwedischen Tester, den Codec je unverblindet gehört haben. Sonst hätten sie den Effekt ja hören müssen. Das ist aber eine absurde Annahme. Schon bei der Codec-Entwicklung hört man sich das Resultat x-mal an, und dabei macht man ganz sicher nicht jedesmal den Aufwand eines Blindtests. Bloß werden darüber keine Konferenzvorträge gehalten. Den Blindtest macht man dann wenn man der Fachöffentlichkeit zeigen will was die Entwicklung kann, oder wenn man sich zuvor vergewissern will daß man sich nicht täuscht. Auch in der Vorbereitung eines Blindtests und in der Einhörphase wird regelmäßig nichtblind gehört, ohne daß das in jedem Bericht ausdrücklich erwähnt würde. Locanthi ist also mit Sicherheit nicht der Einzige oder Erste gewesen der den Codec unverblindet gehört hat.

Locanthi hat sich in dieser Angelegenheit dadurch ausgezeichnet daß er wußte was Grenzzyklen sind - sehr leise Störtöne die ein Digitalfilter selbst erzeugen kann wenn es einen subtilen Fehler hat - weil er durch seine Beschäftigung mit Digitalfiltern damit zu tun hatte. Das ist ein Artefakt bei dem es recht typisch ist, daß man es bloß bemerkt wenn man weiß worauf man achten muß, es dann aber relativ einfach erkennen und wiedererkennen kann. Die digitale Audiotechnik hat eine Reihe solcher Effekte auf Lager, die in der Analogtechnik keine Entsprechung haben. Wer damit Erfahrung hat tut sich leichter, die Effekte zu erkennen, egal ob im blinden oder im nichtblinden Hörtest. Ob Harley selbst die Grenzzyklen im nichtblinden Hörtest entdeckt hätte darf getrost bezweifelt werden.

Für den Codec bedeutet das ganz einfach daß er noch einen "Bug" hatte. Das ist nicht wirklich überraschend wenn man bedenkt daß damals komplett neue Entwicklungen getestet wurden. Der schwedische Bericht enthält genau genommen zwei getrennte Tests, einen vom Sommer 1990, in dem vier Codecs gegeneinander antraten, von denen nur zwei als einigermaßen "fertig" gelten konnten, so daß die anderen beiden gar nicht bewertet wurden und nur informell teilnahmen. Als Ergebnis aus dem Test wurden die Entwickler der beiden "fertigen" Codecs im August des Jahres aufgefordert, ihre Implementierungen zusammenzuwerfen und eine gemeinsame Lösung zu präsentieren, die sich in mehrere "Layer" gliedert, die für unterschiedliche Anforderungen an den Kompressionsgrad und die erforderliche Rechenleistung verwendet werden können. Daraus entstand dann ein Konzept in drei Layern, das die MPEG-Group schließlich im Dezember 1990 vorstellte, und aus dem dann MP1, MP2 und MP3 wurde. MP1 benutzt heute praktisch niemand mehr, MP2 hat Verwendung im Rundfunk und bei DAB gefunden, und MP3 kennt heute Jeder. Das Resultat wurde von den Schweden dann im Frühjahr 1991 im Blindtest geprüft.

Wer ein bißchen was von Entwicklung versteht der weiß daß solche Zeitspannen ziemlich knapp sind und daß es nicht besonders wundert wenn dabei so etwas wie Grenzzyklen durch die Lappen gehen. Die Schweden waren sich dessen bewußt, denn sie schrieben über den ersten der beiden Tests: "SR came to the conclusion that none of the codecs could be generally accepted for use as distribution codecs by the broadcasters, at the stage of development by the time of the tests in July 1990. [...] it must be borne in mind that when we are talking about DAB we are talking about a system that will live for 30 years or more. Artifacts that are difficult to detect at a first listening will be more and more obvious as time goes by." Locanthi hätte bestimmt 100% zugestimmt.

Ein paar Monate später war die Qualität des kombinierten MPEG-codecs bereits besser geworden und das Fazit des SR aus dem zweiten Test war: "Both codecs have now reached a level of performance where they fulfill the EBU requirements for a distribution codec." Das sollte nicht heißen daß die Codecs in jeder Hinsicht als perfekt oder transparent angesehen wurden, wie sich aus dem Text klar ergibt. Die EBU hatte sich Kriterien gegeben die sie an einen Codec anlegen wollte, der für Digitalradio geeignet sein sollte, und diese Kriterien waren erfüllt. Man kann drüber diskutieren ob die Kriterien streng genug waren, aber am Ergebnis der Schweden gibt's in meinen Augen nichts zu kritisieren, zumindestens nicht auf die unehrliche Art wie das Harley unterstellt.

Ich vermute sogar daß das Ergebnis nicht viel anders ausgefallen wäre wenn die Schweden das Grenzzyklen-Problem selbst gefunden hätten. Es wäre vermutlich ein Bugreport an die Entwicklertruppe ergangen, und es ist gut möglich daß der Fehler in ein paar Wochen korrigiert gewesen wäre ohne daß sich an der Qualitätseinstufung etwas hätte zu ändern brauchen. So ein Bug ist kein prinzipielles Problem der Kompressionstechnik und damit auch kein Grund zu spezieller Aufregung.

Trotzdem fanden damals viele "Profis" daß ihnen die Sache mit der Datenkompression etwas zu schnell ging und Richtungsentscheidungen gefällt wurden bevor man genug Erfahrung damit gesammelt hatte. Teilweise lag das sogar daran daß man bei diesen psychoakustischen Technologien so sehr auf Hörtests angewiesen war, und nicht stattdessen brauchbare Meßtechniken dafür zur Verfügung standen. Man versuchte folglich auch mit Hochdruck dahin zu kommen, die psychoakustischen Erkenntnisse die man in diesem Zusammenhang gewonnen hatte, in Meßverfahren umzusetzen mit denen man die Qualität solcher Codecs auch ohne dauernde aufwändige Blindtests halbwegs zuverlässig ermitteln konnte. Die Meinung man müsse das mit nichtblinden Hörtests tun hat keiner von der akademischen Seite ernsthaft vertreten, auch die nicht die sich kritisch mit Blindtests auseinander setzten.

Solche Feinheiten gehen an jemandem wie Harley vorbei, der bloß auf der Suche nach Textschnipseln ist die er für seine Propaganda einsetzen kann. Da reicht es, implizit vorauszusetzen ein Hörtest müsse vorhandene Effekte auch sicher detektieren. Wenn einem Blindtest dann ein Effekt durch die Lappen geht kann er demzufolge nichts getaugt haben. Bullshit. Kein Hörtest, egal ob blind oder nichtblind, kann das. Wenn er Blindtests mit diesem Argument abschießt kann er jeden nichtblinden Test mit dem gleichen Argument abschießen. Auf dieser Basis kann die Auseinandersetzung bloß ideologisch sein.

Seine rhetorische Frage "How is it possible that a single listener, using non-blind observational listening techniques, was able to discover—in less than ten minutes—a distortion that escaped the scrutiny of 60 expert listeners, 20,000 trials conducted over a two-year period, and elaborate “double-blind, triple-stimulus, hidden-reference” methodology, and sophisticated statistical analysis?"

hat also eine ganz einfache Antwort, und es ist nicht die welche er selbst anbietet. "Because he knew what to listen for."

Das ist die richtige Erklärung, und die Frage blind/nichtblind hat nichts damit zu tun, egal wie viel suggestive Sprache Harley auch immer zusammenkratzt um diese Erkenntnis lächerlich zu machen.

(Zu den verlinkten AES-Papieren tut mir leid daß sie nicht frei verfügbar sind. Daran kann ich nichts ändern, und es behindert natürlich jeden Versuch, sich anhand der Originaltexte schlau zu machen. Mit etwas Glück findet man manchmal im Internet kursierende Kopien der Artikel, woran im Normalfall die AES wenig Interesse hat -- verständlicherweise. Falls das scheitert bleibt nur der Gang in eine entsprechend sortierte Bibliothek, oder das Zahlen der Gebühr die die AES verlangt.)

2 Kommentare:

  1. Hi,

    schöner Text.
    Wirklich interessant zu sehen, dass diese Diskussion seit fast 20 Jahren derart auf der Stelle tritt.
    Die Vorkommnisse auf der AES 1991 hätten genauso gut vor 3 Wochen in einem der Foren stattfinden können.

    Interessant finde ich aber den (scheinbar) sehr scharfen Ton der Stereophile-Redaktion gegen die Mitglieder der AES und gegen die AES als ganzes.
    Immerhin sind das bei weitem keine "Niemande".
    Lipshitz, Thiele, Small usw. sind ja Leute, die im Audio-Bereich wirklich "einen Namen" haben.

    Gruß,
    Martin

    AntwortenLöschen
  2. erstaunlich wie wenig sich daran geändert hat. Im Grunde geht die Diskussion heute noch genauso. Blindtest taugt einfach nix. Das beliebige zerpflücken und sezieren von Aussagen kennt man ja schon von der Politik zur Genüge, warum soll das hier anders sein.
    Meine Erfahrung nach der Durchführung von Blindtest ist, das zumindest ein Teil der Beteiligten die Grössenordnungen neu sortiert, ein bisschen aufmerksamer geworden ist.

    Schöner Artikel übrigens :-)
    viele Grüße
    Reinhard

    AntwortenLöschen