HD-Voice sollte zum Standard erhoben werden

Vergessen wir die bedeutungslosen inkrementellen Funktionsverbesserungen bei Voice over IP (VoIP) und Unified-Communications (UC). Wir haben bereits viele Fortschritte erzielt und sollten endlich die hochauflösende Sprache überall verfügbar machen.

Telefonieren über das Festnetz hat bis heute wenig mit einem akustischen Hörgenuss zu tun. Seit rund 100 Jahren hat sich an den technischen Rahmenbedingungen für analoge Telefone nichts geändert. Der größte Fortschritt, den wir bei VoIP und Unified-Communications erreicht haben, besteht in der verbesserten Sprachqualität, die durch die Nutzung von High-Definition (HD) oder Breitband-Codecs erreicht werden kann. Natürlich ist mir bewusst, dass in den angebotenen Produkten viele Komfortfunktionen (beispielsweise mit einem Klick einen Anruf, ein Video oder eine E-Mail zu etablieren) zur Verfügung zu stehen. Diese Ideen sind jedoch nur Kopien von Smartphone-Funktionen und punkten nicht auf meiner Innovations-Skala.

HD-Voice hingegen bietet puren Genuss. Ob bei einem Telefonat oder in einer Audio- bzw. Videokonferenz, die Fähigkeit, jemanden richtig zu hören, verändert das gesamte Kommunikationserlebnis nachhaltig. Ich höre mir immer wieder Produktpräsentationen an und werde dabei über alle möglichen Fähigkeiten aufgeklärt, aber zu meinem Erstaunen spricht fast Niemand davon, dass die Tage der miserablen Telefonverbindungen der Vergangenheit angehören.

Das alte Telefonnetz überträgt nur einen Frequenzbereich von 300 Hz bis ca. 3.400 Hz. Dadurch erscheint die Sprache so unnatürlich und „farblos“. Die menschliche Sprache setzt sich aus einem Frequenzgemisch von ca. 80 bis 12.000 Hz, mit unterschiedlichen Amplituden zusammen. Das Frequenzspektrum der menschlichen Sprache liegt aber im Bereich von ca. 150 Hz bis 8.000 Hz. Bei der Fernsprechübertragung kommt es im Wesentlichen darauf an, dass der Inhalt der zu übertragenden Nachricht vom Empfänger richtig verstanden werden kann. Bei Untersuchungen hat man herausgefunden, dass bei einem Frequenzbereich von 300…3.400 Hz eine Silbenverständlichkeit von 92 Prozent und eine Satzverständlichkeit von ca. 99 Prozent erreicht werden kann.

Unser Gehirn ist in der Lage, fehlende sowie fehlerhafte, aber in einem logischen Satzzusammenhang stehende Worte bzw. Wortsilben selbständig richtig zu ergänzen. Alle Fernsprechsysteme begrenzen das Frequenzspektrum von 80 bis 12.000 Hz der Sprache auf einen Frequenzbereich von 300 bis 3.400 Hz. Der Fernsprechkanal liegt deshalb im Frequenzbereich von 300 bis 3.400 Hz. Die Sprache benötigt somit lediglich eine Bandbreite von nur 3.100 Hz. Diese Festlegung ist bis heute weltweit in allen analogen und digitalen Fernsprechsystemen gültig.

Bei der Einführung von ISDN vor 30 Jahren behielt man diese technischen Parameter bei. Man entschied sich den Codec G.711 mit maximal 3,4 kHz zu verwenden. Der Codec ist verlustfrei und erfordert wenig Rechenleistung. Auf die Aushandlung des Codecs pro Verbindung wurde verzichtet und man definierte G.711 fest für die Sprachübertragung.

G.711 ist eine Richtlinie der ITU-T zur Digitalisierung analoger Audiosignale mittels Puls-Code-Modulation (PCM). Einsatzbereiche dieses Codecs sind die klassische Festnetz-Telefonie und die IP-Telefonie im A-law- oder μ-law-Digitalisierungsverfahren (PCMA bzw. PCMU). Bei G.711 wird in zeitlichen Schritten von 125 µs, dies entspricht einer Abtastrate von 8000 Hz, jeweils ein Sample des Audiosignals erzeugt. Das Sample wird dabei verlustbehaftet auf 8 Bit komprimiert. Der generierte Datenstrom hat eine Datenübertragungsrate von 8000 Hz × 8 Bit = 64 KBit/s. Nach G.711 wird nur der Frequenzbereich von 300 bis 3400 Hz bei der Digitalisierung codiert. Zur anschließenden nichtlinearen Codierung des Digitalsignals werden zwei verschiedene Verfahren der Quantisierung verwendet: In Europa das A-law-, in Nordamerika und Japan das μ-law-Verfahren.

HD-Telefonie ist ein Begriff hinter dem Verfahren und Maßnahmen stehen, die Sprachqualität von Telefongesprächen wesentlich zu verbessern. In IP-basierten Netzen kann die für Sprachsignale genutzte Bandbreite durch den neuen Codec G.722 auf den Frequenzbereich 50 -7000 Hz deutlich ausgedehnt werden. Damit entsteht eine neue Telefonqualität HD-Voice, die mit der direkten Kommunikation von Angesicht zu Angesicht vergleichbar ist. Die Vorteile sind:

  • hohe Tonqualität,
  • Steigerung der Sprachverständlichkeit um mindestens 30%,
  • deutlich verbessertes Hörerlebnis (Sprachverständlichkeit) und
  • der Gesprächspartner steht einem „förmlich gegenüber“.

Die meisten Telefonnutzer haben sicher schon HD-Audio erlebt und können diese mit den eigenen Ohren erkennen. Der Codec G.722 bewertet die Signaldifferenz zweier aufeinanderfolgender Signale. So lässt sich mit derselben Bitrate von G.711 ein Sprachsignal bis 7 kHz mit einer Abtastrate von 16 kHz digitalisieren. Das Frequenzband reicht von 50 Hz bis 7.000 Hz. Ein Kodierer reduziert die Datenübertragungsrate (Bandbreitenbedarf) im Mode-1 auf 64 Kbit/s, im Mode-2 auf 56 Kbit/s oder auf 48 Kbit/s im Mode-3. Diese erhöhte Bandbreite (das ist „Bandbreite“ in ihrer ursprünglichen Bedeutung: „der Frequenzbereich des Kanals“) führt zu einer deutlich verbesserten Klangqualität.

ÜbertragungstechnikÜbertragene HörfrequenzenÜbertragungsdatenrate
ISDN G.711300-3400Hz64 kBit/s
HD-Voice G.72250-7000 Hz64 kBit/s

 

HD bedeutet, dass die Kommunikation, insbesondere mit Hörgeschädigten oder Sprechern verschiedener Sprachen, viel einfacher zu verstehen ist. Wenn man nach geschäftlichen Auswirkungen sucht, braucht man kein großes Forschungsprojekt, um zu erkennen, dass eine bessere und produktivere Kommunikation zu einer erheblich verbesserten Benutzerfreundlichkeit führt.

Die Technologie, um dieses Ziel zu erreichen, steht bereits zur Verfügung. Was fehlt, ist eine Vision, der Wille und die industrielle Zusammenarbeit, um dieses Ziel zu erreichen. Die wesentlichen Komponenten in einem HD-Voice-System sind:

  • HD-kompatible Audiokomponenten in den Endgeräten: Lautsprecher und Mikrofone in den Endpunkten müssen in der Lage sein, die höheren Frequenzen zu erfassen bzw. wiederzugeben. Die aktuellen IP-Tisch- und Konferenztelefone sind bereits auf dem neuesten Stand und können HD-Voice verarbeiten.
  • Kompatible HD-Codecs in den Endpunkten: Es wäre wunderbar, wenn alle Kommunikationskomponenten das gleiche HD-Codierungsformat unterstützen würden. Dieser Traum wird sich jedoch nicht erfüllen. Aber seit Jahrzehnten nutzen wir digitale Transcoder und konvertieren die verschiedenen digitalen Sprachcodierungen, so dass dies kein großes Hindernis darstellen sollte.
  • Ein Signalisierungssystem, das es ermöglicht, die Codecs-, Bitraten- und QoS-Anforderungen für die Verbindung als Teil des Verbindungsaufbaus auszuhandeln: Das SIP-Protokoll stellt solche Mechanismen mit dem Session-Description-Protocol (SDP) zur Verfügung. Daher liegt die Schuld bei der Nichtnutzung dieser Möglichkeiten eindeutig bei den Carriern und den Herstellern von VoIP- und UC-Komponenten.
  • Ein flexibler (im Gegensatz zu One-Size-Fits-All) Transportdienst, der eine Verbindung mit der erforderlichen Übertragungsrate und den notwendigen QoS-Parametern für den jeweiligen Dienst bereitstellt: Bei der unternehmensinternen Kommunikation werden oft MPLS und ähnliche Dienste genutzt, mit deren Hilfe die Dienstklassen priorisiert und somit die Leistung sichergestellt wird.

Praktisch alle aktuellen UC&C-Plattformen unterstützen HD-Audio für alle systeminternen und intranet-basierten Audio- und Videoanrufe und Konferenzen. Das liefert auch eine Klangverbesserung, wenn alle Teilnehmer sich im selben Gebäude befinden. Aber in der Regel nimmt an solchen Konferenzen immer mindestens ein Teilnehmer aus einer Außenstelle, eines Home-Offices oder über eine mobile Verbindung teil. So lange wir eine reine IP-Konnektivität zu dem entfernten Kommunikationspartner verfügen, funktioniert die Sprache gut. Verfügt ein Teilnehmer jedoch über eine schlechte 3-kHz-Anbindung in die Konferenz, dann wird uns das anhaltende Rauschen dieses einen Senders daran erinnern, dass der Teilnehmer noch aktiv ist!

Die Herausforderung besteht darin, dass die öffentlichen Netzbetreiber und die Hersteller der VoIP/UC-Endgeräte tatsächlich zusammenarbeiten. Im Mobilfunkbereich rollen die Mobilfunkbetreiber HD-Voice über LTE aus. Die AMR-Breitband- (AMR-WB-)Codecs, die sie verwenden, übertragen die Sprache im 12- oder 13-KBit/s-Bereich ziemlich gut. Stellt man jedoch die Frage, ob die HD-Sprachfähigkeit mit den marktüblichen VoIP- und UC-Plattform kompatibel ist,  erhält man als Antwort ein klares „Nein“.

Fazit

Mathias Hein, Consultant, Buchautor, Redakteur

Ganz gleich, ob es sich um Basis-Telefonie, UC&C, Audio/Video-Konferenzdienste oder Mobilfunk handelt, wir agieren bei der Zusammenschaltung von Diensten noch auf dem kleinsten gemeinsamen Nenner, der 3-kHz-Sprachübermittlung. Dessen Möglichkeiten liegen bereits 20 Jahre hinter den verfügbaren technischen Funktionen zurück. Das Internet verschiebt zwar die Grenzen der Audiotechnik, aber die Telefonindustrie versucht uns immer noch eine alte völlig überholte Technik als Zukunftsperspektive zu verkaufen.  Denken wir daran: Das Markenzeichen einer neuen Technologie besteht darin, dass diese ein Problem löst, von dem man nicht wusste, dass man es hatte.