Schlechte Sprachqualität: Die Probleme im Netzwerk beheben

VoIP-Readiness

Der Oberbegriff Quality of Service (QoS) beschreibt eine Serie von Parametern, die für eine fehlerfreie Übermittlung von Sprache und Videos notwendig sind. Erst die Einhaltung dieser Parameter auf der gesamten Strecke sorgt für die notwendige Übertragungsqualität und Serviceverfügbarkeit. Die ultimative Messgröße zur Beurteilung der Übertragungsqualität ist der Anwender. Bei der Sprachübermittlung hängt die Beurteilung der Güte von subjektiven Kriterien ab. Die wichtigsten Parameter sind:

  • Sprachqualität: Die Sprachqualität beschreibt, wie gut die Verständlichkeit einer menschlichen Stimme bei Aufzeichnung und Wiedergabe durch die technischen Einrichtungen (Endgeräte, Netzwerkkomponenten, Gateways) sind. Die Bewertungskriterien der Sprachqualität sind durch die ITU-Bewertungsmethoden im Standard P.800 spezifiziert.
    Das bekannteste Sprachbewertungsverfahren ist der so genannte „Mean Opinion Score“ (MOS). Mit Hilfe des MOS werden die Übertragungsqualitäten unterschiedlicher Sprachströme und Codierungen miteinander verglichen. Der MOS-Wert wird subjektiv ermittelt, indem Sprechproben den Probanden vorgespielt, die einzelnen Bewertungen gewichtet und daraus die statistischen Ergebnisse ermittelt werden. Beim MOS handelt es sich um einen Wert zwischen eins und fünf, der für die Sprachqualität steht; wobei der Wert »1« eine mangelhafte Sprachqualität repräsentiert, bei der keine Verständigung möglich ist, der Wert »5« hingegen für eine exzellente Übertragungsqualität steht, die nicht von dem Original zu unterscheiden ist.
    Die ITU-T-Empfehlung G.107 beschreibt mit dem E-Modell ein Berechnungsmodell zur Bestimmung von objektiven Qualitätsparametern für Sprachverbindungen. Anhand dieses Berechnungsmodells wird die dem Nutzer in einem IP-Netzabschnitt zur Verfügung stehende Sprachqualität ermittelt. Das Ergebnis ist eine objektive Bewertung der Übertragungsqualität unter Berücksichtigung aller, die Übertragungsqualität beeinflussender Faktoren. Das E-Modell ist ein passives Modell zur Bestimmung der Sprachqualität. Das Messsystem berechnet aus einem übermittelten VoIP-Strom die für das E-Modell notwendigen Parameter. Nach der Übergabe der Parameter an das E-Modell gibt das Messsystem einen Übertragungsfaktor (R-Faktor) aus. Aus diesen Werten wird eine Vorhersage der Sprachqualität im Bereich 0 bis 100 getroffen, die auf der MOS-Skala abbildbar ist.
    Der PESQ-Algorithmus spezifiziert in der ITU Vorschrift P.862 ist ein aktives Berechnungsmodell zur Bestimmung der Sprachqualtiät und basiert auf den realen Bedingungen einer Ende-zu-Ende-Sprachkommunikation. Das Verfahren berücksichtigt unter anderem Paketverluste, Rauschen und den verwendeten Sprachcodec. Bei der PESQ-Analyse wird ein Referenzsignal und das durch die Übermittlung über das Netzwerk geminderte Signal in das System eingegeben. Bei diesem Modell wird das Sprachsignal zur Beurteilung hinzugezogen. Dabei werden alle Fehler sichtbar, auch diese, die außerhalb des IP-Netzwerks liegen.
  • Verzögerung: Die Verzögerung beschreibt die Latenzzeit zwischen dem Auftreten eines Ereignisses und dem Auftreten eines erwarteten Folgeereignisses, um das ein Ereignis verzögert wird. In Netzwerken wird die Verzögerung oft mit dem Begriff Round-Trip-Time (RTT) beschrieben. Der Round-Trip-Delay beschreibt die Gesamtverzögerung (beide Wege) zwischen zwei IP Endpunkten. Bei Voice over IP Anwendungen und Videokonferenzen ist das so genannte One Way Delay (die Verzögerung in einer Richtung von Startpunkt zu Endpunkt) von Bedeutung. Netzwerkverzögerungen werden durch die physische Verzögerung der Übertragungsleitungen, der Queuing- und Pufferungsmechanismen in den Koppelkomponenten (Router, Switches, Gateways) verursacht und variieren in ihrem Ausmaß. Die so genannte Durchlaufzeit setzt sich aus zwei Größen zusammen:
    • einer konstanten oder nur leicht variierenden Netzverzögerung und
    • schnellen Schwankungen der Verzögerung, gemeinhin als Jitter bekannt.

Die netzimmanente Verzögerung erfordert das Senden mehrerer Frames in einem Paket, eine Technik zur Reduzierung des Protokoll-Overheads bei IP-Übertragungen. Die typischen Verzögerungszeiten von Netzwerkkomponenten hängen stark von der eingesetzten Hard- und Software-Komponente ab.
Die Laufzeit setzt sich aus der Summe aller Verzögerungen, die während der Übertragung auftreten, zusammen. Jedes Netzelement erzeugt durch die internen Verarbeitungsprozesse eine bestimmte Verzögerungszeit. Für die Übertragung von Informationen in Echtzeit muss die Verzögerungszeit gering sein. Die Delay — Spezifikation gemäß G.114 der ITU-T — legt eine maximale Ende-zu-Ende-Verzögerung von 150 ms fest. Alle darüber hinausgehenden Verzögerungswerte verschlechtern die Sprachqualität.

  • Paketverluste: Die Paketverlustrate ist ein Maß für die Übertragungsqualität einer Datenverbindung. Die Paketverlustrate definiert, wie viele Pakete eines Datenstroms zwischen einem Sender und einem oder mehreren Empfängern während der Übertragung verloren gegangen sind. Die Paketverlustrate berechnet sich aus dem Verhältnis der Anzahl verloren gegangener zur Anzahl gesendeter Datenpakete. Um eine gute Verbindung zu haben, sollte dieser Fehlerwert so klein wie möglich sein. Optimal ausgelegte und gut administrierte IP-Backbones weisen heute in der Regel eine Paketverlustrate von < 0,5 Prozent auf. Für die Übermittlung von VoIP-Datenströmen gilt gemäß der ITU G.114-Spezifikation eine Paketverlustrate bis zu 5 Prozent als noch akzeptable Qualität. Man muss folgende zwei unterschiedliche Arten der Paketverluste unterscheiden:
    • Der Paketverlust einzelner Datenpakete über einen bestimmten Zeitraum und
    • der Paketverlust mehrerer aufeinander folgender Datenpakete über einen bestimmten Zeitraum.

Der Verlust von mehrerer aufeinander folgender Datenpakete (Daten-Burst) ist vom Empfänger nicht mehr kompensierbar und wirkt sich als Übertragungsstörung aus. Vereinzelte Paketverluste werden vom Gehör/Gehirn interpoliert und fallen dem Zuhörer nicht auf.
Paketverluste wirken sich umso stärker aus, je länger der so genannte Payload (Sprach/Videoanteil im Paket) ist. Codecs weisen eine gewisse Toleranz gegenüber Paketverlusten auf. In Abhängigkeit vom genutzten Codec der Anwendung bemerkt der Nutzer die unterschiedlich stark aufgetretenen Paketverluste nicht.
Bei Videoströmen liegen die Toleranzgrenzen erheblich niedriger, da sich Paketverluste direkt durch eine fragmentarsche Darstellung des Videosignals bemerkbar machen.

  • Jitter: Als Jitter bezeichnet man allgemein ein Taktzittern bei der Übertragung von Digitalsignalen bzw. eine leichte Genauigkeitsschwankung im Übertragungstakt. In der Netzwerktechnik wird mit Jitter außerdem die Varianz der Laufzeit von Datenpaketen bezeichnet. Dieser Effekt ist insbesondere bei interaktiven Multimedia-Anwendungen störend, da dadurch Pakete zu spät eintreffen können, um noch zeitgerecht mit ausgegeben werden zu können. Dies wirkt sich wie eine erhöhte Paketverlustrate aus. Treffen die Pakete regelmäßig beim Empfänger ein, können diese direkt in Audio/Videosignale umgesetzt werden. Da die Verzögerungen bei der Übertragung nicht konstant sind, entstehen Lücken im abgespielten Signal. Die Differenz zwischen den Verzögerungen einzelner Pakete wird als Jitter (Verzögerungsschwankung) bezeichnet. Zur Vermeidung von Lücken im Signal müssen die empfangenen Daten in einem Zwischenspeicher abgelegt werden. Dieser Zwischenspeicher hat die Aufgabe, die Lücken zwischen verspäteten Paketen zu kompensieren. Die Größe dieses Zwischenspeichers (Synchronisationspuffer oder Jitter-Buffer) kann ein oder mehrere Frames umfassen. Durch die Pufferung mehrerer Sprachpakete/Video-Frames kann ein größerer Jitter ausgeglichen werden. Durch den Einsatz von einem größeren Jitterbuffer wird jedoch die Gesamtverzögerung negativ beeinflusst. Hier liegt die Kunst darin, die optimale Abstimmung der Puffergröße zu finden.
  • Datendurchsatz: Der Datendurchsatz zeigt die Ende-zu-Ende-Transportrate an. Wenn die Performance einer Netzwerkstrecke unterhalb des erforderlichen Datendurchsatzes liegt, bedeutet dies immer ein Ansteigen der Paketverlustrate und damit eine Verringerung der Signalgüte. Der Einsatz unterschiedlicher Codecs reduziert die Datendurchsatzraten im Sprachkanal. Die Einsparung der Bandbreite geht jedoch auf die Kosten der Sprachqualität. Jede Applikation benötigt eine definierte Bandbreite, wenn diese Informationen in Echtzeit übertragen werden soll.

Zur Sicherung der Qualität der Echtzeitströme muss in den Netzen ein durchgängiger Quality of Service (QoS) zur Verfügung stehen. Nur eine Ende-zu-Ende-Lösung garantiert, dass der Video- und Sprachverkehr entsprechend seiner Prioritäten übertragen wird.

Verbindungen zwischen den Netzen

Die Qualität eines Netzes und der Anwendungen darf nicht vor VPNs halt machen. Nur dann, wenn der gesamte Netzverbund eine aufeinander abgestimmte Einheit darstellt, sind die Forderungen nach Mobilität und Verfügbarkeit der gewohnten Anwendungen mit hoher Qualität zu erreichen. Service-Level-Agreements (SLAs) erstrecken sich längst nicht nur auf die Verfügbarkeit, sondern enthalten bereits Qualitätskriterien. Viele VoIP-Probleme ergeben sich aus der – besonders während Leistungsspitzen- zu geringen Bandbreite der Verbindungen.
Es gilt dabei einen besonderen Augenmerk auf die Art der Messung und des Reportings der SLA-Parameter gelegt werden. Probleme mit dem Jitter und Paketverluste gehören zu den Normalfällen bei der Kommunikation ins WAN. Werden diese Parameter beispielsweise nur im Netz des Service-Providers – also am entfernten Ende der Verbindung – gemessen, lassen sich keine vernünftigen Aussagen über das Performance-Verhalten machen. Paketverluste und Jitter treten in der Regel nur während kurzer Übermittlungsperioden (typischerweise 1 bis 2 Sekunden) auf. Lange Messintervalle und daraus gewonnene gemittelte Statistikwerte nützen wenig. Garantiert beispielsweise ein SLA einen Paketverlust von < 0.1% über einen Monat, kann dies bedeuten, dass möglicherweise das Netz 72 Stunden hintereinander Paketverluste produzieren darf. Die reine Spezifikation des Messparameters berücksichtigt auch nicht den Jitter. Ein zu hoher Jitter führt auf den Endgeräten zum Verwerfen von Paketen. Diese stellen jedoch ein viel ernsteres Problem in IP Netzen dar, als die klassischen Paketverluste. Wie bereits erwähnt tolerieren manche VoIP-Anwendungen einen Verlust von bis zu 5 Prozent. Ein Verlust von 5 Prozent auf einer 2 MBit/s Leitung bedeutet jedoch den Verlust von 100 KBit/s. In diesem Verlust kann eventuell ein kompletter VoIP-Strom eines Teilnehmers verloren gehen. Daher ist es sinnvoll nicht nur den absoluten Paketverlust auf einer Ende-zu-Ende-Basis, sondern auch die Verlust einzelner Sprach/Videoströme zu spezifizieren. Diesen Parameter bezeichnet man als „consecutive packet loss“, er zeigt auf wie viele aufeinanderfolgende Packete verloren gehen. Äquidistanter Packetverlust hat weit geringere Auswirkungen auf die Sprachqualität als burstartig auftretende Packetverluste. In einem Datennetz kommen aber burstartige Verluste regelmäßig vor. Aus diesem Grund ist es sinnvoll mit Hilfe von Vormessung die bestehenden SLA-Verträge an die Anforderungen des Voice over IP bzw. Video over IP anzupassen und die entsprechenden QoS-Parameter neu zu bewerten.

Fazit

Die Vormessung ist der Schlüssel zur Einhaltung der für die Sprachübermittlung notwendigen Qualitätskriterien in den Netzen. Nur auf Basis von  Performance-Simulatoren können die individuellen Kommunikationsszenarien nachgebildet werden. Dabei ist es egal ob es um eine Simulation von hunderten von Workstations, IP-Telefonen, unterschiedlichen Verkehrstypen oder Anwendungen handelt. Durch eine umfassende Vormessung werden versteckte Probleme und Unzulänglichkeiten erkannt, noch bevor die Anwender durch ein schlechtes QoS-Verhalten oder unbekannte Fehler im Netz verschreckt werden. Darüber hinaus deckt eine Vormessung auf, an welchen Stellen im Kommunikationsverbund noch Handlungs- und Investitionsbedarf besteht. (mh)