Herausforderungen durch Echtzeitanwendungen im Netz

president-1822449_1920Die Anforderungen an die Unternehmensnetze wachsen durch den Einsatz von Echtzeitanwendungen drastisch an. Aus diesem Grund müssen sich die Administratoren rechtzeitig mit den richtigen Messwerkzeugen zur Fehlersuche und zur Analyse auseinander setzen, um bei Problemen die Ursachen schnell und kostengünstig feststellen zu können.

Die Bereitstellung von Sprachanwendungen (VoIP) erfordert die Anpassung der Netzwerke an die erhöhten Anforderungen der Echtzeitanwendungen. Die Integration von Sprach- und Videoanwendungen benötigt die Bereitstellung einer garantierten Bandbreite als Grundlage der applikationsspezifischen Merkmale auf einer Ende-zu-Ende-Basis (von Endgerät zu Endgerät). Die Ausbreitung von Echtzeitanwendungen erfordert ein barrierefreies Zusammenspiel zwischen den Anwendungen und den Transportkanälen.

Fortschritte in der digitalen Videokomprimierung machen es möglich, kombinierte Audio-/Videosignale über typische IP-Netze zu übertragen. Video over IP konkurriert dabei um die gleichen Rechner- und Übertragungsressourcen wie beispielsweise Voice over IP (VoIP). Beide Echtzeitanwendungen weisen jedoch gemeinsame Merkmale auf. Diese müssen mit Hilfe der Quality-of-Service- (QoS-)Funktionen im Netzwerk bereit gestellt werden..

Der Oberbegriff Quality of Service (QoS) beschreibt eine Serie von Parametern die für eine fehlerfreie Übermittlung von Sprache und Videos notwendig sind. Erst die Einhaltung dieser Parameter auf der gesamten Strecke sorgt für  die notwendige Übertragungsqualität und Serviceverfügbarkeit. Die ultimative Messgröße zur Beurteilung der Übertragungsqualität ist der Anwender. Bei der Sprachübermittlung hängt die Beurteilung der Güte von Sprachübermittlungen von subjektiven Kriterien ab. Die wichtigen Parameter sind:

  • Sprachqualität: Die Sprachqualität beschreibt, wie gut die Verständlichkeit einer menschlichen Stimme bei Aufzeichnung und Wiedergabe durch die technischen Einrichtungen (Endgeräte, Netzwerkkomponenten, Gateways) sind. Die Bewertungskriterien der Sprachqualität sind durch die ITU-Bewertungsmethoden im Standard P.800 spezifiziert. Das bekannteste Sprachbewertungsverfahren ist der so genannte „Mean Opinion Scores“ (MOS). Mit Hilfe des MOS werden die Übertragungsqualitäten unterschiedlicher Sprachströme und -Codierungen miteinander verglichen. Der MOS-Wert wird subjektiv ermittelt, indem Sprechproben den Probanden vorgespielt, die einzelnen Bewertungen gewichtet und daraus die statistischen Ergebnisse ermittelt werden. Beim MOS-handelt es sich um einen Wert zwischen eins und fünf, der für die Sprachqualität steht; wobei der Wert »1« eine mangelhafte Sprachqualität repräsentiert, bei der keine Verständigung möglich ist, der Wert »5« hingegen für eine exzellente Übertragungsqualität steht, die nicht von dem Original zu unterscheiden ist.
    Die ITU-T-Empfehlung G.107 beschreibt mit dem E-Model ein Berechnungsmodell zur Bestimmung von objektiven Qualitätsparametern für Sprachverbindungen. Anhand dieses Berechnungsmodells wird die dem Nutzer in einer Ende-zu-Ende-Verbindung zur Verfügung stehende Sprachqualität ermittelt. Das Ergebnis ist eine objektive Bewertung der Übertragungsqualität unter Berücksichtung aller, die Übertragungsqualität beeinflussender Faktoren. Das E-Modell verwendet für die Bestimmung der Sprachqualität ein passives Modell. Das Messsystem berechnet aus einem übermittelten VoIP-Strom die für das E-Modell notwendigen Parameter. Nach der Übergabe der Parameter an das E-Modell gibt das Messsystem einen Übertragungsfaktor (R-Faktor) aus. Aus diesen Werten wird eine Vorhersage der Sprachqualität im Bereich 0 bis 100 getroffen, die auf der MOS-Skala abbildbar ist.
    Der PESQ-Algorithmus spezifiziert in der ITU Vorschrift P.862 ein aktives Berechnungsmodell zur Bestimmung der Sprachqualtiät und basiert auf den realen Bedingungen einer Ende-zu-Ende-Sprachkommunikation. Das Verfahren berücksichtigt unter anderem Paketverluste, Rauschen und den verwendeten Audio-Codec. Bei der PESQ-Analyse wird ein Referenzsignal und das durch die Übermittlung über das Netzwerk geminderte Signal in das System eingegeben. Bei diesem Modell wird das Sprachsignal zur Beurteilung hinzugezogen. Dabei werden alle Fehler Sichtbar, auch diese, die außerhalb der Netzwerkfehler liegen.
  • Verzögerung: Die Verzögerung beschreibt die Latenzzeit zwischen dem Auftreten eines Ereignisses und dem Auftreten eines erwarteten Folgeereignisses, um das ein Ereignis verzögert wird. In Netzwerken wird die Verzögerung oft mit dem Begriff Round-Trip-Time (RTT) beschrieben. Der Round-Trip-Delay beschreibt die Gesamtverzögerung (beide Wege) zwischen zwei IP-Endpunkten. Bei Voice-over-IP-Anwendungen und Videokonferenzen ist der so genannte One-Way-Delay (somit die Verzögerung in einer Richtung von Endpunkt zu Endpunkt) von Bedeutung. Die Ursachen für Netzwerkverzögerungen wird durch die physische Verzögerung der Übertragungsleitungen, der Queuing- und Pufferungsmechanismen in den Koppelkomponenten (Router, Switches, Gateways) verursacht und variiert in ihrem Ausmaß. Die so genannte Durchlaufzeit setzt sich aus zwei Größen zusammen: einer konstanten oder nur leicht variierenden Netzverzögerung und schnellen Schwankungen der Verzögerung, gemeinhin als Jitter bekannt. Zur netzimmanenten Verzögerung gehört auch das Senden mehrerer Frames in einem Paket, eine Technik zur Reduzierung des Protokoll-Overheads bei IP-Übertragungen. Die typischen Verzögerungszeiten von Netzwerkkomponenten hängen stark von der eingesetzten Hard- und Software-Komponente ab.
    Die Laufzeit setzt sich aus der Summe aller Verzögerungen, die während der Übertragung auftreten, zusammen. Jedes Netzelement erzeugt durch die internen Verarbeitungsprozesse eine bestimmte Verzögerungszeit. Für die Übertragung von Informationen in Echtzeit muss die Verzögerungszeit gering sein. Die Delay – Spezifikation gemäß G.114 der ITU-T definiert folgende Bereiche:

    • 0-150 ms: ausreichend für die meisten interaktiven Echtzeitanwendungen.
    • 150-400 ms: akzeptable unter Berücksichtung der Qualitätsverluste.
    • über 400 ms: nicht akzeptabel.
  • Paketverluste: Die Paketverlustrate ist ein Maß für die Übertragungsqualität einer Datenverbindung. Die Paketverlustrate definiert, wie viele Pakete eines Datenstroms zwischen einem Sender und einem oder mehreren Empfängern während der Übertragung verloren gegangen sind. Die Paketverlustrate berechnet sich aus dem Verhältnis der Anzahl verloren gegangener zur Anzahl gesendeter Datenpakete. Um eine gute Verbindung zu haben, sollte dieser Fehlerwert so klein wie möglich sein. Optimal ausgelegte und gut administrierte IP-Backbones weisen heute in der Regel eine Paketverlustrate von < 0,5 Prozent auf. Für die Übermittlung von VoIP-Datenströmen gilt gemäß der ITU G.114-Spezifikation eine Paketverlustraten bis zu 5 Prozent noch als akzeptable Qualität. Man muss folgende zwei unterschiedliche Arten der Paketverluste unterscheiden:
    • Der Paketverlust einzelner Datenpakete über einen bestimmten Zeitraum.
    • Der Paketverlust mehrerer aufeinander folgender Datenpakete über einen bestimmten Zeitraum.

Der Verlust von mehreren aufeinander folgenden Datenpaketen (Daten-Burst) ist vom Empfänger nicht mehr kompensierbar und wirkt sich als Übertragungsstörung aus. Vereinzelte Paketverluste werden vom Gehör/Gehirn interpoliert und fallen dem Zuhörer nicht auf.
Paketverluste wirken sich umso stärker aus, je länger die so genannte Payload (Sprach/Videoanteil im Paket) ist. Codecs weisen eine gewisse Toleranz gegenüber Paketverlusten auf. In Abhängigkeit vom genutzten Codec der  Anwendung bemerkt der Nutzer die aufgetretenen Paketverluste nicht.

Bei Videoströmen liegen die Toleranzgrenzen erheblich niedriger, da sich Paketverluste direkt durch eine fragmentarische Darstellung des Videosignals bemerkbar machen.

  • Jitter: Als Jitter bezeichnet man allgemein ein Taktzittern bei der Übertragung von Digitalsignalen bzw. eine leichte Genauigkeitsschwankung im Übertragungstakt. In der Netzwerktechnik wird mit Jitter außerdem die Varianz der Laufzeit von Datenpaketen bezeichnet. Dieser Effekt ist insbesondere bei interaktiven Multimedia-Anwendungen störend, da dadurch Pakete zu spät eintreffen können, um noch zeitgerecht mit ausgegeben werden zu können. Dies wirkt sich wie eine erhöhte Paketverlustrate aus. Treffen die Pakete regelmäßig beim Empfänger ein, können diese direkt in Audio/Videosignale umgesetzt werden. Da die Verzögerungen bei der Übertragung nicht konstant sind, entstehen Lücken im abgespielten Signal. Die Differenz zwischen den Verzögerungen einzelner Pakete wird als Jitter (Verzögerungsschwankung) bezeichnet. Zur Vermeidung von Lücken im Signal müssen die empfangenen Daten in einem Zwischenspeicher abgelegt werden. Dieser Zwischenspeicher hat die Aufgabe, die Lücken zwischen verspäteten Paketen zu kompensieren. Die Größe dieses Zwischenspeichers (Synchronisationspuffer oder Jitter-Buffer) kann ein oder mehrere Frames umfassen. Durch die Pufferung mehrerer Sprachpakete/Video-Frames kann ein größerer Jitter ausgeglichen werden. Durch den Einsatz von einem größeren Jitterbuffer wird jedoch die Gesamtverzögerung negativ beeinflusst. Hier liegt die Kunst darin, die optimale Abstimmung der Puffergröße zu finden.
  • Datendurchsatz: Der Datendurchsatz zeigt die Ende-zu-Ende-Transportrate an. Wenn die Performance einer Netzwerkstrecke unterhalb des erforderlichen Datendurchsatzes liegt bedeutet dies immer ein Ansteigen der Paketverlustrate und damit eine Verringerung der Signalgüte. Der Einsatz unterschiedlicher Codecs reduziert die Datendurchsatzraten im Sprachkanal. Die Einsparung der Bandbreite geht jedoch auf die Kosten der Sprachqualität. Jede Applikation benötigt eine definierte Bandbreite, wenn diese Informationen in Echtzeit übertragen werden soll. Typische Werte für benötige Bandbreiten sind:
    • 8 KBit/s – 64 KBit/s: VoIP (abhängig vom eingesetzten Codec).
    • 56 KBit/s bzw. 64 KBit/s: PSTN (herkömmliche Sprachnetze).
    • 64 KBit/s – 384 KBit/s: Videokonferenzen (niedrigen Qualität).
    • 384 KBit/s – 6 MBit/s: Videostreaming (mittlere bis hohe Qualität).

Zur Sicherung der Qualität der Echtzeitströme muss in den Netzen ein durchgängiger Quality of Service (QoS) zur Verfügung stehen. Nur eine Ende-zu-Ende-Lösung garantiert, dass der Video- und Sprachverkehr entsprechend seiner Prioritäten übertragen wird.

Applikationsspezifische Performance