Măsurători de calitate vocală (VoIP)

20.1
pentru a compara calitatea vocii și pentru a ajunge la parametrii care contribuie la calitatea vocii, este necesar să știm cum se măsoară calitatea vocii și care sunt obiectivele de calitate. Configurarea testului de bază pentru măsurătorile vocale VoIP este prezentată în subiectul 13. În acest subiect, calitatea vocii ca scoruri medii de opinie (MOS), diverse clasificări, parametrii care influențează calitatea vocii și îmbunătățirile sunt discutate. Măsurătorile de calitate a vocii pentru MOS sunt clasificate ca subiective și obiective.
o reprezentare funcțională a unor tehnici populare de măsurare a calității vocii este ilustrată în Fig. 20.1 . În figură, se arată că vocea este din

tabelul 20.1. Comparații de calitate PSTN și VoIP

atribute PSTN VoIP
distorsiuni la distorsiuni datorate mai multor fără transmisie analogică
linie analogică 1000-picioare linii de la distorsiuni cu apeluri VoIP.
DLC sau co locație
anularea ecoului realizată prin pierderea anulatoare ecou de grad purtător
la apelurile naționale se utilizează planificarea și întârzierile reduse .
câștig automat neincorporat posibil de încorporat pentru
control o mai bună percepție a vorbirii
niveluri sau calitate de ascultare
experiență.
calitatea vocii monitorizarea, cum ar fi GR – RTCP-XR și GR – 909 sunt
monitorizare 909 sunt încorporate încorporate în multe VoIP
în implementările PSTN .
lățime de bandă sau bit 64 kbps fixat pe digital lățime de bandă variabilă, de obicei
rata TDM. Canale DCME necesită mai mult pe fizic
utilizați 16, 24, 32, și interfețe decât PSTN. Faxuri
40 kbps care degradează fax Serviciile pot obține mai multe
calitate lățime de bandă sau redundanță în
transmisie.
apeluri Fax performanță limitată de utilizează linii de capăt scurte. Prin urmare, fax
linia de transmisie finală livrarea poate fi mai bună folosind
caracteristici VoIP. Cu toate acestea, ar putea exista
fie probleme de interoperabilitate pentru
trimit fax.
voce și date în principal pentru apeluri vocale, serviciul de Internet și VoIP pot
unele servicii pot reutiliza scara împreună cu datele și
canale vocale pentru date cerințe de servicii media.
caracteristici apel vocal caracteristici limitate și mai multe caracteristici sunt oferite ca
scump pentru mai multe gratuit.
caracteristici de serviciu
interfețe vocale interfețe limitate interfețe și servicii Multiple.
distanța lungă distanța lungă este costisitoare de obicei liberă sau mult mai mică
tarife.
transcodare mai multe niveluri de End – to – end de codificare directă poate fi
transcodare pentru inter – angajat pe baza
apeluri regionale suport disponibil.
suport bandă largă apelurile vocale sunt de voce end – to – end bandă largă este
bandă îngustă posibil care poate depăși
calitate PSTN.

poarta de trimitere către poarta de primire. Gateway-ul de primire este afișat cu câteva blocuri mai extinse pentru a crea o imagine de ansamblu a modelului E, care este utilizat pentru estimarea factorului R, valori suplimentare de calitate și în timp real Protocolul de Control al transportului-rapoarte extinse (RTCP-XR) operație. În modelul E, se utilizează parametrii RTP, RTCP, tamponul de bruiaj și semnalul total al sistemului. Când se calculează factorul R și alți parametri derivați,
Prezentare generală a măsurătorilor populare de calitate a vocii
figura 20.1. Prezentare generală a măsurătorilor populare de calitate a vocii.
RTCP-XR poate trimite pachete către aplicațiile interne, gateway-ul de destinație și serverul RTCP-XR. Pe scurt, factorul R neintruziv este o estimare obiectivă care se află ca parte a implementării VoIP și este necesar un software suplimentar în gateway pentru estimarea factorului R. În evaluarea perceptivă a calității vorbirii (PESQ), instrumente precum MultiDSLA trimit discursul de referință prin sistemul VoIP testat și evaluează degradatul cu discursul de referință. Această măsurare este activă, iar gateway-urile VoIP nu trebuie să știe nimic despre măsurare. În ascultarea subiectivă, mai mulți ascultători vor evalua calitatea vocii. În P. 563, vocea este analizată în întregime pe semnalul degradat primit și nu este necesară referința inițială. P. 563 este similar cu ascultarea subiectivă, dar este evaluat de instrumente sau procesoare. Fiecare dintre aceste tehnici ajunge la o scară diferită a calității vocii. Într-un apel vocal VoIP între a și B, măsurătorile vocale se fac ca semi-duplex, ceea ce înseamnă că măsurătorile se fac ca A la B sau B la a, unul câte unul. Din cauza tipului de testare de ascultare semi-duplex, aceste măsurători sunt denumite teste de calitate a ascultării (LQ). Sufixul LQ este atașat în timp ce prezintă rezultatele testelor semi-duplex, iar testele obiective sunt sufixate suplimentar cu „O” ca LQO.
20.1.1

tehnica de măsurare subiectivă

în evaluarea subiectivă a calității vocii, calitatea vocii MOS este evaluată de grupul de ascultători reali de sex masculin și feminin. Este testul real de ascultare pentru evaluarea MOS. Recomandările P. 800 și P. 830 sunt utilizate pentru evaluarea performanței subiective a codecurilor de vorbire
. Aceleași teste sunt extinse la calitatea vocii VoIP. Un grup de persoane participă la înregistrarea scorurilor subiective. Sunt înregistrate mai multe fraze de testare și apoi subiecții de testare (grup de persoane) îi ascultă în diferite condiții. Aceste teste sunt efectuate în încăperi speciale cu zgomote de fundal și alți factori de mediu sunt ținuți sub control pentru executarea testului. Condițiile de testare sunt date în . Tehnicile de măsurare subiective sunt clasificate ca rating de categorie absolută (ACR), rating de categorie de degradare (DCR) și rating de categorie de comparație (CCR).
I n ACR, participanții ascultă eșantioane de vorbire înregistrate care au fost procesate prin mai multe conexiuni de testare. Un minim de 16 subiecți de testare (ascultători) ar trebui să participe la evaluare. Când ascultați, utilizatorii evaluează apelul pe o scară de la 1 la 5 MOS. Valorile medii ale evaluărilor utilizatorilor sunt considerate a genera calitatea generală a apelurilor.
într-un test DCR, sunt prezente două probe de vorbire. Primul eșantion de vorbire este un eșantion de referință cu o calitate predefinită. Eșantionul de aici se referă la vorbirea care durează câteva secunde. Cealaltă probă de vorbire este o versiune degradată. Ascultătorii trebuie să compare versiunea degradată cu o referință pe o scară de degradare de la 1 la 5. Aici, 5 este degradarea inaudibilă și 1 reprezintă cea mai gravă degradare. Rezultatele sunt rezumate ca MOS degradate.
în testele CCR, utilizatorii sunt rugați să asculte două seturi de eșantioane, una corespunzătoare referinței și cealaltă degradată. Acest test este similar cu DCR, cu excepția faptului că ordinea probelor prezentate ascultătorilor este modificată în diferite iterații. Ordinea de referință și degradată nu este declarată ascultătorului. Ascultătorii sunt rugați să acorde o evaluare comparativă a unui al doilea eșantion în raport cu primul pe o scară de la -3 la 3 Conform P. 800 Anexa-D. În prezentarea rezultatelor, „3 „reprezintă o calitate mult mai bună, iar” -3 ” reprezintă cea mai slabă calitate la o scară relativă. Scorul de calitate este mapat la MOS. Evaluarea MOS permisă este de la 1 la 5, dar o evaluare a utilizatorilor peste 4,5 este limitată la 4,5.
testele subiective sunt implicate în proceduri și este un efort costisitor. Este limitat la mai puține iterații pentru a evalua orice algoritm nou sau codecuri de vorbire. Este dificil să se mențină coerența, cum ar fi testele obiective bazate pe Instrumente.
20.1.2

tehnici de măsurare obiective

metode obiective sunt măsurătorile și calculele. Este de așteptat ca rezultatele să fie consecvente în mai multe măsurători. Există mai multe metode obiective și sunt clasificate ca metode active și pasive.
• tehnici de monitorizare activă a PESQ
• tehnici de monitorizare pasivă a P. 563 și a modelului E
tehnici de monitorizare activă. Măsurarea activă se numește monitorizare intruzivă sau monitorizare offline din cauza implicării semnalelor externe.
într-un efort de a suplimenta calitatea ascultării subiective, se dezvoltă testarea cu metode obiective cu costuri mai mici. KPN a dezvoltat P. 861 (acest lucru este învechit acum) perceptual speech quality measure (PSQM) pentru evaluarea performanței codecului. British Telecom a dezvoltat sistemul de măsurare a analizei perceptuale (Pams) pentru măsurători de rețea. P. 862 PESQ a rezultat dintr-o competiție ITU. Performanța PAMS și o nouă versiune a PSQM, PSQM99, au fost similare, astfel încât colaboratorii au fost invitați să combine algoritmii. Acest lucru a dus la PESQ, care este puțin mai bun decât constituenții săi.
aceste metode măsoară distorsiunea introdusă de un sistem de transmisie și de un codec prin compararea unui fișier de referință original trimis în sistem pe o interfață telefonică cu semnalul afectat recepționat pe o altă interfață telefonică. PSQM a fost dezvoltat pentru testarea de laborator a codecurilor de vorbire. PAMS și PESQ sunt concepute pentru testarea rețelei. Utilizarea instrumentelor pentru calitatea vocii este mult mai simplă în comparație cu măsurătorile subiective sau pasive. Furnizorii de instrumente furnizează, de asemenea, parametrii extra-derivați pentru a ajuta la identificarea surselor de degradări prin măsurători. Consultați unele instrumente date în subiectul 13 pentru mai multe detalii despre diferite caracteristici.
în timp ce scria acest subiect, PESQ a fost susținut popular în instrumente. PESQ a fost aprobat de uit în martie 2001 ca recomandare P. 862, înlocuind P.861 CMP. PESQ a combinat câteva dintre cele mai bune merite ale PAMS și PSQM. Este precis în prezicerea scorurilor subiective ale testelor și este robust în condiții severe de rețea, cum ar fi întârzieri variabile, filtrare la interfețe analogice și suport atât pentru bandă largă, cât și pentru bandă îngustă. PESQ produce un scor care se află pe o scară de la -0,5 la 4,5. A fost furnizată o funcție de mapare de la un scor P. 862 PESQ la un scor mediu subiectiv P. 800-LQ MOS, făcându – l
PESQ-LQO pentru voce în bandă îngustă. LQO denotă un obiectiv de calitate a ascultării. PESQ-LQ se află de la 1 la 4,5. Un MOS de 4.5 este calitatea maximă obținută pentru o stare clară nedistorsionată. O prezentare generală a algoritmului PESQ este dată aici. Se sugerează să se refere la familia ITU P. 862 de recomandări, software și unele broșuri de instrumente comerciale pentru mai multe detalii .
20.1.3

măsurarea PESQ

percepția auditivă umană este conceptul de bază din spatele PESQ și predecesorii săi PAMS și PSQM. Un model perceptiv este folosit pentru a distinge corect între distorsiunile sonore și cele inaudibile, iar acest lucru s-a dovedit a fi cel mai bun mod de a prezice cu exactitate audibilitatea și supărarea distorsiunilor complexe. În plus față de cantitatea de distorsiune, distribuția distorsiunii sonore ar putea face predicțiile de calitate mult mai precise.
PESQ măsoară calitatea vocii unidirecționale, ceea ce înseamnă operația de măsurare semi-duplex. Evaluează calitatea unui semnal de vorbire distorsionat care a fost codificat și transmis prin rețea, comparându-l cu semnalul original nedistorsionat. Discursul original și distorsionat este mapat pe reprezentări psihofizice care se potrivesc cu modul în care oamenii experimentează vorbirea.
calitatea discursului distorsionat este judecată pe baza diferențelor dintre reprezentările psihofizice. Operațiunea PESQ folosește două clase majore de operații logaritmice—și anume conversia semnalelor în domeniul psiho-acustic și modelarea cognitivă. O reprezentare funcțională a algoritmului PESQ este dată în Fig. 20.2. Producătorii de instrumente pentru măsurarea PESQ includ mai multe operații suplimentare pentru extragerea parametrilor de analiză a semnalului și a deficiențelor în plus față de măsurătorile PESQ.
 pesq algoritm reprezentări funcționale.
figura 20.2. PESQ algoritm reprezentări funcționale.
prelucrarea efectuată de algoritmul PESQ include etapele enumerate mai jos. Etapele sumare sunt prezentate aici; mai multe detalii despre PESQ sunt date în .
în prima etapă a procesării, atât semnalul de referință, cât și semnalul degradat sunt scalate la același nivel constant de putere. Această scalare este necesară deoarece semnalul de referință nu trebuie să fie la un nivel definit și câștigul sistemului testat este necunoscut înainte de testare. PESQ presupune că nivelul de ascultare subiectivă este o constantă de 79 dBSPL la punctul de referință al urechii . Pentru normalizarea puterii, nivelurile de semnal electric sunt normalizate la-26dBov (adică-20dBm așa cum este dat în referință ). O normalizare a nivelului semnalului este aplicată atât semnalului de referință, cât și semnalului degradat pentru a le aduce la acest nivel.
modelele perceptive, cum ar fi PESQ, ar trebui să ia în considerare caracteristicile receptoarelor telefonice, deoarece ascultarea subiectivă poate utiliza receptoare telefonice. În PESQ, calea de primire a telefoanelor este modelată folosind un sistem de referință intermediar (IRS) filtru band-pass în domeniul frecvenței. Acest proces ia în considerare efectele componentelor electrice și acustice ale receptorului. Atât referința, cât și semnalul degradat sunt filtrate de IRS.
sistemul testat poate include întârziere variabilă. Pentru a compara semnalele de referință și degradate, ambele semnale sunt aliniate în timp între ele. PESQ aliniază secțiunile suprapuse ale cadrelor de vorbire. În prima etapă, estimarea întârzierii se realizează pe lungimea fișierelor prin calcularea corelației dintre fișiere. Întârzierea obținută în această etapă se numește întârziere brută. În etapa următoare, PESQ aplică detectarea activității vocale semnalelor pentru a identifica segmentele de vorbire necesare denumite de obicei enunțuri. Estimarea întârzierii dintre enunțuri este întârzierea fină. Acest proces detectează întârzierea care este variabilă pe durata unei declarații, deoarece aceasta poate fi semnificativă în rețelele bazate pe pachete.
referința aliniată în timp și semnalele degradate sunt transformate în domeniul de frecvență prin utilizarea unei transformări Fourier rapide pe termen scurt (FFT) cu o fereastră Hanning peste cadre de 32 ms cu suprapunere de 50%. Puterile semnalelor originale și degradate sunt calculate și stocate separat. În următoarea etapă a operațiunilor, benzile de frecvență sunt transformate în scară de scoarță prin legarea benzilor FFT. Acest proces deformează scara de frecvență în Hz la scara pitch, iar semnalele rezultate se numesc densități de putere pitch. În acest proces, lățimea de bandă mai mare este utilizată pentru un semnal de înaltă frecvență derivat prin analiza frecvenței.
efectele de filtrare din sistemul testat sunt egalizate prin calcularea unui factor de compensare parțială pe fiecare coș de coajă și prin înmulțirea fiecărui cadru al semnalului de referință cu acest factor. Acest proces egalizează referința la semnalul degradat. Factorul de compensare este calculat ca raportul dintre spectrul semnalului degradat și spectrul semnalului de referință. Acest factor ia în considerare filtrarea la componentele analogice ale rețelei, cum ar fi telefoanele telefonice. În a doua etapă de egalizare, amplitudinea cadru cu cadru
câștigul sistemului este estimat și utilizat pentru egalizarea semnalului degradat la semnalul de referință. În ambele cazuri, egalizarea este parțială și cantități mari de filtrare sau variație a câștigului nu sunt anulate; prin urmare, are ca rezultat măsurarea erorilor. Frecvența și densitățile de putere ale pitch-ului egalizate cu câștig sunt transformate în scară de intensitate folosind legea lui Zwicker . Componentele de frecvență de timp rezultate se numesc densități de intensitate.
diferența semnată între densitățile de intensitate pentru semnalele de referință și cele degradate este cunoscută sub numele de densitate de perturbare brută, care arată orice diferențe sonore introduse de sistemul testat. O operație de mascare aplică un factor de mască asupra densităților brute de perturbare care maschează micile distorsiuni inaudibile în prezența semnalelor puternice. Densitatea de perturbare obținută prin acest proces se numește densitate de perturbare absolută sau simetrică. Perturbațiile simetrice sunt integrate pe lungimea cadrului (intraframe). Cadrele consecutive cu o perturbare a cadrului peste un prag sunt clasificate ca cadre proaste. Cadrele proaste pot apărea din cauza estimării întârzierii incorecte sau a picăturilor de pachete. Pe o fereastră localizată în jurul cadrelor proaste, se face o nouă estimare a întârzierii care este utilizată pentru a recalcula densitățile de perturbare. Minimul perturbațiilor anterioare și actuale este considerat perturbarea finală în acea fereastră de cadru proastă.
pentru a modela distorsiunea introdusă de codecul utilizat în rețea, se calculează o densitate de perturbare asimetrică prin înmulțirea densității de perturbare simetrică cu un factor de asimetrie. Factorul de asimetrie este raportul dintre densitățile de putere distorsionate și cele originale ridicate la puterea de 1,2. Această densitate de perturbare se numește aditiv sau perturbare asimetrică.
în cele din urmă, parametrii de eroare sunt convertiți într-un scor de calitate, care este o combinație liniară a valorii medii a perturbației simetrice și a valorii medii a perturbației asimetrice. Din Fig. 20.2, etapele implicate de la alinierea nivelului la deformarea intensității pe scara de intensitate sunt cunoscute sub numele de conversie la domeniul psiho – acustic, iar etapele algoritmice de la scăderea perceptivă la calculul scorului PESQ sunt cunoscute sub numele de modelare cognitivă.
PESQ oferă un scor cunoscut sub numele de scor PESQ în conformitate cu P. 862. Scorul PESQ este cuprins între -0,5 și 4,5. PESQ este corelat cu MOS subiectiv ca 0,94 pe baza experimentelor efectuate pe baze de date de . Comparativ cu scorurile subiective (ascultătorii reali), PESQ oferă rezultate mai bune pentru vorbirea de calitate slabă și rezultate pesimiste pentru vocea de bună calitate. PESQ-LQ oferă o corelație mai bună cu scorurile subiective decât PESQ pe o scară de calitate a ascultării. Scorurile PESQ-LQ sunt cuprinse între 1 și 4,5. P862.1 oferă o mapare a calității între măsurătorile de calitate în bandă îngustă scorul PESQ și Scorul mediu al opiniei obiectivului calității ascultării (MOS-LQO). Recomandarea P. 862.2 oferă o cartografiere a calității între măsurătorile de calitate pe bandă largă scorul PESQ și Scorul mediu al opiniei obiectivului privind calitatea ascultării. Mai multe informații despre aceste scoruri pot fi găsite în recomandările seriei ITU-T-P. 862 și în referință .
PESQ este o operație semi-duplex care nu va capta cu exactitate întârzierea end-to-end, ecoul, pierderea intensității, sidetone și nivelurile de ascultare. Din măsurarea calității vocale a gateway-ului VoIP cu interfețe analogice, se fac următoarele observații PESQ-LQO folosind DSLA . Sub condiția fără pierderi de pachete, scorul PESQ-LQO pentru codecul G. 711 este 4.32, G. 729a este 3.85, iar G. 723.1 este 3.75. O altă interpretare a acestor rezultate pentru situațiile de cădere a pachetelor și compararea cu modelul E sunt date ca parte a calculelor factorului R și prezentate în tabelul 20.4. În procesul calculelor PESQ, pot fi calculați câțiva alți parametri. Furnizorii de instrumente furnizează acești parametri ca caracteristici suplimentare măsurătorilor PESQ .
20.1.4

tehnica de monitorizare pasivă

I n tehnici de monitorizare pasivă, semnalul de referință nu este prezent. Există două metode populare pentru monitorizarea pasivă a calității vorbirii. Uit a standardizat o metodă de monitorizare non-intruzivă bazată pe semnal, P. 563, bazată pe rezultatul colaborării dintre trei companii, Psytechnics Ltd., Swissqual și Opticom, care au combinat cei mai buni parametri ai trei modele diferite. P. 563 este o măsurare obiectivă cu un singur capăt care folosește un mecanism de producție a vorbirii, iar celelalte modele de vorbire folosesc percepția ascultării. Acest algoritm funcționează numai pe discursul degradat primit. Nu va avea nevoie de vorbire de referință și funcționează în întregime pe vorbire degradată. Măsurătorile prin P.563 derivă mai mulți parametri din vorbirea primită clasificată ca zgomot, vorbire artificială și vorbire reală. O prezentare generală a operațiunii de evaluare a calității vorbirii cu un singur capăt P. 563 este prezentată aici.
în absența unui semnal de referință, modelele nu au cunoștințe despre semnalul original și trebuie făcute presupuneri cu privire la semnalul primit. Modelul P. 563 combină trei principii de bază pentru evaluarea distorsiunilor. Primul principiu se concentrează asupra sistemului de producție a vocii umane, modelând tractul vocal ca o serie de tuburi, cu variații anormale ale secțiunilor tuburilor considerate degradare. Al doilea principiu este de a reconstrui un semnal de referință curat din semnalul degradat pentru a aplica ulterior un model perceptiv de referință completă și pentru a evalua distorsiunile demascate în timpul reconstrucției. Al treilea principiu este identificarea și estimarea distorsiunilor specifice întâlnite în canalele vocale, cum ar fi tăierea temporală, robotizarea și zgomotul. Calitatea vorbirii de ascultare este derivată din parametrii calculați din cele trei principii, aplicând o ponderare dependentă de distorsiune.
în timpul scrierii acestui subiect, tehnica bazată pe P. 563 nu a fost acceptată pe scară largă pentru măsurători. Măsurătorile bazate pe P. 862 PESQ și estimările bazate pe modelul E sunt acceptate mai popular. Principalul avantaj al acestei tehnici P. 563 este capacitatea sa de a monitoriza la capătul degradat fără a solicita referință. Astfel, poate monitoriza mai bine apelurile pe distanțe lungi în afara laboratorului și în implementări, ceea ce va fi mult mai simplu de efectuat decât multe alte măsurători. Metoda bazată pe P. 563 poate fi, de asemenea, încorporată ca parte
a gateway-ului de recepție similar cu E-model și RTCP-XR. Operațiunile P. 563 pot fi utilizate pe eșantioane care sunt livrate pe interfețele vocale de modulare a codului pulsului (PCM).
mai multe informații despre tehnica P. 563 pot fi găsite din P. 563 și . Scorul MOS produs de P.563 și alte tehnici sunt răspândite pe scară largă și sunt necesare pentru a media rezultatele mai multor teste pentru a obține o metrică de calitate stabilă pe mai multe rezultate. P. 563 este corelat cu MOS subiectiv ca 0,85 până la 0,9 pe baza experimentelor efectuate pe o bază de date de către , iar PESQ este raportat ca 0,94.

Lasă un răspuns

Adresa ta de email nu va fi publicată.