Měření kvality hlasu (VoIP)

20.1
pro porovnání kvality hlasu a dosažení parametrů přispívajících ke kvalitě hlasu je nutné vědět, jak se měří kvalita hlasu a jaké jsou cíle kvality. Základní nastavení testu pro hlasové měření VoIP je uvedeno v tématu 13. V tomto tématu je diskutována kvalita hlasu jako průměrné skóre názoru (MOS), různé klasifikace, parametry ovlivňující kvalitu hlasu a vylepšení. Měření kvality hlasu pro MOS jsou klasifikována jako subjektivní a objektivní.
funkční reprezentace některých populárních technik měření kvality hlasu je znázorněna na obr. 20.1 . Na obrázku je zobrazen hlas z

tabulky 20.1. Porovnání kvality PSTN a VoIP
Subjektivní technika měření
objektivní měřicí techniky
PESQ měření
pasivní monitorovací technika

tabulky 20.1. Porovnání kvality PSTN a VoIP

atributy	PSTN	VoIP
zkreslení při	zkreslení způsobené několika	žádný analogový přenos
analogová linka	1000 stop linky z	zkreslení s VoIP hovory.
	umístění DLC nebo CO
zrušení ozvěny	dosaženo ztrátou	rušení ozvěny stupně nosiče
u vnitrostátních hovorů	se používá plánování a nízké zpoždění	.
Automatický zisk	není začleněn	možné začlenit pro
kontrola		lepší vnímání řeči
		úrovně nebo kvalita poslechu
		zkušenosti.
kvalita hlasu	monitorování jako GR –	RTCP-XR a GR-909 jsou
monitorování	909 jsou začleněny	začleněny do mnoha VoIP
	do PSTN	nasazení.
šířka pásma nebo bit	64 kbps fixed on digital	variabilní šířka pásma, obvykle
rychlost	TDM. DCME kanály	vyžaduje více na fyzické
	Použijte rozhraní 16, 24, 32 a	než rozhraní PSTN. Fax
	40 kbps, která degraduje fax	služby mohou získat více
	kvalita	šířka pásma nebo redundance v
		přenos.
Faxové hovory	výkon omezený	používá krátké koncové linky. Proto, fax
	koncová přenosová linka	dodávka může být lepší pomocí
	charakteristika	VoIP. Nicméně, tam mohl
		být problémy interoperability pro
		posílám fax.
hlas a data	hlavně pro hlasové hovory,	Internetové služby a VoIP mohou
	některé služby mohou znovu použít měřítko	spolu s daty a
	hlasové kanály pro data	požadavky na mediální služby.
funkce hlasového volání	omezené funkce a	několik funkcí je nabízeno jako
	drahé pro několik	zdarma.
	funkce služby
hlasová rozhraní	omezená rozhraní	více rozhraní a služeb.
dlouhá vzdálenost	dlouhá vzdálenost je nákladná	obvykle zdarma nebo mnohem nižší
		ceny.
překódování	více úrovní	End-to-end přímé kódování může být
	překódování pro inter –	použité na základě
	regionální hovory	dostupná podpora.
širokopásmová podpora	hlasové hovory jsou	širokopásmový end-to-end hlas je
	úzké pásmo	možné, které může překročit
		kvalita PSTN.

odesílací brána do přijímací brány. Přijímací brána je zobrazena s několika více rozšířenými bloky pro vytvoření velkého obrazu E-modelu, který se používá pro odhad R-faktoru, další metriky kvality a operace RTCP-XR (real-Time Transport Control Protocol-Extended Reports). V E-modelu se používají parametry RTP, RTCP, jitter buffer a celkový systémový signál. Při výpočtu R-faktoru a dalších odvozených parametrů

obrázek 20.1. Přehled populárních měření kvality hlasu.
RTCP-XR může odesílat pakety do interních aplikací, cílové brány a serveru RTCP-XR. Stručně řečeno, neintruzivní R-faktor je objektivní odhad, který sídlí jako součást implementace VoIP, a pro odhad R-faktoru je v bráně vyžadován další software. Při percepčním hodnocení kvality řeči (PESQ) nástroje jako MultiDSLA odesílají referenční řeč prostřednictvím testovaného systému VoIP a vyhodnocují degradovanou referenční řeč. Toto měření je aktivní a VoIP brány nemusí o měření nic vědět. Při subjektivním poslechu vyhodnotí kvalitu hlasu více posluchačů. V P. 563 je hlas analyzován výhradně na přijatém degradovaném signálu a původní odkaz není vyžadován. P. 563 je podobný subjektivnímu poslechu, ale je hodnocen nástroji nebo procesory. Každá z těchto technik přichází v jiném měřítku kvality hlasu. Při hlasovém volání VoIP mezi A A B se hlasová měření provádějí jako poloduplexní, což znamená, že měření se provádějí jako A až B nebo B až a, jeden po druhém. Vzhledem k poloduplexnímu typu testování poslechu se tato měření označují jako testy kvality poslechu (LQ). Přípona LQ je připojena při prezentaci výsledků na poloduplexních testech a objektivní testy jsou navíc opatřeny příponou “ O “ jako LQO.
20.1.1

Subjektivní technika měření

při hodnocení subjektivní kvality hlasu je MOS hodnocena skupinou skutečných posluchačů mužského a ženského pohlaví. Jedná se o skutečný poslechový test pro hodnocení MOS. Doporučení P. 800 A P. 830 se používají pro hodnocení subjektivního výkonu kodeků řeči
. Stejné testy jsou rozšířeny na kvalitu hlasu VoIP. Skupina lidí se účastní nahrávání subjektivních skóre. Zaznamenává se více testovacích frází a poté je testované subjekty (skupina lidí) poslouchají v různých podmínkách. Tyto testy se provádějí ve speciálních místnostech s hlukem na pozadí a další faktory prostředí jsou udržovány pod kontrolou pro provedení testu. Zkušební podmínky jsou uvedeny . Subjektivní měřicí techniky jsou kategorizovány jako absolutní hodnocení Kategorie (ACR), hodnocení Kategorie degradace (DCR) a hodnocení srovnávací Kategorie (CCR).
I n ACR, účastníci poslouchají zaznamenané vzorky řeči, které byly zpracovány prostřednictvím několika testovacích připojení. Hodnocení by se mělo účastnit minimálně 16 testovaných subjektů (posluchačů). Při poslechu uživatelé hodnotí hovor na stupnici 1 až 5 MOS. Průměrné hodnoty uživatelských hodnocení jsou považovány za generující celkovou kvalitu hovoru.
v testu DCR jsou přítomny dva vzorky řeči. První vzorek řeči je referenční vzorek s předdefinovanou kvalitou. Vzorek zde odkazuje na řeč trvající několik sekund. Druhý vzorek řeči je degradovaná verze. Posluchači musí porovnat degradovanou verzi s odkazem na stupnici degradace 1 až 5. Zde 5 je neslyšitelná degradace a 1 představuje nejhorší degradaci. Výsledky jsou shrnuty jako degradované MOS.
v testech CCR jsou uživatelé požádáni, aby poslouchali dvě sady vzorků, jeden odpovídající odkazu a druhý degradovaný. Tento test je podobný DCR, kromě toho, že pořadí vzorků prezentovaných posluchačům se mění v různých iteracích. Pořadí odkazu a degradace není posluchači deklarováno. Posluchači jsou požádáni, aby poskytli srovnávací hodnocení druhého vzorku s ohledem na první vzorek na stupnici od -3 do 3 podle P .800 Příloha-D. Při prezentaci výsledků představuje „3“ mnohem lepší kvalitu a“ -3 “ představuje nejhorší kvalitu v relativním měřítku. Skóre kvality je mapováno na MOS. Povolené hodnocení MOS je 1 až 5, ale hodnocení uživatelů nad 4.5 je omezeno na 4.5.
Subjektivní testy jsou zapojeny do postupů a je to nákladné úsilí. Je omezeno na méně iterací pro vyhodnocení jakéhokoli nového algoritmu nebo kodeků řeči. Je obtížné udržet konzistenci, jako jsou objektivní testy založené na přístrojích.
20.1.2

objektivní měřicí techniky

objektivní metody jsou měření a výpočty. Očekává se, že výsledky budou konzistentní napříč několika měřeními. Existuje několik objektivních metod a jsou klasifikovány jako aktivní a pasivní metody.
* aktivní monitorovací techniky PESQ
* pasivní monitorovací techniky P. 563 a e-model
aktivní monitorovací techniky. Aktivní měření se nazývá rušivé monitorování nebo offline monitorování kvůli zapojení externích signálů.
ve snaze doplnit Subjektivní kvalitu poslechu jsou vyvíjeny metody testování s nižšími náklady. KPN vyvinula P. 861 (to je nyní zastaralé) perceptual speech quality measure (PSQM) pro hodnocení výkonu kodeku. British Telecom vyvinul systém měření percepční analýzy (PAMS) pro měření sítě. P. 862 PESQ vyplynulo ze soutěže ITU. Výkon PAMS a nové verze PSQM, PSQM99, byly podobné, takže přispěvatelé byli vyzváni, aby kombinovali algoritmy. Výsledkem je PESQ, který je o něco lepší než jeho složky.
tyto metody měří zkreslení způsobené přenosovou soustavou a kodekem porovnáním původního referenčního souboru odeslaného do systému na telefonním rozhraní s přijatým narušeným signálem přijatým na jiném telefonním rozhraní. PSQM byl vyvinut pro laboratorní testování řečových kodeků. PAMS a PESQ jsou určeny pro testování sítě. Použití nástrojů pro kvalitu hlasu je mnohem jednodušší ve srovnání se subjektivními nebo pasivními měřeními. Dodavatelé přístrojů také poskytují extra odvozené parametry, které pomáhají identifikovat zdroje degradace pomocí měření. Podívejte se na některé nástroje uvedené v tématu 13 pro více informací o různých funkcích.
při psaní tohoto tématu byl PESQ populárně podporován v nástrojích. PESQ byl itu schválen v březnu 2001 jako doporučení P. 862, které nahradilo P.861 Kč. PESQ kombinoval několik nejlepších zásluh PAMS a PSQM. Je přesný při předpovídání subjektivních výsledků testů a je robustní v náročných podmínkách sítě, jako je proměnná zpoždění, filtrování na analogových rozhraních a podpora širokopásmového i úzkopásmového. PESQ vytváří skóre, které leží na stupnici od -0,5 do 4,5. Byla poskytnuta mapovací funkce od skóre P. 862 PESQ po průměrné Subjektivní skóre P. 800-LQ MOS, což z něj činí
PESQ-LQO pro úzkopásmový hlas. LQO označuje cíl kvality poslechu. PESQ-LQ leží od 1 do 4,5. MOS ze 4.5 je maximální dosažená kvalita pro jasný nezkreslený stav. Zde je uveden přehled algoritmu PESQ. Doporučuje se odkazovat na itu P .862 rodina doporučení, software, a některé obchodní nástroje brožury pro více informací.
20.1.3

PESQ měření

lidské sluchové vnímání je základním konceptem PESQ a jeho předchůdců PAMS a PSQM. Percepční model se používá k správnému rozlišení mezi slyšitelnými a neslyšitelnými zkresleními, což se ukázalo jako nejlepší způsob, jak přesně předpovědět slyšitelnost a nepříjemnost složitých zkreslení. Kromě množství zkreslení by distribuce slyšitelného zkreslení mohla učinit předpovědi kvality mnohem přesnější.
PESQ měří jednosměrnou kvalitu hlasu, což znamená poloviční duplexní provoz měření. Posuzuje kvalitu zkresleného řečového signálu, který byl kódován a přenášen přes síť porovnáním s původním nezkresleným signálem. Původní a zkreslená řeč je mapována na psychofyzické reprezentace, které odpovídají způsobu, jakým lidé prožívají řeč.
kvalita zkreslené řeči je posuzována na základě rozdílů v psychofyzických reprezentacích. Operace PESQ využívá dvě hlavní třídy logaritmických operací – a to konverzi signálů do psychoakustické domény a kognitivní modelování. Funkční reprezentace algoritmu PESQ je uvedena na obr. 20.2. Výrobci přístrojů pro měření PESQ zahrnují kromě měření PESQ několik dalších operací k extrahování parametrů analýzy signálu a poruch.

obrázek 20.2. Funkční reprezentace algoritmu PESQ.
zpracování prováděné algoritmem PESQ zahrnuje níže uvedené fáze. Zde jsou uvedeny souhrnné kroky; je uvedeno několik podrobností o PESQ .
v prvním kroku zpracování jsou referenční i degradovaný signál upraveny na stejnou konstantní úroveň výkonu. Toto škálování je nezbytné, protože Referenční signál nemusí být na definované úrovni a zisk testovaného systému není před testováním znám. PESQ předpokládá, že subjektivní úroveň poslechu je konstantní 79 dBSPL v referenčním bodě ucha . Pro normalizaci výkonu jsou úrovně elektrického signálu normalizovány na-26dBov (tj. Normalizace úrovně signálu se aplikuje jak na referenční, tak na degradovaný signál, aby se dostaly na tuto úroveň.
percepční modely, jako je PESQ, by měly brát v úvahu vlastnosti telefonních telefonů, protože Subjektivní poslech může používat telefonní sluchátka. V PESQ je přijímací cesta telefonů modelována pomocí pásmového propustového filtru intermediate reference system (IRS) ve frekvenční oblasti. Tento proces bere v úvahu účinky elektrických a akustických součástí sluchátka. Referenční i degradovaný signál jsou IRS filtrovány.
testovaný systém může obsahovat proměnné zpoždění. Pro porovnání referenčních a degradovaných signálů jsou oba signály vzájemně zarovnány. PESQ zarovná překrývající se části řečových rámců. V první fázi se odhad zpoždění provádí po celé délce souborů výpočtem korelace mezi soubory. Zpoždění získané v této fázi se nazývá hrubé zpoždění. V další fázi PESQ aplikuje detekci hlasové aktivity na signály k identifikaci požadovaných segmentů řeči obvykle označovaných jako promluvy. Odhad zpoždění mezi výpověďmi je jemné zpoždění. Tento proces detekuje zpoždění, které je proměnlivé po celé délce výpovědi, protože to může být významné v sítích založených na paketech.
časově zarovnané referenční a degradované signály jsou transformovány do frekvenční oblasti pomocí krátkodobé rychlé Fourierovy transformace (FFT) s Hannoverovým oknem nad 32-ms snímky s 50% překrýváním. Síly původních a degradovaných signálů jsou vypočteny a uloženy samostatně. V další fázi provozu jsou frekvenční pásma transformována na měřítko kůry binningem pásem FFT. Tento proces deformuje frekvenční stupnici v Hz na stupnici rozteče, a výsledné signály se nazývají hustoty výkonu rozteče. V tomto procesu se používá vyšší šířka pásma pro vysokofrekvenční signál odvozený pomocí frekvenční analýzy.
filtrační efekty v testovaném systému jsou vyrovnány výpočtem částečného kompenzačního faktoru na každý bin kůry a vynásobením každého rámce referenčního signálu tímto faktorem. Tento proces vyrovnává odkaz na degradovaný signál. Kompenzační faktor se vypočítá jako poměr degradovaného spektra signálu k referenčnímu spektru signálu. Tento faktor bere v úvahu filtrování analogových komponent sítě, jako jsou telefonní sluchátka. Ve druhém stupni vyrovnání se odhadne amplituda po snímku
zisk systému a použije se k vyrovnání degradovaného signálu s referenčním signálem. V obou případech je vyrovnání částečné a velké množství filtrování nebo variace zisku se nezruší; proto, má za následek měření chyb. Frekvence a zesílení vyrovnané hustoty rozteče jsou transformovány na stupnici hlasitosti pomocí Zwickerova zákona . Výsledné komponenty časové frekvence se nazývají hustoty hlasitosti.
signovaný rozdíl mezi hustotou hlasitosti pro referenční a degradované signály je známý jako hustota surového rušení, která vykazuje jakékoli slyšitelné rozdíly zavedené testovaným systémem. Maskovací operace aplikuje maskovací faktor na hustoty surového rušení, které maskuje malé neslyšitelné zkreslení za přítomnosti hlasitých signálů. Hustota rušení získaná tímto procesem se nazývá absolutní nebo symetrická hustota rušení. Symetrické poruchy jsou integrovány po celé délce rámu (intraframe). Po sobě jdoucí snímky s narušením rámce nad prahem jsou kategorizovány jako špatné snímky. Špatné snímky mohou nastat kvůli nesprávnému odhadu časového zpoždění nebo poklesu paketů. V lokalizovaném okně kolem špatných rámců se provede nový odhad zpoždění, který se používá k přepočítání hustot rušení. Minimum předchozích a současných poruch je považováno za konečné rušení v tomto špatném rámovém okně.
pro modelování zkreslení zavedeného kodekem používaným v síti se vypočítá asymetrická hustota rušení vynásobením symetrické hustoty rušení Asymetrickým faktorem. Faktor asymetrie je poměr zkreslených a původních hustot rozteče zvýšených na výkon 1,2. Tato hustota rušení se nazývá aditivní nebo asymetrická porucha.
nakonec jsou chybové parametry převedeny na skóre kvality, což je lineární kombinace průměrné hodnoty symetrického rušení a průměrné hodnoty asymetrického rušení. Z Obr. 20.2, fáze zapojené od vyrovnání úrovně k deformaci intenzity na stupnici hlasitosti jsou známé jako konverze na psychoakustickou doménu a algoritmické fáze od percepčního odečítání po výpočet skóre PESQ jsou známé jako kognitivní modelování.
PESQ dává skóre známé jako PESQ skóre v souladu s P. 862. Skóre PESQ je v rozmezí -0,5 až 4,5. PESQ je korelován se subjektivním MOS jako 0,94 na základě experimentů prováděných na databázích . Ve srovnání se subjektivními (skutečnými posluchači) skóre poskytuje PESQ lepší výsledky pro špatnou kvalitu řeči a pesimistické výsledky pro kvalitní hlas. PESQ-LQ poskytuje lepší korelaci se subjektivním skóre než PESQ na stupnici kvality poslechu. PESQ-LQ skóre jsou v rozmezí od 1 do 4,5. P862. 1 poskytuje mapování kvality mezi úzkopásmovým měřením kvality PESQ skóre a objektivním průměrným hodnocením kvality poslechu (MOS-LQO). Doporučení P. 862. 2 poskytuje mapování kvality mezi širokopásmovými měřeními kvality PESQ skóre a objektivním průměrným hodnocením kvality poslechu. Více informací o těchto skóre lze nalézt v doporučeních řady ITU-T-P. 862 a v odkazu .
PESQ je poloviční duplexní operace, která nebude přesně zachycovat zpoždění typu end-to-end, echo, ztrátu hlasitosti, sidetone a úroveň poslechu. Z měření kvality hlasu VoIP brány s analogovými rozhraními se pomocí DSLA provádějí následující pozorování PESQ-LQO . V podmínkách bez ztráty paketů je skóre PESQ-LQO pro kodek G.711 4,32, G.729A 3,85 a G. 723. 1 3,75. Další interpretace těchto výsledků pro situace poklesu paketů a srovnání s E-modelem jsou uvedeny jako součást výpočtů R-faktoru a jsou uvedeny v tabulce 20.4. V procesu výpočtů PESQ lze vypočítat několik dalších parametrů. Dodavatelé přístrojů poskytují tyto parametry jako další funkce pro měření PESQ .
20.1.4

pasivní monitorovací technika

I n pasivní monitorovací techniky, Referenční signál není přítomen. Existují dvě populární metody pro pasivní sledování kvality řeči. ITU standardizovala neintruzivní monitorovací metodu založenou na signálu, P. 563, založenou na výsledku spolupráce mezi třemi společnostmi, Psytechnics Ltd., Swissqual a Opticom, které kombinovaly nejlepší parametry tří různých modelů. P. 563 je jednostranné objektivní měření, které využívá mechanismus produkce řeči a ostatní modely řeči využívají vnímání poslechu. Tento algoritmus pracuje pouze na přijaté degradované řeči. Nebude potřebovat referenční řeč a plně pracuje na degradované řeči. Měření Prostřednictvím P.563 odvozuje několik parametrů z přijaté řeči klasifikované jako šum, umělá řeč a skutečná řeč. Zde je uveden přehled o operaci hodnocení kvality řeči s jedním koncem P.563.
při absenci referenčního signálu nemají modely znalosti o původním signálu a je třeba učinit předpoklady o přijatém signálu. Model P. 563 kombinuje tři základní principy pro hodnocení zkreslení. První princip se zaměřuje na systém produkce lidského hlasu, modelování hlasového traktu jako řady zkumavek, s abnormálními variacemi úseků zkumavek považovanými za degradaci. Druhým principem je rekonstrukce čistého referenčního signálu z degradovaného signálu za účelem následného použití plně referenčního percepčního modelu a posouzení zkreslení odhalených během rekonstrukce. Třetím principem je identifikovat a odhadnout konkrétní zkreslení vyskytující se v hlasových kanálech, jako je Časové oříznutí, robotizace a šum. Kvalita poslechové řeči je odvozena z vypočtených parametrů ze tří principů s použitím vážení závislého na zkreslení.
při psaní tohoto tématu nebyla technika založená na P. 563 široce přijímána pro měření. P. 862 PESQ-based měření a e-model-based odhady jsou více populárně přijímány. Hlavní výhodou této techniky P. 563 je její schopnost monitorovat na degradovaném konci bez volání po odkazu. Může tak lépe sledovat dálkové hovory mimo laboratoř a při nasazení, což bude mnohem jednodušší než mnoho jiných měření. Metoda založená na P. 563 může být také vložena jako součást
přijímací brány podobně jako E-model a RTCP-XR. Operace p. 563 lze použít na vzorcích, které jsou dodávány na hlasových rozhraních pulse code modulation (PCM).
více informací o technice P. 563 naleznete na adrese p. 563 a . Moskevské divadlo produkoval P.563 a další techniky jsou široce rozšířeny a jsou nezbytné k průměru výsledků více testů, aby se dosáhlo stabilní metriky kvality oproti více výsledkům. P. 563 koreluje se subjektivním MOS jako 0,85 až 0,9 na základě experimentů prováděných v databázi a PESQ je hlášen jako 0,94.