MÅLING AV TALEKVALITET (VoIP))

20.1
for å sammenligne talekvaliteten, og for å komme frem til parametrene som bidrar til talekvaliteten, er det nødvendig å vite hvordan talekvaliteten måles og hva er kvalitetsmålene. Det grunnleggende testoppsettet For VoIP – talemålinger er gitt i emne 13. I dette emnet diskuteres talekvalitet som MEAN opinion score (MOS), ulike klassifikasjoner, stemmekvalitetspåvirkende parametere og forbedringer. Stemmekvalitetsmålinger FOR MOS er klassifisert som subjektive og objektive.
en funksjonell representasjon av noen populære stemmekvalitet måleteknikker er illustrert I Fig. 20.1 . I figuren er stemmen vist å være fra

Tabell 20.1. PSTN Og VoIP Kvalitet Sammenligninger
Subjektiv Måleteknikk
Objektive Måleteknikker
PESQ Måling
Passiv Overvåkingsteknikk

Tabell 20.1. PSTN Og VoIP Kvalitet Sammenligninger

Egenskaper	Pstn	VoIP
Forvrengninger på	Forvrengninger på grunn av flere	ingen analog overføring
analog linje	1000 fot linjer fra	forvrengninger Med VoIP-samtaler.
	DLC eller CO plassering
Ekkokansellering	Oppnådd gjennom tap	Ekkokansellering Av Carrier grade
på nasjonale samtaler	planlegging og lave forsinkelser	brukes.
Automatisk gevinst	ikke innlemmet	Mulig å innlemme for
kontroll		bedre oppfatning av tale
		nivåer eller lyttekvalitet
		erfaring.
Talekvalitet	Overvåking SOM GR-	RTCP – XR OG GR – 909 er
overvåking	909 er innlemmet	innlemmet i mange VoIP
	pstn	distribusjoner.
Båndbredde eller bit	64 kbps fast på digital	Variabel båndbredde, vanligvis
vurder	TDM. DCME kanaler	krever mer på fysisk
	bruk 16, 24, 32 og	grensesnitt enn PSTN. Faks
	40 kbps som degraderer faks	tjenester kan få mer
	Kvalitet	båndbredde eller redundans i
		overføring.
Faksanrop	Ytelse begrenset av	Bruker korte endelinjer. Derfor faks
	end overføring linje	levering kan være bedre å bruke
	kjennetegn	VoIP. Det kunne imidlertid
		være interoperabilitet problemer for
		sende faks.
Tale og data	Hovedsakelig for taleanrop,	internett-tjeneste og VoIP kan
	noen tjenester kan gjenbruke	skala sammen med data og
	talekanaler for data	krav til medietjenester.
Taleanrop funksjoner	Begrensede funksjoner og	Flere funksjoner tilbys som
	dyrt for flere	gratis.
	tjenestefunksjoner
Talegrensesnitt	Begrensede grensesnitt	Flere grensesnitt og tjenester.
Lang avstand	Lang avstand er kostbar	Vanligvis gratis eller mye lavere
		priser.
Transkoding	Flere nivåer av	Ende-til-ende direkte koding kan være
	transkoding for inter –	ansatt basert på
	regionale samtaler	tilgjengelig støtte.
Bredbånd støtte	Taleanrop er av	Bredbånd ende – til – ende stemme er
	smalbånd	mulig som kan overstige
		PSTN kvalitet.

sendingsgatewayen til mottaksgatewayen. Mottaksgatewayen vises med noen flere utvidede blokker for å skape et stort bilde Av E-modellen, som brukes Til R-faktor estimering, ekstra kvalitetsmålinger og SANNTIDS Transport Control Protocol-Extended Reports (RTCP-XR) operasjon. I E-modellen brukes RTP, RTCP, jitterbuffer og totale systemsignalparametere. Ved beregning Av R-faktor og andre avledede parametere,

Figur 20.1. Oversikt over populære talekvalitetsmålinger.
RTCP-XR kan sende pakker til de interne programmene, destinasjonsgatewayen og RTCP-XR-serveren. I sammendraget er den ikke-påtrengende R-faktoren en objektiv estimering som ligger som en del Av VoIP-implementeringen, og ytterligere programvare er nødvendig i gatewayen for r-faktorestimeringen. I perseptuell evaluering av talekvalitet (PESQ) sender instrumenter som MultiDSLA referansetalen gjennom VoIP-systemet under test og evaluerer degradert med referansetalen. Denne målingen er aktiv, Og VoIP gatewayer trenger ikke å vite noe om målingen. I subjektiv lytting vil flere lyttere evaluere talekvaliteten. I P. 563 analyseres stemmen helt på det mottatte degraderte signalet, og den opprinnelige referansen er ikke nødvendig. P. 563 ligner subjektiv lytting, men den vurderes av instrumentene eller prosessorene. Hver av disse teknikkene kommer til en annen skala av talekvalitet. I En VoIP taleanrop Mellom A Og B, tale målinger er gjort som halv dupleks, som betyr målinger er gjort Som A Til B eller B Til A, en om gangen. På grunn av den halvduplekse lyttetypen av testing, blir disse målingene referert til som lyttekvalitetstester (LQ). Suffikset LQ er vedlagt mens presentere resultatene på halv dupleks tester, og objektive tester er i tillegg suffikset med » O » SOM LQO.
20.1.1

Subjektiv Måleteknikk

i subjektiv stemmekvalitetsevaluering er stemmekvalitet MOS vurdert av gruppen av faktiske mannlige og kvinnelige lyttere. Det er den faktiske lyttetesten for evaluering AV MOS. Anbefalingene p. 800 Og P. 830 brukes til å vurdere den subjektive ytelsen til tale
kodeker. De samme testene er utvidet Til VoIP talekvalitet. En gruppe mennesker deltar for å registrere subjektive score. Flere testfraser registreres og deretter testpersoner (gruppe mennesker) lytter til dem under forskjellige forhold. Disse testene utføres i spesielle rom med bakgrunnsstøy og andre miljøfaktorer holdes under kontroll for testutførelse. Testbetingelsene er gitt i . De subjektive måleteknikkene er kategorisert som absolutt kategorivurdering (ACR), degraderingskategorivurdering (DCR) og sammenligningskategorivurdering (CCR).
i N ACR lytter deltakerne til innspilte taleprøver som har blitt behandlet gjennom flere testforbindelser. Minst 16 forsøkspersoner (lyttere) skal delta i vurderingen. Når du lytter, vurderer brukerne anropet på en 1 TIL 5 MOS skala. Gjennomsnittsverdiene for brukerverdiene anses å generere den generelle samtalekvaliteten.
i EN DCR-test er to taleprøver til stede. Den første taleprøven er en referanseprøve med forhåndsdefinert kvalitet. Prøven her refererer til tale som varer i flere sekunder i varighet. Den andre taleprøven er en degradert versjon. Lyttere må sammenligne den degraderte versjonen med en referanse på en degraderingsskala på 1 til 5. Her er 5 uhørbar nedbrytning og 1 representerer verste nedbrytning. Resultatene er oppsummert som degradert MOS.
i CCR-tester blir brukerne bedt om å lytte til to sett med prøver, en som svarer til referanse og den andre til degradert. Denne testen ligner DCR, bortsett fra at rekkefølgen på prøver som presenteres for lytterne, endres i forskjellige iterasjoner. Rekkefølgen av referanse og degradert er ikke erklært til lytteren. Lyttere blir bedt om å gi en komparativ vurdering av en andre prøve med hensyn til den første på en skala fra -3 til 3 i Henhold Til P. 800 Vedlegg-D . Ved å presentere resultatene representerer» 3 «mye bedre kvalitet og» -3 » representerer den verste kvaliteten på en relativ skala. Kvalitetspoengene er kartlagt TIL MOS. MOS-rating tillatt er 1 til 5, men en bruker rating over 4.5 er begrenset til 4.5.
Subjektive tester er involvert i prosedyrer, og det er en kostbar innsats. Det er begrenset til mindre iterasjoner for å evaluere noen ny algoritme eller talekodeker. Det er vanskelig å opprettholde konsistens som instrumentbaserte objektive tester.
20.1.2

Objektive Måleteknikker

Objektive metoder er målinger og beregninger. Det forventes at resultatene vil være konsistente på tvers av flere målinger. Flere objektive metoder eksisterer og klassifiseres som aktive og passive metoder.
• Aktiv overvåking teknikker AV PESQ
• Passiv overvåking teknikker Av P. 563 Og E-modellen
Aktiv Overvåking Teknikker. Aktiv måling kalles påtrengende overvåking eller offline overvåking på grunn av involvering av eksterne signaler.
i et forsøk på å supplere subjektive lyttekvalitet, testing med lavere kostnader objektive metoder er utviklet. KPN utviklet P. 861 (dette er foreldet nå) perceptual speech quality measure (PSQM) for evaluering av codec ytelse. British Telecom utviklet perceptual analysis measurement system (PAMS) for nettverksmålinger. P. 862 PESQ resulterte fra EN ITU-konkurranse. Ytelsen TIL PAMS og en ny versjon AV PSQM, PSQM99, var lik slik at bidragsyterne ble invitert til å kombinere algoritmer. DETTE resulterte I PESQ, som er litt bedre enn dets bestanddeler.
disse metodene måler forvrengning introdusert av et transmisjonssystem og kodek ved å sammenligne en original referansefil sendt inn i systemet på et telefongrensesnitt med det mottatte svekkede signalet mottatt på et annet telefongrensesnitt. PSQM ble utviklet for laboratorietesting av tale kodeker. PAMS OG PESQ er designet for nettverkstesting. Bruken av instrumenter for talekvalitet er mye enklere sammenlignet med subjektive eller passive målinger. Instrumentleverandører gir også de ekstra avledede parametrene for å identifisere kildene til nedbrytninger gjennom målinger. Se noen instrumenter gitt i emne 13 for mer informasjon om ulike funksjoner.
MENS DU skrev dette emnet, BLE PESQ populært støttet i instrumentene. PESQ ble godkjent AV ITU I Mars 2001 Som P. 862 anbefaling, erstatte P.861 PSQM. PESQ kombinert flere beste fordelene AV PAMS OG PSQM. Det er nøyaktig i å forutsi subjektive testresultater, og det er robust under alvorlige nettverksforhold som en variabel forsinkelser, filtrering ved analoge grensesnitt, og støtte for både wideband og narrowband. PESQ produserer en poengsum som ligger på en skala fra -0,5 til 4,5. En kartlegging funksjon fra En P. 862 PESQ score til en gjennomsnittlig subjektiv p. 800-LQ MOS score ble gitt, noe som gjør det
PESQ-LQO for narrowband stemme. LQO betegner en lytting kvalitet mål. PESQ-LQ ligger fra 1 til 4,5. EN MOS av 4.5 er maksimal kvalitet oppnådd for en klar uforstyrret tilstand. EN oversikt over PESQ algoritmen er gitt her. DET anbefales å referere TIL ITU P. 862-familien av anbefalinger, programvare og noen kommersielle instrumentbrosjyrer for mer informasjon .
20.1.3

PESQ Måling

Menneskelig auditiv persepsjon er kjernen konseptet bak PESQ og dens forgjengere PAMS OG PSQM. En perceptuell modell brukes til å skille riktig mellom hørbare og uhørbare forvrengninger, og dette har vist seg å være den beste måten å nøyaktig forutsi hørbarheten og irritasjonen av komplekse forvrengninger. I tillegg til mengden forvrengning, kan fordelingen av hørbar forvrengning gjøre kvalitetsspådommer mye mer nøyaktige.
PESQ måler enveis talekvalitet, som betyr halv dupleks drift av måling. Den vurderer kvaliteten på et forvrengt talesignal som er kodet og overført over nettverket ved å sammenligne det med det opprinnelige uforstyrrede signalet. Den opprinnelige og forvrengte talen er kartlagt på psykofysiske representasjoner som samsvarer med måten mennesker opplever tale på.
kvaliteten på den forvrengte talen vurderes basert på forskjeller i psykofysiske representasjoner. PESQ-operasjonen bruker to hovedklasser av logaritmiske operasjoner – nemlig konvertering av signaler til det psykoakustiske domenet og kognitiv modellering. En funksjonell representasjon AV PESQ algoritmen er gitt I Fig. 20.2. Instrumentprodusenter for PESQ-måling inkluderer flere ekstra operasjoner for å trekke ut signalanalyseparametere og nedskrivninger i tillegg TIL PESQ-målinger.

Figur 20.2. PESQ algoritme funksjonelle representasjoner.
behandlingen utført AV PESQ-algoritmen inkluderer stadiene som er oppført nedenfor. Sammendrag trinnene er gitt her; flere detaljer OM PESQ er gitt i .
i det første behandlingstrinnet skaleres både referansen og det degraderte signalet til samme konstante effektnivå. Denne skaleringen er nødvendig fordi referansesignalet ikke må være på et definert nivå, og gevinsten til systemet under test er ukjent før testing. PESQ antar at det subjektive lyttenivået er en konstant 79 dBSPL ved øret referansepunkt . For strøm normalisering normaliseres elektriske signalnivåer til – 26dbov (dvs.- 20dBm som gitt i referansen). En signalnivå normalisering brukes på både referansen og det degraderte signalet for å bringe dem til dette nivået.
Perseptuelle modeller som PESQ bør ta hensyn til egenskapene til telefon telefoner som subjektiv lytting kan bruke telefon telefoner. I PESQ, mottar banen til telefoner er modellert ved hjelp av en intermediate reference system (IRS) band-pass filter i frekvensdomenet. Denne prosessen tar hensyn til effekten av håndsettets elektriske og akustiske komponenter. Både referansen og det degraderte signalet ER IRS-filtrert.
systemet under test kan inneholde variabel forsinkelse. For å sammenligne referansen og degraderte signaler, er begge signalene tid justert med hverandre. PESQ justerer overlappende deler av talerammer. I første fase utføres forsinkelsesestimeringen over lengden av filer ved å beregne korrelasjonen mellom filene. Forsinkelsen oppnådd i dette stadiet kalles råforsinkelse. I neste trinn bruker PESQ taleaktivitetsdeteksjon til signalene for å identifisere nødvendige talesegmenter, vanligvis referert til som utterances. Forsinkelsesestimatet mellom ytringer er den fine forsinkelsen. Denne prosessen oppdager forsinkelse som er variabel over lengden av en ytring, da dette kan være betydelig i pakkebaserte nettverk.
de tidsjusterte referansene og degraderte signalene transformeres til frekvensdomenet ved å bruke en kortsiktig rask Fourier-transformasjon (FFT) med Et Hanningvindu over 32 ms-rammer med 50% overlappende. Kraften til originale og degraderte signaler beregnes og lagres separat. I neste operasjonsstadium transformeres frekvensbåndene til bark-skala ved å binde FFT-bånd. Denne prosessen fordreier frekvensskalaen I Hz til tonehøyde skala, og de resulterende signaler kalles pitch power tettheter. I denne prosessen brukes høyere båndbredde for et høyfrekvent signal avledet gjennom frekvensanalyse.
filtreringseffektene i systemet under test utlignes ved å beregne en delvis kompensasjonsfaktor per hver barkbøtte og ved å multiplisere hver ramme av referansesignalet med denne faktoren. Denne prosessen utjevner referansen til det degraderte signalet. Kompensasjonsfaktoren beregnes som forholdet mellom degradert signalspektrum til referansesignalspektrum. Denne faktoren tar hensyn til filtreringen ved analoge komponenter i nettverket, for eksempel telefonhåndsett. I den andre fasen av utjevning estimeres ramme-for-ramme amplitude
forsterkning av systemet og brukes til å utjevne det degraderte signalet til referansesignalet. I begge tilfeller er utjevningen delvis og store mengder filtrering eller gevinstvariasjon avbrytes ikke; derfor resulterer det i at feil måles. Frekvens og gevinst-utlignet pitch makt tettheter er forvandlet til loudness skala Ved Hjelp Av Zwicker lov . De resulterende tidsfrekvenskomponentene kalles høyhetstettheter.
den signerte forskjellen mellom lydstyrken for referansen og degraderte signaler er kjent som rå forstyrrelsestetthet, som viser eventuelle hørbare forskjeller introdusert av systemet under test. En maskeringsoperasjon bruker en maskefaktor på de rå forstyrrelsestetthetene som maskerer de små uhørbare forvrengningene i nærvær av høye signaler. Forstyrrelsestettheten som oppnås ved denne prosessen kalles absolutt eller symmetrisk forstyrrelsestetthet. De symmetriske forstyrrelsene er integrert over rammens lengde (intraframe). De påfølgende rammene med en rammeforstyrrelse over en terskel er kategorisert som dårlige rammer. De dårlige rammer kan oppstå på grunn av feil tidsforsinkelse estimering eller pakke dråper. I et lokalisert vindu rundt dårlige rammer gjøres det et nytt forsinkelsesestimat som brukes til å beregne forstyrrelsestetthetene på nytt. Minste av tidligere og nåværende forstyrrelser regnes som den endelige forstyrrelsen i det dårlige rammevinduet.
for å modellere forvrengningen introdusert av kodeken som brukes i nettverket, beregnes en asymmetrisk forstyrrelsestetthet ved å multiplisere den symmetriske forstyrrelsestettheten med en asymmetrifaktor. Asymmetrifaktoren er forholdet mellom forvrengt og den opprinnelige tonehøyden økte til kraften på 1,2. Denne forstyrrelsestettheten kalles additiv eller asymmetrisk forstyrrelse.
til Slutt konverteres feilparametrene til en kvalitetspoeng, som er en lineær kombinasjon av den gjennomsnittlige symmetriske forstyrrelsesverdien og den gjennomsnittlige asymmetriske forstyrrelsesverdien. Fra Fig. 20.2, stadiene involvert fra nivåjustering til intensitetsforvrengningen på loudness-skalaen er kjent som konvertering til det psykoakustiske domenet, og de algoritmiske stadiene fra perceptuell subtraksjon til PESQ score beregning er kjent som kognitiv modellering.
PESQ gir en score kjent som PESQ score i henhold Til P. 862. PESQ-poengsummen ligger i området -0,5 til 4,5. PESQ er korrelert til den subjektive MOS som 0,94 basert på eksperimenter utført på databaser av . SAMMENLIGNET med subjektive (faktiske lyttere) score, GIR PESQ bedre resultater for dårlig kvalitet tale og pessimistiske resultater for god kvalitet stemme. PESQ-LQ gir bedre korrelasjon med subjektive score enn PESQ på en lyttekvalitet skala. PESQ-LQ score er i området fra 1 til 4,5. P862.1 gir en kvalitetskartlegging mellom narrowband kvalitetsmålinger PESQ score og lytting kvalitet objektiv mean opinion score (MOS-LQO). Anbefaling P. 862. 2 gir en kvalitetskartlegging mellom wideband kvalitetsmålinger PESQ score og lyttekvalitet objektiv gjennomsnittlig mening score. Mer informasjon om disse resultatene finnes I ITU – T-P. 862-serien anbefalinger og i referanse .
PESQ er en halv dupleks operasjon som ikke vil fange nøyaktig på ende-til-ende forsinkelse, ekko, lydstyrke tap, sidetone, og lyttenivåer. Fra Stemmekvalitetsmåling Av VoIP-gatewayen med analoge grensesnitt, gjøres FØLGENDE PESQ-LQO observasjoner ved HJELP AV DSLA . UNDER ingen pakketap-tilstanden ER PESQ-LQO-poengsummen for g. 711-kodeken 4.32, G. 729A er 3.85 Og G. 723. 1 er 3.75. En annen tolkning av disse resultatene for pakkedråpssituasjoner og sammenligning Med E-modellen er gitt som En Del Av r-faktorberegningene og presentert I Tabell 20.4. I PROSESSEN MED PESQ-beregninger kan flere andre parametere beregnes. Instrumentleverandører gir disse parametrene som tilleggsfunksjoner TIL PESQ-målinger .
20.1.4

Passiv Overvåkingsteknikk

i n passive overvåkingsteknikker er referansesignalet ikke til stede. To populære metoder for passiv talekvalitetsovervåking eksisterer. ITU har standardisert en signalbasert ikke-påtrengende overvåkingsmetode, P. 563, basert på resultatet av samarbeid mellom tre selskaper, Psytechnics Ltd., Swissqual og Opticom, som kombinerte de beste parametrene til tre forskjellige modeller. P. 563 er en enkelt-ended objektiv måling som gjør bruk av en taleproduksjonsmekanisme, og de andre talemodellene gjør bruk av lytteoppfattelse. Denne algoritmen opererer kun på mottatt forringet tale. Det trenger ikke referansetale, og det fungerer helt på forringet tale. Målingene gjennom P.563 utlede flere parametere fra mottatt tale klassifisert som støy, kunstig tale og faktisk tale. En oversikt over P. 563 single-ended tale-kvalitetsvurdering operasjonen er gitt her.
i fravær av et referansesignal har modellene ikke kjennskap til det opprinnelige signalet, og det må gjøres antagelser om det mottatte signalet. P. 563-modellen kombinerer tre grunnleggende prinsipper for evaluering av forvrengninger. Det første prinsippet fokuserer på det menneskelige stemmeproduksjonssystemet, som modellerer vokalkanalen som en serie rør, med unormale variasjoner av rørets seksjoner betraktet som nedbrytning. Det andre prinsippet er å rekonstruere et rent referansesignal fra det degraderte signalet for å anvende en fullreferanse perceptuell modell etterpå og å vurdere forvrengninger avslørt under rekonstruksjonen. Det tredje prinsippet er å identifisere og estimere spesifikke forvrengninger som oppstår i talekanaler, for eksempel temporal klipping, robotisering og støy. Lytte talekvalitet er avledet fra de beregnede parametre fra de tre prinsipper, anvende en forvrengning-avhengig vekting.
mens du skrev dette emnet, Ble den P. 563-baserte teknikken ikke allment akseptert for målinger. P. 862 PESQ-baserte målinger og E-modellbaserte estimater er mer populært akseptert. Den største fordelen Med Denne P. 563-teknikken er evnen til å overvåke i den forringet enden uten å ringe for referanse. Dermed kan det bedre overvåke langdistansesamtaler utenfor laboratoriet og i distribusjoner, noe som vil være mye enklere å gjennomføre enn mange andre målinger. Den P. 563-baserte metoden kan også bygges inn som en del
av mottaksgatewayen som Ligner På E-model OG RTCP-XR. P. 563 operasjoner kan brukes på prøver som blir levert på pulse code modulation (PCM) stemme grensesnitt.
Mer informasjon Om p. 563 teknikken finner Du fra P. 563 og . MOS score produsert Av P.563 og andre teknikker er bredt spredt og er nødvendig for å gjennomsnittlig resultatene av flere tester for å oppnå en stabil kvalitetsmåling over flere resultater. P. 563 er korrelert med subjektiv MOS som 0,85 til 0,9 basert på eksperimenter utført på en database av, OG PESQ er rapportert som 0,94.