음성 품질 측정)

20.1
음성 품질을 비교하고 음성 품질에 기여하는 매개 변수에 도달하기 위해서는 음성 품질을 측정하는 방법과 품질 목표가 무엇인지 알아야합니다. 음성 측정을위한 기본 테스트 설정은 주제 13 에 나와 있습니다. 이 항목에서는 평균 의견 점수로서의 음성 품질,다양한 분류,매개 변수에 영향을 미치는 음성 품질 및 개선 사항에 대해 설명합니다. 음성 품질 측정은 주관적 및 객관적으로 분류됩니다.
일부 대중적인 음성 품질 측정 기술의 기능적 표현이 도 1 에 도시되어 있다. 20.1 . 도면에서,음성은

표 20.1 에서 나온 것으로 도시된다. 품질 비교

왜곡 왜곡 인해 여러 없음 아날로그 전송
아날로그 라인 왜곡에서 1000 피트 라인.
디엘씨 또는 공동 위치
에코 제거 손실을 통해 달성 캐리어 등급 에코 제거기
전국 통화에서 계획 및 낮은 지연 이 사용됩니다.
자동 이득 통합되지 않음 통합 가능
제어 연설에 대한 더 나은 인식
레벨 또는 청취 품질
경험.
음성 품질 등의 모니터링
모니터링 909 통합
이 문제를 해결하려면 다음을 수행하십시오.
대역폭 또는 비트 64 비트 고정 디지털 가변 대역폭,일반적으로
속도 더 필요 물리적
16,24,32 및 인터페이스를 사용하십시오. 팩스
40 팩스 서비스를 저하시킬 수 있습니다.
품질 대역폭 또는 중복
전송.
팩스 호출 에 의해 제한된 성능은 짧은 끝 라인을 사용합니다. 따라서 팩스
끝 전송선 납품은 더 나을을 사용하여 일 수 있습니다
특성 그러나,거기 할 수 있었습니다
에 대한 상호 운용성 문제
팩스 보내기.
음성 및 데이터 주로 음성 통화, 인터넷 서비스
일부 서비스는 데이터와 함께 규모를 재사용할 수 있습니다.
데이터 미디어 서비스 요구 사항에 대한 음성 채널.
음성 통화 기능 제한 기능 및 여러 기능이 다음과 같이 제공됩니다
여러 비싼 무료.
서비스 특징
음성 인터페이스 제한된 인터페이스 다중 인터페이스 및 서비스.
장거리 장거리 비용이 많이 드는 일반적으로 무료 또는 훨씬 낮은
요금.
트랜스 코딩 엔드-투–엔드 다이렉트 코딩의 다중 레벨
에 따라 고용 된 간 에 대한 트랜스 코딩
지역별 통화 지원 가능.
광대역 지원 음성 통화는 광대역 종단 간 음성은
협 대역 초과 가능
품질.

수신 게이트웨이로 보내는 게이트웨이입니다. 이 패키지에는 주 프로그램 바이너리와 미리 컴파일된 대수 및 자동 로드 모듈이 전부 들어있습니다. 이 모델에서는 지터 버퍼 및 총 시스템 신호 매개 변수가 사용됩니다. 일반적인 음성 품질 측정에 대한 개요
그림 20.1. 인기있는 음성 품질 측정에 대한 개요.
내부 응용 프로그램,대상 게이트웨이 및 서버로 패킷을 보낼 수 있습니다. 이 응용 프로그램을 사용하면,이 응용 프로그램을 사용하면,이 응용 프로그램을 사용하는 것이 훨씬 더 쉽습니다. 음성 품질의 지각적 평가에서,멀티슬라와 같은 기기는 테스트 중인 음성 음성 시스템을 통해 참조 음성을 전송하고 참조 음성으로 저하된 것을 평가합니다. 이 측정은 활성 상태이므로 측정에 대해 아무 것도 알 필요가 없습니다. 주관적인 청취에서 여러 청취자가 음성 품질을 평가합니다. 563 페이지에서는 수신된 저하된 신호에 대해 음성이 완전히 분석되며 원래 참조는 필요하지 않습니다. 563 은 주관적인 청취와 비슷하지만 악기 또는 프로세서에 의해 평가됩니다. 이러한 각각의 기술은 음성 품질의 다른 규모에 도착한다. 즉,한 번에 하나씩 측정이 이루어집니다. 반이중 청취 유형의 테스트로 인해 이러한 측정을 청취 품질 테스트라고합니다. 반이중 테스트에서 결과를 제시하는 동안 접미사 엘큐가 추가되고,객관적인 테스트는 추가로”오”로 접미사가 붙습니다.
20.1.1

주관적 측정 기술

주관적 음성 품질 평가에서 음성 품질 모스는 실제 남성 및 여성 청취자 그룹에 의해 평가됩니다. 그것은 모스를 평가하기위한 실제 청취 테스트입니다. 800 및 830 권장 사항은 음성
코덱의 주관적 성능을 평가하는 데 사용됩니다. 같은 테스트는 음성 품질까지 확장됩니다. 한 그룹의 사람들이 주관적인 점수를 기록하는 데 참여합니다. 여러 테스트 문구가 기록 된 다음 시험 대상(사람들의 그룹)은 서로 다른 조건에서 그들에게 듣고 있습니다. 이러한 테스트는 배경 소음 및 기타 환경 요소가 테스트 실행을 위해 통제하에 유지되는 특수 실에서 수행됩니다. 테스트 조건이 제공됩니다. 주관적 측정 기술은 절대 범주 등급,저하 범주 등급,비교 범주 등급으로 분류됩니다.
참가자는 여러 테스트 연결을 통해 처리 된 녹음 된 음성 샘플을 듣습니다. 최소 16 명의 시험 대상자(청취자)가 평가에 참여해야합니다. 청취 할 때,사용자는 1~5 모스 규모에 전화를 평가. 사용자 등급의 평균값은 전체 통화 품질을 생성하는 것으로 간주됩니다.
두 개의 음성 샘플이 있습니다. 첫 번째 음성 샘플은 미리 정의된 품질의 참조 샘플입니다. 여기 샘플은 몇 초 동안 지속되는 음성을 나타냅니다. 다른 음성 샘플은 성능이 저하된 버전입니다. 수신기는 저하된 버전을 1~5 의 성능 저하 척도의 참조와 비교해야 합니다. 여기서 5 는 들리지 않는 저하이고 1 은 최악의 저하를 나타냅니다. 결과는 저하 된 모스로 요약됩니다.
에 CCR 테스트,사용자는 질문을 듣고 두 세트의 샘플을,하나에 해당하는 참조하고 다른 저하됩니다. 이 테스트는 리스너에 제공되는 샘플의 순서가 다른 반복에서 변경된다는 점을 제외하면 다음과 유사합니다. 참조 및 저하 순서는 수신기에 선언되지 않습니다. 청취자는 첫 번째 샘플과 관련하여 두 번째 샘플의 비교 등급을 부여하도록 요청받습니다. 결과를 제시 할 때”3″은 훨씬 더 나은 품질을 나타내고”-3″은 상대적인 척도에서 최악의 품질을 나타냅니다. 품질 평가 점수는 모스에 매핑됩니다. 허용되는 등급은 1~5 이지만 4.5 이상의 사용자 등급은 4.5 로 제한됩니다.
주관적인 검사는 절차에 관여하며 비용이 많이 드는 노력이다. 새로운 알고리즘 또는 음성 코덱을 평가하기 위해 더 적은 반복으로 제한됩니다. 계측기 기반 객관적 테스트와 같은 일관성을 유지하는 것은 어렵습니다.
20.1.2

객관적인 측정 기술

객관적인 방법은 측정 및 계산입니다. 결과는 여러 측정에 걸쳐 일관성이 있을 것으로 예상됩니다. 몇 가지 객관적인 방법이 존재하며 능동 및 수동 방법으로 분류됩니다.
•Active 모니터링 기법을 PESQ
•수동적인 모니터링 기법의 P.563 및 E-모델
Active 모니터링 기술입니다. 활성 측정은 외부 신호의 개입으로 인해 침입 모니터링 또는 오프라인 모니터링이라고합니다.
주관적인 청취 품질을 보완하기 위해 저비용 객관적 방법으로 테스트를 개발한다. 861(이 지금은 사용되지 않습니다)코덱 성능의 평가를위한 지각 음성 품질 측정. 브리티시 텔레콤은 네트워크 측정을 위해 지각 분석 측정 시스템을 개발했습니다. 이 대회는 2012 년 12 월 23 일에 개최되었습니다. 따라서 기고자들은 알고리즘을 결합하도록 초대되었다. 그 결과 페스크는 그 구성 요소보다 약간 낫습니다.
이러한 방법은 전화 인터페이스에서 시스템으로 전송된 원본 참조 파일을 다른 전화 인터페이스에서 수신된 수신된 장애 신호와 비교하여 전송 시스템 및 코덱에 의해 도입된 왜곡을 측정한다. 음성 코덱의 실험실 테스트를 위해 개발되었습니다. 네트워크 테스트를 위해 설계되었습니다. 음성 품질을 위해 악기를 사용하는 것은 주관적 또는 수동적 측정과 비교할 때 훨씬 간단합니다. 또한 계측기 공급업체는 측정을 통해 분해 원인을 식별하는 데 도움이 되는 추가 파생 매개 변수를 제공하고 있습니다. 다양한 기능에 대한 자세한 내용은 주제 13 에 나와 있는 일부 도구를 참조하십시오.
이 주제를 쓰는 동안,페스큐는 악기에서 널리 지원되었다. 2001 년 3 월 862 권고에 의해 승인되었다.861. 이 두 가지 주요 장점은 다음과 같습니다. 주관적인 시험 점수를 예측하는 데 정확하며 가변 지연,아날로그 인터페이스에서의 필터링 및 광대역 및 협 대역의 지원과 같은 심각한 네트워크 조건에서 강력합니다. -0.5 에서 4.5 까지의 척도로 점수를 생성합니다. 1580>협 대역 음성에 대 한 매핑 기능을 제공 했다. 청취 품질 목표를 나타냅니다. 1 에서 4.5 사이입니다. 의 모스 4.5 는 명확한 왜곡되지 않은 조건에 대해 달성 된 최대 품질입니다. 이 라이브러리는 그러한 문제를 표준화된 프로그래밍 인터페이스를 제공함으로써 해결합니다. 자세한 내용은 권장 사항,소프트웨어 및 일부 상용 기기 브로셔를 참조하는 것이 좋습니다.
20.1.3

인간의 청각 지각은 인간의 청각 지각과 그 전임자의 핵심 개념입니다. 지각 모델은 가청 왜곡과 들리지 않는 왜곡을 정확하게 구별하는 데 사용되며 이는 복잡한 왜곡의 가청 및 성가심을 정확하게 예측하는 가장 좋은 방법임이 입증되었습니다. 왜곡의 양 외에도 가청 왜곡의 분포는 품질 예측을 훨씬 더 정확하게 만들 수 있습니다.단방향 음성 품질을 측정하여 측정의 반이중 작동을 의미합니다. 그것은 코딩 하 고 원래 왜곡 되지 않은 신호와 비교 하 여 네트워크를 통해 전송 된 왜곡 된 음성 신호의 품질을 평가 합니다. 원본과 왜곡 된 연설은 인간이 연설을 경험하는 방식과 일치하는 정신 물리학 적 표현에 매핑됩니다.
왜곡된 말의 질은 정신물리학적 표현의 차이에 따라 판단된다. 즉,신호를 심리 음향 도메인으로 변환하고인지 모델링합니다. 이 알고리즘의 기능적 표현은 그림 1 에 나와 있습니다. 20.2. 또한 신호 분석 파라미터 및 장애를 추출하기 위한 몇 가지 추가 작업이 포함되어 있습니다.
페스큐 알고리즘 기능 표현.
그림 20.2. 알고리즘 기능 표현.
이 알고리즘에 의해 수행되는 처리는 아래에 나열된 단계를 포함한다. 요약 단계는 여기에 주어진다;에 대한 몇 가지 세부 사항이 제공됩니다.
처리의 첫 번째 단계에서,기준 신호와 저하된 신호는 모두 동일한 일정한 전력 레벨로 스케일링된다. 이 스케일링은 기준 신호가 정의된 레벨에 있을 필요가 없고 테스트 중인 시스템의 게인을 테스트하기 전에 알 수 없기 때문에 필요합니다. 주관 청취 수준은 귀 기준점에서 일정한 79 비트 스필이라고 가정합니다. 전력 정규화를 위해,전기 신호 레벨은-26 디보프(즉,-20 디보프 기준)로 정규화된다. 신호 레벨 정규화는 참조 신호와 성능이 저하된 신호 모두에 적용되어 이 수준으로 가져옵니다.
주관적인 청취가 전화 단말기를 사용할 수 있으므로 전화 단말기의 특성을 고려해야 한다. 주파수 영역에서 중간 참조 시스템(국세청)대역 통과 필터를 사용 하 여 모델링됩니다. 이 프로세스는 핸드셋의 전기 및 음향 구성 요소의 영향을 고려합니다. 참조 및 저하 된 신호 국세청 필터링 됩니다.
시험 중인 시스템은 가변 지연을 포함할 수 있다. 참조 신호와 저하된 신호를 비교하기 위해 두 신호는 서로 시간 정렬됩니다. 음성 프레임의 겹치는 부분을 정렬합니다. 첫 번째 단계에서 지연 추정은 파일 간의 상관 관계를 계산하여 파일 길이에 걸쳐 수행됩니다. 이 단계에서 얻은 지연을 원유 지연이라고합니다. 다음 단계에서는 음성 활동 감지를 신호에 적용하여 일반적으로 발화라고 하는 필수 음성 세그먼트를 식별합니다. 발화 사이의 지연 추정치는 미세 지연입니다. 이 프로세스는 패킷 기반 네트워크에서 중요 할 수 있으므로 발화 길이에 걸쳐 가변적 인 지연을 감지합니다.
시간 정렬 기준 및 저하된 신호는 50%겹치는 32 밀리 프레임 이상의 해닝 윈도우와 함께 단기 고속 푸리에 변환을 사용하여 주파수 영역으로 변환된다. 원본 및 저하 된 신호의 힘은 별도로 계산되고 저장됩니다. 다음 작업 단계에서는 주파수 대역을 비닝하여 껍질 스케일로 변환합니다. 이 프로세스는 주파수 스케일을 피치 스케일로 휘게하며 결과 신호를 피치 파워 밀도라고합니다. 이 프로세스에서는 주파수 분석을 통해 파생된 고주파 신호에 더 높은 대역폭이 사용됩니다.
테스트 중인 시스템에서의 필터링 효과는 각 나무껍질통당 부분 보상 계수를 계산하고 기준 신호의 각 프레임에 이 계수를 곱함으로써 균등화된다. 이 프로세스는 저하 된 신호에 대한 참조를 균등화합니다. 보상 계수는 저하된 신호 스펙트럼과 참조 신호 스펙트럼의 비율로 계산됩니다. 이 요소는 전화 단말기와 같은 네트워크의 아날로그 구성 요소에서 필터링을 고려합니다. 이퀄라이제이션의 제 2 단계에서,시스템의 프레임별 진폭
게인을 추정하여 저하된 신호를 기준 신호로 이퀄라이제이션하는데 사용된다. 두 경우 모두 이퀄라이제이션은 부분적이며 많은 양의 필터링 또는 게인 변동이 취소되지 않으므로 오류가 측정됩니다. 주파수 및 이득 균등화 피치 파워 밀도는 츠위커의 법칙을 사용하여 음량 스케일로 변환됩니다. 결과 시간 주파수 구성 요소를 음량 밀도라고합니다.
참조에 대한 라우드니스 밀도와 저하된 신호 간의 부호화된 차이를 원시 교란 밀도라고 하며,이는 테스트 중인 시스템에 의해 도입된 모든 가청 차이를 나타낸다. 마스킹 작업은 큰 신호가있는 상태에서 작은 들리지 않는 왜곡을 마스크하는 원시 방해 밀도에 마스크 요소를 적용합니다. 이 공정에 의해 얻어진 교란 밀도를 절대 또는 대칭 교란 밀도라고합니다. 대칭 교란은 프레임 길이(프레임 내)에 걸쳐 통합됩니다. 임계값 이상의 프레임 방해가 있는 연속 프레임은 잘못된 프레임으로 분류됩니다. 잘못된 시간 지연 추정 또는 패킷 방울로 인해 잘못된 프레임이 발생할 수 있습니다. 잘못된 프레임 주변의 지역화 된 창에서 방해 밀도를 다시 계산하는 데 사용되는 새로운 지연 추정치가 만들어집니다. 이전 및 현재 교란의 최소값은 그 잘못된 프레임 윈도우에서 최종 교란으로 간주됩니다.
네트워크에서 사용되는 코덱에 의해 도입된 왜곡을 모델링하기 위해,비대칭 교란 밀도에 비대칭 인자를 곱하여 비대칭 교란 밀도를 계산한다. 비대칭 계수는 왜곡 된 비율과 1.2 의 거듭 제곱으로 제기 된 원래 피치 전력 밀도입니다. 이 교란 밀도를 첨가제 또는 비대칭 교란이라고합니다.
마지막으로,오류 파라미터는 평균 대칭 교란 값과 평균 비대칭 교란 값의 선형 조합 인 품질 평가 점수로 변환됩니다. 그림. 20.2,레벨 정렬에서 음량 규모에 휘게 하는 강도에 관련 된 단계 사이코 음향 도메인으로 변환으로 알려져 있습니다 및 지 각 뺄셈에서 알고리즘 단계 인지 모델링으로 알려져 있습니다.
페스큐는 862 쪽에 따라 페스큐 점수로 알려진 점수를 준다. 이 점수는 -0.5 에서 4.5 사이입니다. 0.94 에 의해 데이터베이스에서 수행 된 실험을 기반으로. 주관적(실제 청취자)점수와 비교하여 품질이 낮은 음성에 대해 더 나은 결과를 제공하고 양질의 음성에 대해 비관적 인 결과를 제공합니다. 2015 년 11 월 15 일-2015 년 11 월 15 일-2015 년 11 월 15 일 점수는 1 에서 4.5 사이입니다. 협 대역 품질 측정 점수와 청취 품질 목표 평균 의견 점수 간의 품질 매핑을 제공합니다. 권장 사항 862.2 는 광대역 품질 측정 점수와 청취 품질 목표 평균 의견 점수 간의 품질 매핑을 제공합니다. 이 점수에 대한 자세한 내용은 862 시리즈 권장 사항 및 참조에서 찾을 수 있습니다.
엔드 투 엔드 지연,에코,음량 손실,사이드 톤 및 청취 수준에서 정확하게 캡처하지 않는 반이중 작업입니다. 아날로그 인터페이스로 음성 품질 측정에서 다음과 같은 관측을 수행합니다. 이 문제를 해결하려면 다음 단계를 따르세요.이 문제를 해결하려면 다음 단계를 따르세요. 패킷 드롭 상황 및 전자 모델과의 비교에 대한 이러한 결과의 또 다른 해석은 아르 자형 인자 계산의 일부로 주어지며 표 20.4 에 제시되어있다. 계산 과정에서 몇 가지 다른 매개 변수를 계산할 수 있습니다. 계측기 공급 업체는 이러한 매개 변수를 추가 기능으로 제공합니다.
20.1.4

수동 모니터링 기술

수동 모니터링 기술은 기준 신호가 존재하지 않는다. 수동 음성 품질 모니터링을위한 두 가지 인기있는 방법이 있습니다. 2015 년 11 월 15 일(토)부터 2015 년 12 월 15 일(일)까지,2015 년 12 월 15 일(일)까지 세 가지 모델의 가장 좋은 매개 변수를 결합,스위스 스쿨과 옵티콤. 피.563 음성 생산 메커니즘을 사용하는 단일 종단 객관적 측정이며,다른 음성 모델은 인식을 듣고 사용합니다. 이 알고리즘은 수신 된 저하 된 음성에서만 작동합니다. 그것은 참조 연설을 필요로하지 않으며,그것은 완전히 저하 된 음성에서 작동합니다. 피 통해 측정.563 소음,인공 음성 및 실제 음성으로 분류 된 수신 된 음성으로부터 여러 매개 변수를 유도합니다. 563 단일 종단 음성 품질 평가 작업에 대한 개요가 여기에 나와 있습니다.
참조 신호가 없는 경우,모델은 원래 신호에 대한 지식이 없으며,수신된 신호에 대한 가정이 이루어져야 한다. 563 모델은 왜곡을 평가하기위한 세 가지 기본 원칙을 결합합니다. 첫 번째 원칙은 인간의 음성 생산 시스템에 초점을 맞추고,성대를 일련의 튜브로 모델링하며,튜브 섹션의 비정상적인 변형을 분해로 간주합니다. 두 번째 원리는 그 후 전체 참조 지 각 모델을 적용 하 고 재구성 하는 동안 마스크 왜곡을 평가 하기 위해 저하 된 신호에서 깨끗 한 참조 신호를 재구성 하는. 세 번째 원칙은 시간적 클리핑,로봇 화 및 노이즈와 같은 음성 채널에서 발생하는 특정 왜곡을 식별하고 추정하는 것입니다. 청취 음성 품질은 왜곡 의존 가중치를 적용,세 가지 원칙에서 계산 된 매개 변수에서 파생됩니다.
이 주제를 쓰는 동안,피 563 기반 기술은 측정을 위해 널리 받아 들여지지 않았다. 측정 및 전자 모델 기반 추정이 더 널리 받아 들여집니다. 이 기술의 가장 큰 장점은 참조를 요구하지 않고 성능이 저하 된 끝에서 모니터링 할 수 있다는 것입니다. 따라서 실험실 외부 및 배치에서 장거리 전화를 더 잘 모니터링 할 수 있으며 이는 다른 많은 측정보다 훨씬 간단하게 수행 할 수 있습니다. 또한 수신 게이트웨이의 일부인
으로도 포함될 수 있습니다. 563 작업은 펄스 코드 변조 음성 인터페이스에서 전달되는 샘플에서 사용할 수 있습니다.
피.563 기술에 대한 자세한 내용은 피.563 과에서 찾을 수 있습니다. 피에 의해 생성 된 모스 점수.도 563 및 다른 기술들은 널리 퍼져 있으며,다수의 결과에 대해 안정된 품질 메트릭을 달성하기 위해 다중 테스트의 결과를 평균화하는데 필요하다. 563 은 데이터베이스에서 수행 된 실험을 기반으로 주관적 모스와 0.85 에서 0.9 로 상관 관계가 있으며,페스큐는 0.94 로보고됩니다.

답글 남기기

이메일 주소는 공개되지 않습니다.