20.1
音声品質を比較し、音声品質に寄与するパラメータに到達するためには、音声品質がどのように測定され、品質目標は何であるかを知る必要があります。 VoIP音声測定の基本的なテスト設定は、トピック13に記載されています。 このトピックでは,平均オピニオンスコア(MOS)としての音声品質,様々な分類,音声品質影響パラメータ,および改善について論じた。 MOSの音声品質測定値は、主観的および客観的に分類されます。<1 5 8 0>いくつかの一般的な音声品質測定技法の機能的表現を図1 5に示す。 20.1 . 図では、音声は
表20.1からであることが示されています。 PSTNおよびVoIPの質の比較
属性 | Pstn | VoIP | |||
の歪み複数の | による歪みアナログ伝送がないことに起因する | の歪み | |||
アナログ回線 | VoIP通話による | からの1000フィートの回線の歪み。 | |||
DLCまたはCOの場所 | |||||
エコーキャンセル | 損失によって達成 | キャリアグレードのエコーキャンセラ | |||
国内通話では | 計画と低遅延 | が使用されます。 | |||
自動ゲイン | 組み込まれていない | 組み込むことが可能 | |||
制御 | スピーチのより良い知覚 | ||||
レベルまたはリスニングの質 | |||||
経験。 | |||||
GR-RTCP-XRやGR–909などの音声品質の監視は次のとおりです。 | |||||
監視 | 909が組み込まれています | 多くのVoIPに組み込まれています | |||
PSTN | 展開に入ります。 | ||||
帯域幅またはビット | 64kbpsデジタル固定 | 可変帯域幅、通常は | |||
DCMEチャンネル | |||||
PSTNよりも16、24、32、および | インターフェイスを使用します。 ファックス | ||||
40 kbps以上の通信速度を実現 | のサービスがさらに向上する可能性があります。 | ||||
品質 | 帯域幅または冗長性 | ||||
トランスミッション。 | |||||
Faxコール | によって制限されるパフォーマンスは、短い終了行を使用します。 したがって、fax | ||||
エンド伝送ライン | 配信は、より良い使用することができます | ||||
しかし、そこに可能性があります | |||||
のための相互運用性の問題である | |||||
ファックス送信。 | |||||
音声とデータ | 主に音声通話用、 | インターネットサービスとVoIPは次のことができます。 | |||
一部のサービスは、データと一緒に | スケールを再利用することがあります。 | ||||
データ用の音声チャンネル | メディアサービスの要件。 | ||||
音声通話機能 | 限定機能と | いくつかの機能が次のように提供されています | |||
サービスの特徴 | |||||
音声インターフェイス | 制限されたインターフェイス | 複数のインターフェイスとサービス。 | |||
長距離 | 長距離は高価です | 通常は無料またははるかに低いです | |||
料金. | |||||
トランスコーディング | 複数のレベルの | エンドツーエンドの直接コーディングを行うことができます | |||
インターのトランスコーディング- | に基づいて採用されています | ||||
地域電話 | 対応可能です。 | ||||
広帯域のサポート | 音声通話は | 広帯域のエンドツーエンドの音声通話は | の音声通話は | の音声通話は | の音声通話は |
ナローバンド | を超えることができる可能性があります | ||||
PSTNの質。 |
受信側ゲートウェイへの送信側ゲートウェイ。 受信ゲートウェイは、R因子推定、追加の品質メトリック、およびリアルタイム転送制御プロトコル拡張レポート(RTCP-XR)動作に使用されるEモデルの全体像を作成するためのいくつかの拡張されたブロックで示されています。 Eモデルでは、RTP、RTCP、ジッタバッファ、およびシステム全体の信号パラメータが使用されます。 R因子およびその他の導出パラメータを計算するとき、
図20.1。 人気のある音声品質測定の概要。
RTCP-XRは、内部アプリケーション、宛先ゲートウェイ、およびRTCP-XRサーバにパケットを送信できます。 要約すると、非侵入的R因子は、VoIP実装の一部として存在する客観的な推定であり、r因子推定のためにゲートウェイに追加のソフトウェアが必要です。 音声品質の知覚評価(PESQ)では、MultiDSLAのような機器は、テスト対象のVoIPシステムを介して参照音声を送信し、参照音声で劣化を評価します。 この測定はアクティブであり、VoIPゲートウェイは測定について何も知る必要はありません。 主観的なリスニングでは、複数のリスナーが音声品質を評価します。 P.563では、音声は受信した劣化信号で完全に解析され、元のリファレンスは必要ありません。 P.563は主観的なリスニングに似ていますが、楽器やプロセッサによって評価されます。 これらの技術のそれぞれは、音声品質の異なるスケールで到着します。 AとBの間のVoIP音声コールでは、音声測定は半二重として行われ、測定はAからBまたはBからAとして一度に1つずつ行われることを意味します。 半二重リスニングタイプのテストのため、これらの測定値はリスニング品質(LQ)テストと呼ばれます。 半二重テストの結果を提示しながら、接尾辞LQが追加され、客観的なテストは、さらにLQOとして”O”で接尾辞が付加されています。
20.1.1
主観的測定技術
主観的な音声品質評価では、音声品質MOSは実際の男性と女性のリスナーのグループによって評価されます。 これは、MOSを評価するための実際のリスニングテストです。 P.800およびP.830勧告は、speech
コーデックの主観的性能を評価するために使用されます。 同じテストはVoIPの声の質に拡張される。 人々のグループは、主観的なスコアを記録するために参加しています。 複数のテストフレーズが記録され、その後、被験者(人々のグループ)は、異なる条件でそれらに耳を傾けます。 これらのテストは背景雑音が付いている特別な部屋で行われ、他の環境要因はテスト実行のための制御の下で保たれる。 試験条件はで与えられる。 主観的な測定の技術は絶対部門の評価(ACR)、低下の部門の評価(DCR)および比較の部門の評価(CCR)として分類される。
I n ACR,参加者は、いくつかのテスト接続を介して処理された録音された音声サンプルを聞きます。 最低16人の被験者(リスナー)が評価に参加する必要があります。 聞くとき、ユーザーは1から5MOSのスケールの呼出しを評価する。 ユーザー評価の平均値は、全体的な通話品質を生成するために考慮されます。
DCRテストでは、2つの音声サンプルが存在します。 最初の音声サンプルは、事前定義された品質を持つ参照サンプルです。 ここでのサンプルは、持続時間が数秒間持続する音声を指します。 他の音声サンプルは劣化バージョンです。 リスナーは、劣化バージョンを1~5の劣化スケールの参照と比較する必要があります。 ここで、5は聞こえない劣化であり、1は最悪の劣化を表す。 結果は劣化したMOSとして要約される。
CCRテストでは、ユーザは、参照に対応するサンプルと劣化に対応するサンプルの2つのセットを聞くように求められます。 このテストは、リスナーに提示されるサンプルの順序が異なる反復で変更されることを除いて、DCRに似ています。 参照と劣化の順序はリスナーに宣言されません。 リスナーは、P.800Annex-Dに従って-3から3のスケールで最初のサンプルに対する第二のサンプルの比較評価を与えるように求められます。 結果を提示する際に、”3″ははるかに良い品質を表し、”-3″は相対的なスケールで最悪の品質を表します。 品質スコアはMOSにマッピングされます。 許可されるMOSの評価は1から5ですが、4.5を超えるユーザーの評価は4.5に制限されています。
主観的なテストは手順に関与しており、それは高価な努力です。 新しいアルゴリズムや音声コーデックを評価するための反復回数は少なくなります。 機器ベースの客観的なテストのように一貫性を維持することは困難です。
20.1.2
客観的な測定技術
客観的な方法は、測定と計算です。 結果は、いくつかの測定にわたって一貫していることが期待されます。 いくつかの客観的な方法が存在し、能動的方法と受動的方法に分類される。
•PESQ
のアクティブ監視技術*P.563およびE-model
アクティブ監視技術のパッシブ監視技術。 アクティブな測定は、外部信号の関与のために侵入監視またはオフライン監視と呼ばれます。
主観的なリスニングの質を補うために、より低コストの客観的方法によるテストが開発されています。 Kpnは、コーデックの性能を評価するためのp.861(現在は廃止されている)知覚音声品質測定(PSQM)を開発しました。 British Telecomは、ネットワーク測定用の知覚分析測定システム(PAM)を開発しました。 P.862PESQはITUの競争に起因した。 PAMの性能とPSQMの新しいバージョンであるPSQM99は似ていたので、貢献者はアルゴリズムを組み合わせるよう招待されました。 これは、その成分よりもわずかに優れているPESQをもたらしました。
これらの方法は、電話インタフェース上でシステムに送信された元の参照ファイルと、別の電話インタフェース上で受信された障害信号とを比較することにより、伝送システムおよびコーデックによって導入される歪みを測定する。 PSQMは、音声コーデックの実験室試験のために開発されました。 PAMSとPESQはネットワークテスト用に設計されています。 音声品質のための楽器の使用は、主観的または受動的な測定と比較してはるかに簡単です。 機器サプライヤーは、測定を通じて劣化の原因を特定するのに役立つ余分な派生パラメータも提供しています。 さまざまな機能の詳細については、トピック13に記載されているいくつかの機器を参照してくださ
このトピックを書いている間、PESQは楽器で一般的にサポートされていました。 PESQは2001年にITUによってP.862勧告として承認され、Pに代わってP.862勧告が採択された。861PSQM. PESQは、PAMSとPSQMのいくつかの最高のメリットを組み合わせました。 それは主観的なテストスコアの予測で正確であり、可変的な遅れのような厳しいネットワークの条件の下で強く、アナログインターフェイスでろ過し、広 PESQは、-0.5から4.5までのスケールにあるスコアを生成します。 P.862PESQスコアから平均主観P.800-LQ MOSスコアへのマッピング機能が提供され、狭帯域音声用の
PESQ–LQOになりました。 LQOは、リスニング品質の目標を示します。 PESQ-LQは1から4.5まであります。 4のMOS。5は明確な歪みのない状態のために達成される最高の質である。 ここでは、PESQアルゴリズムの概要を示します。 詳細については、ITU P.862ファミリの推奨事項、ソフトウェア、およびいくつかの商用機器パンフレットを参照することをお勧めします。
20.1.3
PESQ測定
人間の聴覚は、PESQとその前身のPAMSとPSQMの背後にあるコアコンセプトです。 知覚モデルは、可聴歪みと聞こえない歪みを正しく区別するために使用され、これは複雑な歪みの可聴性と不快感を正確に予測する最良の方法であ 歪みの量に加えて、可聴歪みの分布は、品質予測をはるかに正確にすることができます。
PESQは、測定の半二重動作を意味する一方向の音声品質を測定します。 これは、元の歪みのない信号と比較することによって、ネットワーク上で符号化され、送信された歪んだ音声信号の品質を評価します。 元の歪んだ音声は、人間が音声を経験する方法に一致する心理物理学的表現にマッピングされます。
歪んだ音声の質は、心理物理学的表現の違いに基づいて判断される。 PESQ演算は、対数演算の二つの主要なクラスを使用しています—すなわち、心理音響ドメインと認知モデリングへの信号の変換。 PESQアルゴリズムの機能的表現を図1 0に示す。 20.2. PESQの測定のための器械の製造業者はPESQの測定に加えて信号の分析の変数および減損を得るために複数の余分操作を含んでいる。
図20.2. PESQアルゴリズムの関数表現。
PESQアルゴリズムによって実行される処理には、以下の段階が含まれます。 PESQに関するいくつかの詳細は以下に記載されています。
処理の最初のステップでは、基準信号と劣化信号の両方が同じ一定の電力レベルにスケーリングされます。 このスケーリングが必要なのは、基準信号が定義されたレベルである必要がなく、テスト前にテスト対象システムのゲインが不明であるためです。 PESQは、主観的なリスニングレベルが耳の基準点で一定の79dBSPLであると仮定します。 電力正規化のために、電気信号レベルは、−2 6DBOV(すなわち、基準で与えられるように−2 0DBM)に正規化される。 信号レベルの正規化は、基準信号と劣化信号の両方に適用され、それらをこのレベルにします。
PESQのような知覚モデルは、主観的なリスニングが電話端末を使用する可能性があるため、電話端末の特性を考慮する必要があります。 PESQでは、ハンドセットの受信パスは、周波数領域の中間基準システム(IRS)バンドパスフィルタを使用してモデル化されます。 このプロセスは、受話器の電気的および音響的構成要素の影響を考慮に入れます。 リファレンス信号と劣化信号の両方がIRSフィルタリングされます。
テスト対象のシステムには可変遅延が含まれている可能性があります。 基準信号と劣化信号を比較するために、両方の信号は互いに時間的に整列されます。 PESQは、音声フレームの重複するセクションを整列させます。 最初の段階では、ファイル間の相関を計算することによって、ファイルの長さにわたって遅延推定が実行されます。 この段階で得られる遅延は粗遅延と呼ばれます。 次の段階では、PESQは、通常、発話と呼ばれる必要な音声セグメントを識別するために、信号に音声活動検出を適用する。 発話間の遅延推定値は、細かい遅延です。 このプロセスは、パケットベースのネットワークで重要である可能性があるため、発話の長さにわたって可変である遅延を検出します。
時間整合参照信号と劣化信号は、50%のオーバーラップを持つ32msフレーム上のハニングウィンドウを持つ短期高速フーリエ変換(FFT)を使用して周波数領域に変換されます。 元の信号と劣化した信号のパワーは別々に計算され、保存されます。 操作の次の段階では、周波数帯域はFFTバンドをビニングすることによって樹皮スケールに変換されます。 このプロセスは、Hz単位の周波数スケールをピッチスケールにワープし、結果として得られる信号をピッチパワー密度と呼びます。 このプロセスでは、周波数解析によって導出される高周波信号には、より高い帯域幅が使用されます。
被試験システムのフィルタリング効果は、各bark binごとに部分補償係数を計算し、基準信号の各フレームにこの係数を乗算することによって等化され このプロセスは、劣化した信号への基準を等化します。 補償係数は、劣化した信号スペクトルと基準信号スペクトルの比として計算されます。 この要因は、電話端末などのネットワークのアナログ構成要素でのフィルタリングを考慮に入れます。 イコライゼーションの第二段階では、システムのフレームごとの振幅
ゲインが推定され、劣化信号を基準信号にイコライゼーションするために使用され どちらの場合も、イコライゼーションは部分的なものであり、大量のフィルタリングやゲイン変動はキャンセルされないため、誤差が測定されます。 周波数とゲイン等化されたピッチパワー密度は、Zwickerの法則を使用してラウドネススケールに変換されます。 結果として得られる時間-周波数成分は、ラウドネス密度と呼ばれます。
基準信号のラウドネス密度と劣化信号の符号付き差は生の外乱密度として知られており、これは試験中のシステムによって導入された可聴差を示 マスキング操作は、大きな信号の存在下で小さな聞こえない歪みをマスクする生の外乱密度にマスク係数を適用します。 この過程によって得られる外乱密度は、絶対外乱密度または対称外乱密度と呼ばれる。 対称外乱は、フレームの長さ(フレーム内)にわたって積分される。 フレーム外乱がしきい値を超える連続フレームは、不良フレームとして分類されます。 不良フレームは、誤った時間遅延推定またはパケットドロップのために発生する可能性があります。 不良フレームの周りの局所化された窓上で,外乱密度を再計算するために使用される新しい遅延推定を行った。 前の外乱と現在の外乱の最小値は、その悪いフレームウィンドウ内の最終的な外乱とみなされます。
ネットワークで使用されるコーデックによって導入される歪みをモデル化するために、対称外乱密度に非対称係数を乗じて非対称外乱密度を計算 非対称係数は、歪みと元のピッチパワー密度の比を1.2のべき乗に上げたものです。 この外乱密度は、加法的または非対称的な外乱と呼ばれます。
最後に、誤差パラメータは、平均対称外乱値と平均非対称外乱値の線形結合である品質スコアに変換されます。 図から。 20.図2に示すように、レベルアライメントからラウドネススケールの強度ワープまでの段階は心理音響ドメインへの変換として知られており、知覚減算からPESQスコア計算までのアルゴリズム段階は認知モデリングとして知られている。
PESQはP.862に従ってPESQスコアとして知られているスコアを与えます。 PESQスコアは-0.5から4.5の範囲にあります。 PESQは、によってデータベース上で行われた実験に基づいて0.94として主観的なMOSに相関しています。 主観的(実際のリスナー)スコアと比較して、PESQは質の悪い音声に対してはより良い結果をもたらし、質の良い音声に対しては悲観的な結果をもたらす。 PESQ-LQは、リスニング品質スケールでPESQよりも主観的なスコアとのより良い相関を提供します。 PESQ-LQスコアは1から4.5の範囲にあります。 P862.1は、狭帯域品質測定PESQスコアとリスニング品質客観平均オピニオンスコア(MOS-LQO)との間の品質マッピングを提供します。 勧告P.862.2は、広帯域品質測定PESQスコアとリスニング品質客観平均オピニオンスコアとの間の品質マッピングを提供します。 これらのスコアの詳細は、ITU-T-P.862シリーズの推奨事項および参考文献に記載されています。
PESQは、エンドツーエンドの遅延、エコー、ラウドネス損失、サイドトーン、およびリスニングレベルで正確にキャプチャされない半二重操作です。 アナログインターフェイスを備えたVoIPゲートウェイの音声品質測定から、DSLAを使用して以下のPESQ-LQO観測が行われます。 パケット損失がない状態では、G.711コーデックのPESQ-LQOスコアは4.32、G.729Aは3.85、G.723.1は3.75です。 パケットドロップ状況に対するこれらの結果の別の解釈とEモデルとの比較は、R因子計算の一部として与えられ、表20.4に示されています。 PESQ計算の過程で、他のいくつかのパラメータを計算することができます。 器械の製造者はPESQの測定に付加的な特徴としてこれらの変数を提供する。
20.1.4
パッシブモニタリングテクニック
I nパッシブモニタリングテクニックでは、基準信号は存在しません。 受動的な音声品質監視のための2つの一般的な方法が存在する。 ITUは、Psytechnics Ltd.の三社の協力の結果に基づいて、信号ベースの非侵入監視方法P.563を標準化しました。、Swissqual、および三つの異なるモデルの最良のパラメータを組み合わせたOpticom、。 P.563は、音声生成メカニズムを利用するシングルエンドの客観的な測定であり、他の音声モデルは、リスニング知覚を利用しています。 このアルゴリズムは、受信した劣化した音声のみで動作します。 これは、参照音声を必要とせず、それは完全に劣化した音声で動作します。 Pを介して測定します。563ノイズ、人工音声、および実際の音声として分類された受信音声からいくつかのパラメータを導出する。 ここでは、p.563シングルエンド音声品質評価操作の概要を示します。
基準信号が存在しない場合、モデルは元の信号についての知識を持たず、受信信号について仮定する必要があります。 P.563モデルは、歪みを評価するための三つの基本原則を組み合わせたものです。 第一の原則は、人間の声の生産システムに焦点を当て、声道を一連の管としてモデル化し、管のセクションの異常な変化を劣化と考えている。 第二の原理は,その後完全基準知覚モデルを適用し,再構成中にマスクされていない歪みを評価するために,劣化した信号からきれいな基準信号を再構成することである。 第三の原則は、時間的なクリッピング、ロボット化、ノイズなど、音声チャネルで発生する特定の歪みを特定し、推定することです。 リスニング音声品質は、歪みに依存する重み付けを適用して、三原則から計算されたパラメータから導出されます。
このトピックを書いている間、P.563ベースの技術は測定に広く受け入れられていませんでした。 P.862PESQベースの測定とEモデルベースの推定は、より一般的に受け入れられています。 このP.563技術の主な利点は、参照を要求せずに劣化した端で監視できることです。 これにより、実験室外や展開中の長距離通話をより適切に監視でき、他の多くの測定よりもはるかに簡単に実施できます。 P.563ベースの方式は、E-modelやRTCP-XRと同様に、受信ゲートウェイの
の一部として組み込むこともできます。 P.563操作は、pulse code modulation(PCM)音声インターフェイスで配信されるサンプルで使用できます。
P.563技術の詳細については、P.563およびから見つけることができます。 Pによって生成されたMOSスコア。563およびその他の技術は広く普及しており、複数の結果にわたって安定した品質指標を達成するためには、複数のテストの結果を平均化する必要が P.563は、データベースで行われた実験に基づいて0.85から0.9として主観的なMOSと相関し、PESQは0.94として報告されています。