AI は人間の知覚を利用して、雑音の多い音声を取り除くことができます

AI は人間の知覚を利用して、雑音の多い音声を取り除くことができます

研究者たちは、以前はあまり活用されていなかった手段である人間の知覚を活用して、実世界のシナリオで音声品質を大幅に向上させることを約束する新しい深層学習モデルを開発しました。

研究者たちは、人々が行った音質の主観的な評価を利用し、それを音声強調モデルと組み合わせることで、客観的な指標によって測定されるよりも優れた音声品質に導くことができることを発見しました。

新しいモデルは、雑音の存在を最小限に抑える点で他の標準的なアプローチを凌駕しました。ノイズは、聞き手が実際に聞きたい内容を妨げる可能性のある不要な音です。最も重要なのは、モデルが生成する予測品質スコアが、人間が行う判断と強く相関していたということです。

従来の背景雑音を制限する手段は、AIアルゴリズムを使用して望ましい信号から雑音を抽出するものでした。しかし、これらの客観的な手法は、聴衆が音声を理解しやすくする要因についての評価と必ずしも一致しないことがあります。オハイオ州立大学のコンピュータサイエンスおよびエンジニアリングの准教授であるDonald Williamsonは、この研究の共著者であり、「この研究を他と区別するのは、我々がモデルを訓練して望ましくない音を取り除くために知覚を使用しようとしていることです」と述べています。「信号に関する何かが人々によって品質として知覚されるならば、当社のモデルはそれを追加情報として利用して学習し、雑音をより効果的に取り除くことができます。」

この研究は、IEEE/ACM Transactions on Audio, Speech, and Language Processing誌に掲載され、モノーラル音声強調、つまり単一のオーディオチャンネルから発せられる音声(例:1つのマイクからの音声)の向上に焦点を当てました。

この研究では、新しいモデルを以前の研究で得られた2つのデータセットにトレーニングしました。これらのデータセットには、人々の会話の録音が含まれており、TVや音楽などのバックグラウンドノイズが会話を覆い隠す可能性がありました。リスナーは各録音の音声品質を1から100のスケールで評価しました。

このチームのモデルは、専門の音声強調言語モジュールと、人間のリスナーがノイジーな信号にどのような意見スコアを付けるかを予測できる予測モデルを組み合わせた共同学習手法から印象的なパフォーマンスを発揮します。

結果は、この新しいアプローチが客観的な指標(知覚品質、理解可能性、人間の評価など)によって測定されるよりも優れた音声品質に導くことを示しました。

しかし、音質の人間の知覚を使用することには独自の問題があります。ウィリアムソンは、「ノイジーな音声を評価するのが難しいのは、非常に主観的だからです。それは聴力の能力や聴覚の経験に依存します」と述べています。彼はまた、補聴器や人工内耳などの要因が、通常の人が自分の音環境からどれだけ知覚するかにも影響を与えると述べました。

ノイジーな音声の品質向上は、補聴器、音声認識プログラム、スピーカー認証アプリケーション、ハンズフリーコミュニケーションシステムの向上に不可欠です。したがって、これらの知覚の違いが小さくなり、ユーザーフレンドリーさを損なわないようにすることが重要です。

人工知能と実世界との複雑な関係が進化し続ける中、ウィリアムソンは、画像の拡張現実デバイスと同様に、将来の技術がリアルタイムでオーディオを拡張し、音環境の一部を追加または削除して消費者の全体的な聴覚体験を向上させる可能性があると想像しています。

これに到達するために、研究者は人間の主観的評価を続けて、モデルがより複雑なオーディオシステムを処理し、人間のユーザーの期待に常に適応し続けるようにサポートする計画です。

この研究の共著者には、Indiana UniversityのKhandokar Md. Nayem氏も含まれています。

著者
Tatyana Woodall
Ohio State News
woodall.52@osu.edu

リンク先はOSU.EDUというサイトの記事になります。(原文:英語)
Back to blog

Leave a comment