AIヘッドフォンは、あなたが誰と話しているのかを自動的に学習し、聞き取りやすくします

AIヘッドフォンは、あなたが誰と話しているのかを自動的に学習し、聞き取りやすくします

2025年12月9日
ウィリアム・プア
UWニュース

会話する人々

更新(2025年12月12日):この記事は、マレク・イタニの所属部署を訂正するために更新されました。

混雑した部屋で会話をすると、しばしば「カクテルパーティー問題」と呼ばれる、雑音の中から会話相手の声を聞き分けるのが難しいというフラストレーションに悩まされます。これは精神的に負担の大きい状況であり、聴覚障害によってさらに悪化する可能性があります。 

このよくある難問を解決するため、ワシントン大学の研究者たちは、騒がしい音環境下でも装着者の会話相手を積極的に遮断するスマートヘッドホンを開発しました。このヘッドホンは、会話のリズムを検知するAIモデルと、そのリズムに合わない声やその他の不要な背景ノイズをミュートする別のモデルを搭載しています。このプロトタイプは市販のハードウェアを使用し、わずか2~4秒の音声で会話相手を識別できます。

システムの開発者たちは、この技術によって将来、補聴器やイヤホン、スマートグラスのユーザーが、AIの「注意」を手動で誘導することなく、サウンドスケープをフィルタリングできるようになると考えている。

研究チームは11月7日、中国蘇州で開催された自然言語処理における経験的手法に関する会議でこの技術を発表しました。基盤となるコードはオープンソースで、ダウンロード可能です。

「装着者が誰の話を聞いているのかを特定する既存のアプローチは、主に脳に電極を埋め込んで注意を追跡するというものです」と、ワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部の教授で、論文の筆頭著者であるシャム・ゴラコタ氏は述べています。「特定のグループの人々と会話しているとき、私たちの話し方は自然にターンテイキングのリズムに従うという知見を得ました。そして、電極を埋め込むことなく、音声のみを使ってAIにそのリズムを予測・追跡するように訓練することができます。」

「プロアクティブ・ヒアリング・アシスタント」と呼ばれるこのプロトタイプシステムは、ヘッドフォンを装着した人が話し始めると起動します。すると、まずAIモデルが会話参加者を追跡し、「誰がいつ話したか」を分析し、会話の重複が少ない箇所を探します。そして、その結果を2つ目のモデルに転送し、2つ目のモデルが参加者を分離して、クリーンアップされた音声をヘッドフォン装着者に再生します。このシステムは、ユーザーに混乱を招かない程度の音声遅延を実現し、現在、ヘッドフォン装着者の音声に加えて、1人から4人の会話相手を同時に再生できます。

研究チームは11人の参加者を対象にヘッドフォンをテストし、AIフィルタリングの有無によるノイズ抑制や聞き取りやすさなどの品質を評価してもらいました。全体として、被験者はフィルタリングされた音声を基準値よりも2倍以上高く評価しました。 

片方のイヤーカップに黒い巻き毛のマイクがテープで固定されたヘッドフォン。

研究チームは市販のノイズキャンセリングヘッドホンとバイノーラルマイクを組み合わせて、ここに掲載されているプロトタイプを作成した。Hu et al./EMNLP

研究チームは市販のノイズキャンセリングヘッドホンとバイノーラルマイクを組み合わせて、ここに掲載されているプロトタイプを作成した。Hu et al./EMNLP


ゴラコタ氏のチームはここ数年、AI搭載の補聴器の実験を行ってきました。彼らは、装着者が視線を向けると群衆の中からその人の音声を拾い上げるスマートヘッドホンのプロトタイプや、装着者の一定距離内のすべての音をミュートして 「サウンドバブル」を作り出すプロトタイプを開発しました。

「これまで私たちが行ってきたことはすべて、ユーザーが特定のスピーカーや聞く距離を手動で選択する必要がありました。これはユーザーエクスペリエンスの観点から見てあまり良いものではありません」と、アレン・スクールの博士課程学生で筆頭著者のグイリン・フー氏は述べています。「私たちが実証したのは、プロアクティブ(先見的)な技術、つまり人間の意図を非侵襲的かつ自動的に推測する技術です。」

この体験を洗練させるには、まだ多くの作業が残されています。会話がダイナミックになるほど、参加者が互いに話し合ったり、独白が長くなったりするため、システムは苦戦する可能性があります。参加者が会話に参加したり退出したりすることも新たなハードルとなりますが、ゴラコタ氏は、現在のプロトタイプがこうした複雑なシナリオで非常に優れたパフォーマンスを発揮したことに驚きました。著者らはまた、モデルは英語、中国語、日本語の会話でテストされており、他の言語のリズムについてはさらなる微調整が必要になる可能性があると指摘しています。

現在のプロトタイプは、市販のオーバーイヤーヘッドホン、マイク、回路を使用しています。ゴラコタ氏は、最終的にはこのシステムをイヤホンや補聴器内の小型チップ上で動作できるほど小型化したいと考えています。MobiCom 2025で発表された同時進行の研究において、著者らは小型補聴器デバイス上でAIモデルを実行できることを実証しました。


共著者には、ワシントン大学アレンスクールの博士課程学生であるTuochao Chen 氏と、ワシントン大学電気・コンピュータ工学部の博士課程学生であるMalek Itani 氏が含まれています。 


この研究は、ムーア発明家フェロー プログラムによって資金提供されました。
詳細についてはproactivehearing@cs.washington.eduまでお問い合わせください。


リンク先はUniversity of WASHINGTONというサイトの記事になります。


 

ブログに戻る

コメントを残す