新しい AI ノイズキャンセリングヘッドフォンテクノロジーにより、着用者は聞こえる音を選択できるようになります

新しい AI ノイズキャンセリングヘッドフォンテクノロジーにより、着用者は聞こえる音を選択できるようになります

日付:2023年11月9日
出典:ワシントン大学

要約
研究者らは、ユーザーがヘッドホンから聞こえる音をリアルタイムで選択できるディープラーニング・アルゴリズムを開発した。

音声コマンドまたはスマートホンのアプリを通じて、ヘッドホン装着者は、サイレン、赤ん坊の泣き声、スピーチ、掃除機、鳥のさえずりなど20種類の音の中から、どの音を取り入れるかを選択することができる。

記事全文
ノイズキャンセリングヘッドホンを使ったことのある人なら、適切なタイミングで適切なノイズを聞くことが重要であることを知っている。

室内で仕事をしているときは車のクラクションを消したいと思うかもしれないが、人通りの多い道を歩いているときは消したくないだろう。

しかし、ヘッドホンがどのような音をキャンセルするかは選べない。

今回、ワシントン大学の研究者が率いるチームは、ユーザーがリアルタイムでヘッドホンから聞こえる音を選べるようにするディープラーニング・アルゴリズムを開発した。

研究チームはこのシステムを "セマンティック・ヒアリング "と呼んでいる。

ヘッドホンは、取り込んだ音声を接続されたスマートホンにストリーミングし、スマートホンはすべての環境音をキャンセルする。

ヘッドホンを装着している人は、音声コマンドかスマートホンのアプリを使って、サイレン、赤ちゃんの泣き声、話し声、掃除機、鳥のさえずりなど、20種類の中から好きな音を選ぶことができる。

選択された音だけがヘッドホンから再生される。

研究チームは11月1日、サンフランシスコで開催されたUIST'23で研究成果を発表した。

将来的には、このシステムの商用版をリリースする予定である。

「鳥の鳴き声を理解し、環境中の他のすべての音からその鳴き声を抽出するには、現在のノイズキャンセリングヘッドホンでは実現できないリアルタイムのインテリジェンスが必要です。」と、上級著者のShyam Gollakota氏(カリフォルニア大学ポール・G・アレン・スクール・オブ・コンピューター・サイエンス&エンジニアリング教授)は言う。

「課題は、ヘッドホンを装着している人が聞く音は、視覚と同期している必要があるということです。誰かに話しかけられてから2秒後にその人の声を聞くことはできない。つまり、ニューラル・アルゴリズムは100分の1秒以内に音を処理しなければならないのです。」

この時間的制約のため、セマンティック聴覚システムは、より堅牢なクラウドサーバーではなく、接続されたスマートホンなどのデバイス上で音を処理しなければならない。

さらに、異なる方向からの音が異なる時間に人々の耳に届くため、システムはこれらの遅延やその他の空間的な手がかりを保持しなければならない。

オフィス、道路、公園などの環境でテストしたところ、システムはサイレン、鳥のさえずり、アラーム、その他のターゲット音を抽出することができた。

22人の参加者が、対象音に対するシステムの音声出力を評価したところ、平均して元の録音に比べて品質が向上したと回答した。

場合によっては、システムは、声楽や人間の話し声のような多くの特性を共有する音を区別するのに苦労した。

研究者らは、より多くの実世界のデータでモデルを訓練することで、これらの結果が改善される可能性があると指摘している。

この論文のその他の共著者は、アレンスクールの博士課程学生であるBandhav Veluri氏とMalek Itani氏、アレンスクールの博士課程学生としてこの研究を修了し、現在はカーネギーメロン大学に在籍するJustin Chan氏、AssemblyAIの研究ディレクターである吉岡卓也氏である。

記事元
資料提供:ワシントン大学。原文はStefan Milne。注:内容はスタイルや長さのために編集されている場合があります。

リンク先はScience Dailyというサイトの記事になります。(原文:英語)
Back to blog

Leave a comment