カクテルパーティーの難題を解明：人混みの中で聞き取るには音の位置が鍵となる

2026年3月16日

このモデルは、脳が特定の聴覚的特徴に「乗法的なゲイン」を適用することで選択的注意を実現し、騒がしい背景から目的の音声を際立たせる仕組みを示している。出典：ニューロサイエンスニュース

要約

神経科学者たちは何十年にもわたり、騒がしい部屋の中で人間がどのようにして特定の会話だけを聞き分けることができるのか、つまり「カクテルパーティー問題」と呼ばれる現象について疑問を抱いてきた。そしてついに、神経科学者たちはその現象を計算論的に説明することに成功した。

ある研究で、研究者たちは改良されたニューラルネットワークを用いて、単純な「乗法ゲイン」（ターゲットの音高や位置に同調するニューロンを増幅する）だけで選択的注意を説明できることを示した。このモデルは音を識別するだけでなく、人間のミスや空間的な癖を模倣し、特定の音声特徴に対する脳の「音量調節ノブ」が集中力の鍵であることを証明している。

主な事実

乗法的なゲイン：声に意識を集中すると、その声の特定の特性（音高など）に同調したニューロンの活動が拡大し、信号が効果的に「乗算」されます。
特徴キュー：このモデルは、音声の短い「キュー」を使用して、どの神経ユニットをブーストするかを決定します。音声が低音の場合、低音を表すユニットは大きくゲインされ、高音を表すユニットは減衰されます。
水平方向と垂直方向の分離： MITの研究チームは、人間もモデルも、音声が垂直方向（上下）に分離されている場合よりも、水平方向（左右）に分離されている場合の方が、音声を分離する能力がはるかに高いことを発見した。
予測エラー：このモデルは、同性の2つの声（似たような音程）を区別するのに苦労するなど、人間の行動を完全に反映しています。
将来的な応用：この研究は人工内耳に革命をもたらし、混雑した環境下でユーザーが周囲の騒音をより効果的に遮断できるようになる可能性がある。

出典： MIT

MITの神経科学者たちは、脳が多数の声が入り混じる騒音の中から、どのようにして一つの声に集中できるのかを解明し、カクテルパーティー問題として知られる長年の神経科学現象に光を当てた。

このような注意集中力は、カクテルパーティーのように多くの会話が同時に行われているような混雑した環境にいるときに必要になります。周囲の様々な声が聞こえていても、脳は不思議なことに、話している相手の声を聞き取ることができるのです。

MITの研究チームは、聴覚系の計算モデルを用いて、対象となる音声の音高などの特徴に反応する神経処理ユニットの活動を増幅することで、その音声を注意の最前線に押し上げることができることを発見した。

「この単純なモチーフだけで、人間の聴覚的注意の表現型の多くが現れるのに十分であり、このモデルは最終的に、音に対する人間の非常に幅広い注意行動を再現することになる」と、MITの脳認知科学教授であり、MITのマクガバン脳研究所および脳・心・機械センターのメンバーであり、この研究の筆頭著者であるジョシュ・マクダーモットは述べている。

今回の研究結果は、人や動物が特定の聴覚入力に集中すると、対象刺激の特徴に反応する聴覚皮質のニューロンの活動が増幅されることを示す先行研究と一致している。脳がカクテルパーティー問題を解決する仕組みを説明するには、この活動の増幅だけで十分であることを示したのは、今回が初めてである。

ハーバード大学の音声聴覚生物科学技術プログラムの大学院生で、マクダーモット教授の指導を受けているイアン・グリフィス氏が、この論文の筆頭著者である。MITの大学院生であるR・プレストン・ヘス氏もこの論文の著者であり、論文は本日、 Nature Human Behavior誌に掲載された。

注意のモデリング

神経科学者たちは、選択的注意という現象を何十年にもわたって研究してきた。人間や動物を対象とした多くの研究で、人の声のような特定の刺激に意識を集中させると、その声の特徴（例えば、高い音程）に反応するニューロンの活動が増幅されることが示されている。

この増幅が起こると、ニューロンの発火率は、まるで1より大きい数を掛けたかのように増加します。この「乗法的なゲイン」によって、脳は特定の刺激に注意を集中させることができると考えられています。標的となる特徴に反応しないニューロンは、それに応じて活動が低下します。

「注意の対象となる特徴に反応するニューロンの応答は拡大される」とグリフィス氏は述べている。「こうした効果は古くから知られていたが、音声に注意を向けたり、特定の物体に選択的に注意を向けたりする際に何が起こるのかを、この効果だけで説明できるのかどうかは不明だった。」

この疑問は未解決のままである。なぜなら、知覚の計算モデルは、多数の声の中から特定の声を選び出すといった注意を要するタスクを実行できていないからである。こうしたモデルは、識別すべき明確な目標音が存在する場合には聴覚タスクを容易に実行できるが、他の刺激が注意を奪い合っている場合には、それらのタスクを実行できない。

「私たちの開発したモデルはどれも、人間が持つような、特定の物体や音を手がかりにして、それに基づいて反応する能力を備えていませんでした。それが大きな制約でした」とマクダーモット氏は語る。

この研究において、MITの研究チームは、人間の脳に見られるような神経活動の増強をモデルに起こさせることで、そうした種類のタスクを実行できるようにモデルを訓練できるかどうかを検証しようとした。

そのため、彼らはまず、自身や他の研究者が聴覚のモデリングに用いてきたニューラルネットワークをベースに、各段階で乗法的なゲインを適用できるようにモデルを改良した。このアーキテクチャでは、音高など、モデル内の処理ユニットが表す特定の特性に応じて、各ユニットの活性化レベルを増減させることができる。

モデルを訓練するために、研究者たちは各試行においてまず「手がかり」となる音声クリップ（モデルに注意を向けさせたい音声）を入力した。そして、その手がかりによって生成されたニューロンの活性化に基づいて、モデルが次の刺激を聞いた際に適用される乗法的なゲインが決定された。

「例えば、低音域の音声の一部を合図として使うとします。すると、モデル内で低音域を表すユニットは大きなゲインで増幅され、高音域を表すユニットは減衰されます」とグリフィス氏は述べている。

次に、モデルには、ターゲット音声を含む複数の音声が混ざった音声クリップが与えられ、ターゲット音声が発した2番目の単語を識別するように求められた。この音声混合に対するモデルの活性化は、前のキュー刺激によって得られたゲインで乗算された。これにより、モデル内でターゲット音声が「増幅」されることが予想されたが、この効果が人間のような注意行動を生み出すのに十分かどうかは明らかではなかった。

研究者たちは、さまざまな条件下で、このモデルが人間と非常によく似た動作を示し、人間が犯すような間違いを犯す傾向があることを発見した。例えば、人間と同様に、音程が似ている可能性が高い2人の男性の声、あるいは2人の女性の声のうちの1つに焦点を当てようとした際に、時折間違いを犯した。

「私たちは、人々がかなり幅広い条件下でどれだけうまく声を選択できるかを測定する実験を行いましたが、このモデルは行動パターンをかなり正確に再現しています」とグリフィス氏は述べています。

場所の影響

これまでの研究では、音の高さに加えて、空間的な位置も、人々が特定の声や音に集中する上で重要な要素であることが示されている。MITの研究チームは、このモデルが注意の選択に空間的な位置を利用することも学習しており、目標とする声が妨害となる声とは異なる位置にある場合に、より良いパフォーマンスを発揮することを発見した。

研究者たちはその後、このモデルを用いて人間の空間的注意の新たな特性を発見した。計算モデルを用いることで、研究者たちは標的の位置と妨害刺激の位置のあらゆる組み合わせを検証することができた。これは、人間を被験者として行うには膨大な時間を要する作業である。

「このモデルを使えば、多数の条件をスクリーニングして興味深いパターンを探し出すことができます。そして、何か興味深いものが見つかったら、人間を対象とした実験を行うことができます」とマクダーモット氏は述べています。

これらの実験により、目標音と妨害音が水平面上で異なる位置にある場合、モデルは目標音を正しく選択する能力が格段に向上することが明らかになった。一方、音が垂直方向に分離されている場合は、この課題ははるかに困難になった。研究者らが人間を対象に同様の実験を行ったところ、同じ結果が得られた。

「これは、モデルを新たな発見のためのエンジンとして活用できた一例にすぎません。このようなモデルの応用例としては、非常に興味深いものだと思います」とマクダーモット氏は述べています。

研究者たちが取り組んでいるもう一つの応用例は、この種のモデルを用いて人工内耳を通して音を聞く様子をシミュレーションすることです。彼らは、これらの研究が人工内耳の改良につながり、人工内耳を装着した人々が騒がしい環境でもより効果的に注意を集中できるようになることを期待しています。

資金提供：本研究は米国国立衛生研究所（NIH）の資金提供を受けて実施されました。

主な質問への回答：

質問：なぜ、みんなが同時に話していると、特定の人の声が聞き取りにくいのでしょうか？
A：脳は常に「信号対雑音比」の戦いを繰り広げています。耳に入ってくるあらゆる声が、同じ神経処理ユニットを奪い合っているのです。選択的注意がなければ、脳は周囲の雑音を友人の声と同じ重要度で処理してしまいます。この研究によると、友人の声が「聞こえる」のは、脳が文字通り友人の信号を増幅し、他のすべての音の「ゲイン」を下げているからなのです。

Q：誰かの話を無視する「無関心」という現象は、実際に脳内で起こるのでしょうか？
A：はい。MITのモデルによると、聞きたい人の声を表すニューロンの活動が増加する一方で、「邪魔な」声を表すニューロンの活動は減少することが確認されています。つまり、特定の人の声がよく聞こえるだけでなく、他の声も積極的に抑制しているのです。

質問：なぜ、人が私の左や右に移動すると、声が聞き取りやすくなるのでしょうか？
A：この研究では「水平方向の優位性」が明らかになりました。私たちの脳（およびモデル）は、音が左右の耳に届く時間差を利用して声を分離するように高度に最適化されています。垂直方向の分離ははるかに効率が悪く、これはおそらく、進化の過程で、上空や下空からよりも地上の脅威や声を追跡する必要があったためでしょう。

編集者注：

この記事は、ニューロサイエンス・ニュースの編集者によって編集されました。
掲載論文を全文査読した。
スタッフが補足情報を追加しました。

この聴覚神経科学研究ニュースについて

著者：サラ・マクドネル
出典：MIT
連絡先：サラ・マクドネル（MIT）
画像：画像はNeuroscience Newsより引用

オリジナル研究：オープンアクセス。
「最適化された特徴ゲインは、人間の選択的聴取の成功と失敗を説明し予測する」イアン・M・グリフィス、R・プレストン・ヘス、ジョシュ・H・マクダーモット著。Nature Human Behavior
DOI:10.1038/s41562-026-02414-7

リンク先はNeuroscienceというサイトの記事になります。（原文：英語）

ブログに戻る

カートにアイテムが追加されました

カクテルパーティーの難題を解明：人混みの中で聞き取るには音の位置が鍵となる

コメントを残す