脳と脳の相互作用:聴覚注意の解読

脳と脳の相互作用:聴覚注意の解読

第13巻・第3号・2026年
ブランドン ・T・ポール博士

注意は、私たちが日々遭遇する膨大な量の感覚情報を取捨選択することを可能にする、不可欠な認知能力です。注意が音声コミュニケーションを支える重要な方法の一つは、「カクテルパーティーリスニング」[1]、つまり、他の人が背景で話している中で、一人の話し手に集中する能力です。正常な聴力を持つ人では、脳と耳が連携して、ほぼシームレスで自動的なプロセスでこれを実現します。難聴の場合、一人の話し手を区別する音響的特徴が知覚されにくくなるため、カクテルパーティーリスニングはより困難になります[2]。最新の補聴器プロセッサは背景雑音を抑制するのに優れていますが、補聴器ユーザーも人工内耳ユーザーと同様に、注意の課題に直面しています。その理由の一つは、注意の切り替えです。注意の焦点が変わると、かつて背景雑音の一部であった話し手が、目的の信号になります。信号プロセッサがこの要求を処理するために使用する単純なルールはありません[3]。神経科学の研究は役に立つでしょうか?

脳活動に基づいて音声信号処理を調整する聴覚デバイスである、ニューロステアード補聴器または人工内耳が登場しました[3]。ニューロステアード補聴器は、生物医学および脳コンピュータインターフェースの分野で活発に開発されている領域です。この記事では、脳波(EEG)の注意変調が補聴器プロセッサをどのように制御できるかについて説明します。EEGは、進行中の感覚および認知脳活動を反映した頭皮全体の電圧変動を記録します。数十年前から、EEGで記録された聴覚誘発電位は、注意を向けた刺激に対しては注意を向けなかった刺激よりも振幅が大きいことが知られており[4]、注意が神経表現を強化することを示唆しています。過去15年間のより新しい方法では、カクテルパーティーなどの現実的なリスニング状況での連続音声に対して同様の注意強化を示すことができます[5]。EEGのいくつかの連続音声処理方法は、音声信号の振幅の緩やかな変化である音声エンベロープへの脳の電気的活動の同期に依存しています(詳細については、以前の「脳と背中」を参照してください)。

 

聴覚注意のデコーディング

聴覚注意デコーディング(AAD)とは、脳波(EEG)などの生理学的データを用いて、人がどの話者の音声に注意を向けているかを推定するアルゴリズムのことです。例えば、聞き手が一方の話者の音声に注意を向け、もう一方の話者の音声を無視しなければならないという単純なシナリオを考えてみましょう(図1)。プロセッサ内部の信号解析ステップでは、複数の話者の音声を分離し(例えば、ビームフォーミングを使用)、さらにノイズ除去処理を適用することができます。デバイス上のEEG電極は脳活動を検知し、プロセッサはEEGを各音声信号と比較します。注意を向けている話者が特定されると、その話者の音声が強調され、他の信号は減衰されます。つまり、人の注意状態に基づいて、脳が補聴器を制御できるのです。

図1. シンプルなAADの図。補聴器または人工内耳のマイクは、複数の話者(オレンジと青、左側)の音声を拾います。プロセッサ(灰色のボックス)内部の信号処理ステップにより、話者が分離され、ノイズが除去されます。プロセッサまたはイヤホンのセンサーから記録されたEEG信号(マゼンタ)は、エンベロープ再構成などの線形手法、またはディープニューラルネットワークなどの非線形手法によって、音声信号と比較されます。注目する話者が特定されると、注目する音声は補聴器によって強調され、背景の話し声は抑制されます。音声エンベロープは、音声波形を囲む太線で示されています。


図1. シンプルなAADの図。補聴器または人工内耳のマイクは、複数の話者(オレンジと青、左側)の音声を拾います。プロセッサ(灰色のボックス)内部の信号処理ステップにより、話者が分離され、ノイズが除去されます。プロセッサまたはイヤホンのセンサーから記録されたEEG信号(マゼンタ)は、エンベロープ再構成などの線形手法、またはディープニューラルネットワークなどの非線形手法によって、音声信号と比較されます。注目する話者が特定されると、注目する音声は補聴器によって強調され、背景の話し声は抑制されます。音声エンベロープは、音声波形を囲む太線で示されています。

 

AADを構築するには、まずアルゴリズムが各人の脳活動の特異性と注意の向け方を学習する必要があります。このモデル学習ステップは非常に重要であり、上記で説明した基本的な2人の話者設定のように、複数の話者のうち1人に注意を向けるよう明示的に指示されるような、制御された教師あり学習で行われます[3]。アルゴリズムには正解データ(どの話者に注意が向けられているか)が与えられ、リスナーの注意の脳の特徴に最もよく一致するようにパラメータを調整できます。学習の目標は、正解データを事前に知らなくても、新しいリスニング状況で注意を向けられた話者を正確に識別できるように、アルゴリズムを「一般化」することです。ただし、将来のAADアルゴリズムはこのステップを省略する可能性があります。最近のAADアルゴリズムは、事前の学習なしに、教師なし学習でリスナーに「その場で」適応できます[6]。

AADを実行するためのアルゴリズムは多岐にわたります。より単純な線形手法は、脳活動を音声エンベロープと同期させることに依存しています。これらは、データの線形変換とモデル出力と実際の音声との間の線形相関を伴うため、「線形モデル」と呼ばれます[5]。具体的には、脳活動は複数の話者の音声エンベロープと部分的に一致しますが、前述のように、注目している話者との一致がより強くなります。AADアルゴリズムは、現在の脳活動に基づいて音声エンベロープを予測する線形モデルを作成します。これらの予測された音声エンベロープは、「再構築された」エンベロープとして知られています。再構築されたエンベロープは、それぞれの実際の音声エンベロープと相関付けられ、最も強い相関を示すものが注目している話者です。言い換えれば、モデル再構築精度が最も高い音声エンベロープは、注目している話者のものである可能性が高いということです。AADアルゴリズムがこの判断を下すと、プロセッサは注目している音声を増幅し、背景ノイズを抑制します。

また、脳データから非常に複雑なパターンを学習できる、より計算能力の高いアルゴリズムである深層ニューラルネットワークに依存する非線形手法もあります[7]。線形手法はエンベロープのデコードに依存していますが、深層ニューラルネットワークが活用できるEEG記録にははるかに多くの情報が含まれています。一部の深層ニューラルネットワーク手法は、エンベロープ対応を計算することなく、脳活動から直接人の注意の空間方向を学習します。これは、プロセッサが個々のエンベロープをきれいに抽出するのに苦労する場合に有利になる可能性があります。非線形AADモデルの欠点は、トレーニングが難しく、信頼性の問題に直面することが多いことです。

 

記事のポイント! 

騒がしい環境で特定の話者に注意を向ける「カクテルパーティー効果」は、脳と耳が連携する高度な認知機能です。本記事では、この注意の仕組みを脳波(EEG)で読み取り、補聴器に反映する「ニューロステアリング技術」の研究動向を紹介しています。従来の補聴器では難しい聞きたい相手への集中を実現する可能性があり、今後の聴覚支援技術の進化を考えるうえで重要な視点が得られます。

 

関連ページ  

聞こえが気になる方は、以下のページも参考にしてください。

今の聞こえの状態を簡単に確認したい方へ

聞こえづらいと感じたときのセルフチェック

難聴の原因や種類を整理したい方へ

難聴とは?(原因・症状・種類)

まず何をすればよいか知りたい方へ

聞こえづらいと感じたときの対処法

補聴器の基本を知りたい方へ

補聴器の種類と選び方

 

気になる症状がある場合は  

聞こえに不安がある場合は、早めに耳鼻咽喉科への相談をおすすめします。 


原文掲載元はこちら 

 https://canadianaudiologist.ca/issue/volume-13-issue-3-2026/to-the-brain-and-back-2/?utm_source=hearingtracker.com&utm_medium=newsletter&utm_campaign=fb76f043-4fab-453d-a6dc-b140dd0ae075

ブログに戻る

コメントを残す