人間の聴覚システムの構造と機能を模倣した計算モデルは、研究者がより優れた補聴器や人工内耳、ブレイン・マシン・インターフェースを設計するのに役立つ可能性がある。
MITニュースのAnne Traftonによる記事によると、MITの新しい研究は、機械学習から派生した最新の計算モデルがこの目標に近づいていることを発見した。
聴覚タスクを実行するように訓練されたディープ・ニューラル・ネットワークに関するこれまでで最大規模の研究で、MITの研究チームは、これらのモデルのほとんどが、人が同じ音を聞いているときに人間の脳で見られる表現と同じ性質を持つ内部表現を生成することを示した。
また、この研究は、この種のモデルをどのように訓練するのが最適かについても示唆を与えている。
研究者らは、背景雑音を含む聴覚入力で訓練したモデルは、人間の聴覚皮質の活性化パターンをより忠実に模倣することを発見した。
「この研究の特徴は、聴覚系に対するこの種のモデルの比較としては、これまでで最も包括的なものであるということだ。」
MITの脳・認知科学准教授で、MITのMcGovern Institute for Brain Research and Center for Brains, Minds, and Machinesのメンバーであり、この研究の主執筆者であるJosh McDermott氏は言う。
マサチューセッツ工科大学(MIT)の大学院生Greta TuckuteとJenelle Feather博士(PhD '22)が、本日PLOS Biology誌に掲載されたオープンアクセス論文の筆頭著者である。
聴覚のモデル
ディープ・ニューラル・ネットワークは、膨大な量のデータに対して特定のタスクを実行するように学習させることができる、何層もの情報処理ユニットで構成される計算モデルである。
この種のモデルは、多くのアプリケーションで広く使用されるようになり、神経科学者たちは、このシステムが人間の脳が特定のタスクをどのように実行するかを記述するのにも使用できる可能性を探り始めている。
「機械学習によって構築されたこれらのモデルは、以前のタイプのモデルでは不可能だったスケールの行動を媒介することができるため、モデル内の表現が脳内で起こっていることを捉えているかどうかに関心が集まっています。」とTuckuteは言う。
神経回路網がタスクを実行しているとき、その処理ユニットは、単語や他の種類の音などの音声入力を受け取るたびに、それに応じて活性化パターンを生成する。これらの入力のモデル表現は、同じ入力を聞いている人のfMRI脳スキャンで見られる活性化パターンと比較することができる。
2018年、McDermottと当時大学院生だったAlexander Kellは、聴覚タスク(音声信号から単語を認識するなど)を実行するようニューラルネットワークを訓練したところ、モデルによって生成された内部表現が、同じ音を聞いている人のfMRIスキャンで見られるものと類似性を示したと報告した。
それ以来、この種のモデルは広く使われるようになったので、McDermott氏の研究グループは、人間の脳で見られる神経表現に近似する能力が、これらのモデルの一般的な特徴であるかどうかを調べるため、より大規模なモデル群を評価することにした。
この研究のために、研究者たちは聴覚タスクを実行するように訓練された、公開されている9つのディープニューラルネットワークモデルを分析し、さらに2つの異なるアーキテクチャに基づいた14のモデルを独自に作成した。
これらのモデルのほとんどは、単語の認識、話者の特定、環境音の認識、音楽ジャンルの特定といった単一のタスクを実行するように訓練されていたが、2つのモデルは複数のタスクを実行するように訓練されていた。
これらのモデルに、人間のfMRI実験で刺激として使用された自然音を提示したところ、モデル内部の表現が人間の脳が生成したものと類似性を示す傾向があることがわかった。
脳の表現と最も類似していたモデルは、複数のタスクで訓練されたモデルであり、バックグラウンドノイズを含む聴覚入力で訓練されたモデルであった。
「ノイズの中でモデルを訓練すると、そうでない場合よりも脳の予測が良くなる。」とFeatherは述べる。
階層的処理
この新しい研究は、ヒトの聴覚皮質にはある程度の階層的な組織があり、処理が異なる計算機能をサポートする段階に分かれているという考えも支持している。
2018年の研究と同様、研究者らは、モデルの初期段階で生成される表象は、一次聴覚皮質で見られる表象に最もよく似ており、一方、モデルの後期段階で生成される表象は、一次皮質以外の脳領域で生成される表象によりよく似ていることを発見した。
さらに研究者たちは、異なるタスクで訓練されたモデルの方が、聴覚の異なる側面をよりよく再現できることを発見した。
例えば、音声に関連するタスクで訓練されたモデルは、音声選択領域によく似ていた。
「モデルはまったく同じ訓練データを見ており、アーキテクチャも同じであるにもかかわらず、ある特定のタスクに最適化すると、脳内の特定の同調特性を選択的に説明できることがわかります」とTuckuteは言う。
マクダーモットの研究室では現在、この研究成果を利用して、人間の脳の反応をさらにうまく再現するモデルの開発を試みている。
このようなモデルは、脳がどのように組織化されているかを科学者たちがより深く知るのに役立つだけでなく、より優れた補聴器や人工内耳、ブレイン・マシン・インターフェイスの開発にも役立つだろう。
「私たちの分野の目標は、脳の反応や行動を予測できるコンピューターモデルを完成させることです。そのゴールに到達することができれば、多くの扉が開かれると考えています」とMcDermottは言う。
この研究は、米国国立衛生研究所、サイエンス・ハブからのアマゾン・フェローシップ、米国女子大学協会からの国際博士号フェローシップ、MITフレンズ・オブ・マクガバン研究所フェローシップ、MITのK.リサ・ヤン統合計算神経科学(ICoN)センターからのフェローシップ、エネルギー省計算科学大学院フェローシップから資金援助を受けている。
リンク先はアメリカのNeuroscience Newsというサイトの記事になります。(原文:英語)