エコーに対する脳の習熟により音声の明瞭さが向上

エコーに対する脳の習熟により音声の明瞭さが向上

要約:
研究者たちは、人間の脳が直接の音声を反響から分離する驚異的な能力を解明しました。これは、長らくオーディオエンジニアを悩ませてきた課題です。

脳磁図(MEG)を使用して、通常100ミリ秒以上遅れる反響による歪みにもかかわらず、脳は音声を異なるストリームに分離することにより、95%以上の精度で音声を処理し理解していることが発見されました。この分離は、聴衆の積極的な注意がなくても発生し、エコーの環境での明確な音声認識を促進する先天的な脳の機能を示しています。

これらの発見は、複雑な音響環境における聴覚ストリームの分離の役割を明らかにするだけでなく、自動音声認識技術の潜在的な進展を示唆しています。

主な事実:
  1. 人間の脳は、直接の音声とそのエコーを区別し、エコーの環境でも高い音声理解が可能です。
  2. 音声認識中の神経活動は、直接の音声とエコーを別々のストリームとして処理するモデルによってより良く説明され、適応によるものではありません。
  3. この聴覚の分離は、リスナーの集中的な注意が必要なく自動的に発生し、固有の脳の能力を示しています。

    出典: PLOS

エコーは音声を理解しにくくする可能性があり、オーディオ録音からエコーを取り除くことは悪名高い難しいエンジニアリングの問題です。

しかし、中国の浙江大学のJiaxin Gao氏とその同僚によるオープンアクセスジャーナルPLOS Biologyに2月15日に発表された研究によれば、人間の脳は、音声を直接の音声とそのエコーに分離することによって、この問題を成功裏に解決しているようです。

オンラインミーティングや講堂での音声信号は、適切に設計されていない場合、通常、元の音声から少なくとも100ミリ秒遅れたエコーを持っています。これらのエコーは音声を重く歪ませ、会話を理解するために最も重要なゆっくり変化する音の特徴に干渉しますが、人々はそれにもかかわらずエコーのある音声を信頼性高く理解しています。

これをよりよく理解するために、著者たちは脳磁図(MEG)を使用して、人間の参加者がエコーのあるストーリーとエコーのないストーリーを聞いている間の神経活動を記録しました。

彼らは神経信号を、エコーに適応する脳をシミュレートするモデルと、エコーを元の音声から分離する脳をシミュレートする別のモデルと比較しました。

参加者はエコーがある場合でもエコーのない場合でも、ストーリーを95%以上の精度で理解していました。研究者たちは、エコーの強い干渉にもかかわらず、大脳皮質の活動が直接の音声に関連するエネルギー変化を追跡していることを観察しました。

神経適応をシミュレートすることは、彼らが観察した脳の反応を部分的にしか捉えませんでした。神経活動は、元の音声とそのエコーを別々の処理ストリームに分割するモデルによってよりよく説明されました。これは、参加者に対して無音の映画に注意を向け、ストーリーを無視するように指示された場合でも変わらず、つまり、上向きの注意が直接の音声とそのエコーを精神的に分離するために必要ではないことを示唆しています。

研究者たちは、混雑した環境で特定のスピーカーを単独で選別するためにも、反響のある空間で個々のスピーカーを明確に理解するためにも、聴覚ストリームの分離が重要である可能性があると述べています。

著者たちはさらに、「エコーは音声の音響特性を強く歪ませ、自動音声認識に課題を提起します。しかし、人間の脳は音声をそのエコーから分離し、エコーのある音声を確実に認識することができる」と述べています。

著者: Claire Turner(クレア・ターナー)
出典: PLOS
連絡先: Claire Turner – PLOS
画像: 画像のクレジットはNeuroscience Newsに帰属します

原著研究: オープンアクセス。
"Nai Ding et al. による "Original speech and its echo are segregated and separately processed in the human brain"、PLOS Biology"

リンク先はアメリカのNeuroscience Newsというサイトの記事になります。(原文:英語)
ブログに戻る

コメントを残す