5/2 意識を文章化する、無痛読心術AI
Advance raises prospect of new ways to restore speech in those struggling to communicate due to stroke or motor neurone disease
脳卒中や運動ニューロン疾患で意思疎通が困難な患者たちの発話を復元する新たな方法の可能性が高まる
The decoder could reconstruct speech using fMRI scan data. Photograph: John Graner
fMRI 検査のデータを使って、デコーダは言葉を復元することができた。
—
An AI-based decoder that can translate brain activity into a continuous stream of text has been developed, in a breakthrough that allows a person’s thoughts to be read non-invasively for the first time.
脳活動を連続したテキストに変換するAIを用いたデコーダーの開発により、世界で初めて人の思考を非接触で読み取ることができるようになった。
—
The decoder could reconstruct speech with uncanny accuracy while people listened to a story – or even silently imagined one – using only fMRI scan data. Previous language decoding systems have required surgical implants, and the latest advance raises the prospect of new ways to restore speech in patients struggling to communicate due to a stroke or motor neurone disease.
このデコーダーは、fMRIスキャンのデータのみを用いて、人が話を聞いている間、あるいは黙想している間に、不思議なほど正確に音声を復元することができた。これまでの言語解読システムは、外科的な埋め込み手術が必要だったが、今回の進歩により、脳卒中や運動ニューロン疾患で意思疎通が困難な患者の発話を回復する新しい方法が期待される。
—
Dr Alexander Huth, a neuroscientist who led the work at the University of Texas at Austin, said: “We were kind of shocked that it works as well as it does. I’ve been working on this for 15 years … so it was shocking and exciting when it finally did work.”
テキサス大学オースティン校でこの研究を主導した神経科学者のアレクサンダー・フート博士は、次のように述べています、「これほどまでにうまくいくとは、ちょっと驚きました。私は15年間この研究に取り組んできました......ですから、最終的にうまくいったときは衝撃的で、興奮しました。」
—
The achievement overcomes a fundamental limitation of fMRI which is that while the technique can map brain activity to a specific location with incredibly high resolution, there is an inherent time lag, which makes tracking activity in real-time impossible.
この成果は、fMRIが脳活動を特定の場所に高解像度でマッピングできる反面、時間的な遅れがあり、リアルタイムで脳活動を追跡することができないという基本的な限界を克服したものである。
—
The lag exists because fMRI scans measure the blood flow response to brain activity, which peaks and returns to baseline over about 10 seconds, meaning even the most powerful scanner cannot improve on this. “It’s this noisy, sluggish proxy for neural activity,” said Huth.
この遅れは、fMRIスキャンが脳活動に対する血流反応を測定するために生じるもので、血流は約10秒かけてピークに達し、基準値に戻るため、いかに高性能のスキャナを用いてもこの遅れを改善することができない。「つまり、神経活動の指標として使うにはノイズが多く、緩慢なものなのです」とHuth氏は語る。
—
This hard limit has hampered the ability to interpret brain activity in response to natural speech because it gives a “mishmash of information” spread over a few seconds.
この制限により従来の音声解析では、数秒間に渡る「情報の寄せ集め」しかできなかったため、自然な音声に反応する脳活動の解釈は困難だった。
—
However, the advent of large language models – the kind of AI underpinning OpenAI’s ChatGPT – provided a new way in. These models are able to represent, in numbers, the semantic meaning of speech, allowing the scientists to look at which patterns of neuronal activity corresponded to strings of words with a particular meaning rather than attempting to read out activity word by word.
しかし、大規模言語モデル(OpenAIのChatGPTを支えるAI)の登場により、新たな道が開かれた。このモデルは、音声の意味を数値で表現することができるため、科学者たちは、活動を一語一語読み上げるのではなく、特定の意味を持つ単語列に対応する神経細胞の活動パターンを調べることができるようになった。
—
The learning process was intensive: three volunteers were required to lie in a scanner for 16 hours each, listening to podcasts. The decoder was trained to match brain activity to meaning using a large language model, GPT-1, a precursor to ChatGPT.
学習プロセスは集中的で、3人のボランティアがそれぞれ16時間スキャナーに横たわり、ポッドキャストを聴くことが求められた。デコーダーは、ChatGPTの前身であるGPT-1という大規模な言語モデルを用いて、脳の活動と意味を一致させるようにプログラミングされた。
—
Later, the same participants were scanned listening to a new story or imagining telling a story and the decoder was used to generate text from brain activity alone. About half the time, the text closely – and sometimes precisely – matched the intended meanings of the original words.
その後、同じ参加者が新しい話を聞いたり、自分が話をすることを想像したりしているところをスキャンし、デコーダーを使って脳活動のみからテキストを生成した。その結果、約半分の確率で、元の言葉の意味とほぼ一致し、時には正確に一致する文章が生成された。
—
“Our system works at the level of ideas, semantics, meaning,” said Huth. “This is the reason why what we get out is not the exact words, it’s the gist.”
「我々のシステムは、アイデア、 意味論、意味の段階で機能します」とHuth氏は言う。「これこそが、私たちが引き出すものが正確な言葉ではなく、要点である理由なのです。」
—
For instance, when a participant was played the words “I don’t have my driver’s licence yet”, the decoder translated them as “She has not even started to learn to drive yet”. In another case, the words “I didn’t know whether to scream, cry or run away. Instead, I said: ‘Leave me alone!’” were decoded as “Started to scream and cry, and then she just said: ‘I told you to leave me alone.’”
例えば、ある参加者に「私はまだ運転免許を持っていない」という言葉を聞かせたところ、デコーダーはそれを「彼女はまだ運転を習い始めてもいない」と変換した。また、「叫べばいいのか、泣けばいいのか、逃げればいいのか、わからなかった。その代わり私は『ほっといて!』と言いました」という言葉を、デコーダは「叫び始め、泣き出し、そして彼女はただ『ほっといてと言ったでしょ』と言いました」と解読した。
—
The participants were also asked to watch four short, silent videos while in the scanner, and the decoder was able to use their brain activity to accurately describe some of the content, the paper in Nature Neuroscience reported.
また、スキャナに入った状態で4本の短い無音動画を視聴してもらったところ、デコーダーが脳活動を利用して一部の内容を正確に説明することができたと、『Nature Neuroscience』の論文で報告された。
—
“For a non-invasive method, this is a real leap forward compared to what’s been done before, which is typically single words or short sentences,” Huth said.
「従来の単語や短い文章を使った方法と比べ、この技術は、無痛で行うことができるため画期的な技術です」とHuth氏は述べる。
—
Sometimes the decoder got the wrong end of the stick and it struggled with certain aspects of language, including pronouns. “It doesn’t know if it’s first-person or third-person, male or female,” said Huth. “Why it’s bad at this we don’t know.”
時には、デコーダーが間違った方向に進んでしまい、代名詞を含む言語の特定の側面で苦労することもあった。「一人称なのか三人称なのか、男性なのか女性なのかがわからないのです」とHuth氏。「なぜ苦手なのか、原因はわかりません」
—
The decoder was personalised and when the model was tested on another person the readout was unintelligible. It was also possible for participants on whom the decoder had been trained to thwart the system, for example by thinking of animals or quietly imagining another story.
デコーダーは個々に合わせて作られており、別の人に試したところ、読み取れないことがあった。また、訓練された参加者が、動物を思い浮かべたり、別のことを想像したりすることで、システムを妨害することも可能だった。
—
Jerry Tang, a doctoral student at the University of Texas at Austin and a co-author, said: “We take very seriously the concerns that it could be used for bad purposes and have worked to avoid that. We want to make sure people only use these types of technologies when they want to and that it helps them.”
テキサス大学オースティン校の博士課程に在籍し、共著者であるJerry Tang氏は次のように語る。「私たちは、悪用されるのではないかという懸念を非常に重く受け止め、それを回避するために取り組んできました。私共としては、人々がこの種の技術を望むときには、それが役に立つ場合にのみ使用するようにしたいのです。を語っている」
—
Prof Tim Behrens, a computational neuroscientist at the University of Oxford who was not involved in the work, described it as “technically extremely impressive” and said it opened up a host of experimental possibilities, including reading thoughts from someone dreaming or investigating how new ideas spring up from background brain activity. “These generative models are letting you see what’s in the brain at a new level,” he said. “It means you can really read out something deep from the fMRI.”
オックスフォード大学の計算神経科学者であり、今回の研究には参加していないTim Behrens教授は、「技術的に非常に素晴らしい」と評し、夢を見ている人の思考を読み取ったり、背景の脳活動から新しいアイデアがどのように生まれるかを調査するなど、多くの実験の可能性を開くものであることを述べた。「このような生成モデルによって、脳の中にあるものを新しいレベルで見ることができるようになります。「つまり、fMRIから何か深いものを本当に読み取ることができるのです。」
—
Prof Shinji Nishimoto, of Osaka University, who has pioneered the reconstruction of visual images from brain activity, described the paper as a “significant advance”. “The paper showed that the brain represents continuous language information during perception and imagination in a compatible way,” he said. “This is a non-trivial finding and can be a basis for the development of brain-computer interfaces.
脳活動から視覚イメージを再構築することに先鞭をつけた大阪大学の西本真司教授は、この論文を「大きな進歩」と評した。「この論文は、脳が知覚と想像の間の連続的な言語情報を互換性のある方法で表現していることを示しました。これは自明ではない発見であり、脳とコンピュータの相互作用の開発の基礎となりうるものです。」
—
The team now hope to assess whether the technique could be applied to other, more portable brain-imaging systems, such as functional near-infrared spectroscopy (fNIRS).
研究チームは今後、この技術を、機能的近赤外分光法(fNIRS)など、より携帯性の高い他の脳イメージングシステムに応用できるかどうかを評価したいとしている。
---
🧠覚えたい単語🧠
stroke (脳卒中)
neuroscientist (神経科学者)
limitation (制約)
high resolution (高解像度)
blood flow response (血流反応)
large language models (大規模言語モデル)
semantic meaning (意味的意味)
neuronal activity (神経活動)
gist (要点)
non-invasive method (非侵襲的方法)
pronouns (代名詞)
unintelligible (理解できない)