Глубокое обучение помогло декодировать образы букв в мозгу человека.
Китайские исследователи разработали новый метод декодирования видимых изображений из зрительной коры головного мозга человека. С его помощью можно по активности мозга узнать, какую букву или цифру показывают участнику эксперимента. Метод основан на глубоком обучении нейросетей на данных функциональной магнитно - резонансной томографии (фМРТ. По словам авторов, новый подход позволяет гораздо точнее воспроизводить образы, чем другие известные методы
. Препринт исследования опубликован на сервере arX, кратко о нем сообщает MIT Technology Review.
Визуальная информация сетчатки глаза зрительной корой мозга обрабатывается. Первичная зрительная кора, в которую изначально попадает эта информация, состоит из примерно 140 миллионов нейронов. Главная сложность исследования соответствия между визуальными стимулами и активностью мозга состоит в отсутствии методов, способных быстро и с высоким разрешением анализировать активность клеток нервной системы. На сегодняшний момент одним из общепризнанных стандартов метод является фМРТ.
Функциональная магнитно - резонансная томография позволяет определять активность нейронов по изменению кровообращения в мозгу. Она связана с простой закономерностью - увеличение активности конкретной группы нейронов усиливает локальный кровоток к этой области мозга. Вместе с кровотоком увеличивается количество гемоглобина, несущего молекулы кислорода. Такой гемоглобин обладает диамагнитными свойствами (выталкивает магнитное поле), в отличие от парамагнитного (усиливает магнитное поле) деоксигемоглобина. Именно эти изменения в магнитных полях фиксирует фМРТ.
Однако у этого метода есть свои недостатки. В первую очередь концентрация гемоглобина растет с некоторой задержкой (около секунды) по сравнению с ростом активности нейронов. Также, фМРТ анализирует области пространства, размеры которых больше, чем один нейрон. Это воксели (объемные пиксели), в каждый из которых входят тысячи и десятки тысяч нейронов. Еще одна сложность при использовании метода - большое количество шумов в данных и сильная нелинейная корреляция между состояниями соседних вокселей.
При сопоставлении визуальных стимулов (изображений, демонстрируемых в экперименте) и активности вокселей необходимо учитывать эти нелинейные корреляции. Ранее многие методы анализа игнорировали этот аспект. Авторы новой работы воспользовались глубоким обучением чтобы учесть корреляции и отличать их от шумов считывания.
База данных для обучения была построена на данных более ранних экспериментов других научных групп. Ученые собрали более 1800 экспериментов фМРТ, записывавших состояние зрительной коры в ответ на демонстрацию визуального стимула - цифры, буквы или простой геометрической фигуры. 90 процентов этих данных исследователи использовали для обучения нейросети, оставшиеся 10 процентов - для проверки работоспособности методики.
По словам ученых, новая методика позволяет получать более контрастные и точные реконструкции, по сравнению с ранними методами.
Среди возможных применений техники - создание нейроинтерфейсов человек - компьютер. Следующими шагами в развитии метода станет анализ более сложных визуальных стимулов и движущихся изображений. Последнее потребует использования рекуррентных нейросетей. Кроме того, по словам авторов, тот же самый подход с машинным обучением может помочь и в реконструкции другой информации - например, звуковой или моторной.
Ранее с помощью фМРТ канадские ученые смогли предсказать способности человека к изучению второго языка. Нейрофизиологи из северозападного университета использовали эту методику для анализа биологической основы эффекта плацебо, а японские исследователи из Brain Information Communication Research Laboratory Group смогли повлиять с ее помощью на оценку незнакомых лиц добровольцами (делая ее положительной или негативной.