Группа российских исследователей обучила нейронную сеть анализировать мнения пользователей соцсетей об эффектах лекарств. Основной целью ученых было преодолеть терминологический разрыв между пациентами и профессионалами в области здравоохранения. В рамках исследования ученые на примерах базы данных на английском языке обучили нейронную сеть превращать текст, написанный на языке социальных сетей (например, «не могу заснуть всю ночь» или «слегка кружится голова»), в формальный медицинский язык (к примеру, «бессонница» и «головокружение» соответственно). Такая задача выходит за рамки простого сопоставления естественных выражений с элементами словаря: проблема в том, что сообщения пользователей могут вообще не пересекаться с медицинскими терминами.
Социальные сети — практически неисчерпаемый источник мнений по широкому кругу вопросов. Люди пишут о своей работе, отношениях и, в том числе, жалуются на проблемы со здоровьем. По сути, социальные сети предоставляют огромные наборы данных мнений вместе с демографической информацией и другими данными о пользователе.
Хотя ученые часто используют интеллектуальный анализ текстов (text mining) в социальных сетях для перепрофилирования лекарств и генерации гипотез (первые работы по этой теме вышли в 2010 году), мало кто сопоставлял пользовательские фразы с профессиональными терминами. Задача сопоставления упомянутого пользователем заболевания с конкретным медицинским термином называется нормализацией медицинских концептов. Сложность в том, что профессиональная медицинская лексика редко совпадает с повседневной, которую используют люди в общении. Чтобы решить эту проблему, российские исследователи использовали последовательное обучение рекуррентных нейронных сетей и семантическое представление однословных и многословных выражений.
«В работе мы сфокусировались на мнениях пациентов о влиянии лекарств, — объясняет научный сотрудник лаборатории нейронных систем и глубокого обучения МФТИ Валентин Малых.
«Важность работы определяется постоянно растущей потребностью в анализе текстовых данных. Мы живем в условиях информационного взрыва, когда количество информации удваивается каждые несколько лет, и человек или даже коллектив людей уже не способен обработать все доступные данные. В нашем проекте используются методы анализа текстов и машинное обучение для извлечения полезной информации из доступных данных, как, например, в этом случае, где мы извлекали упоминания о побочных лекарственных реакциях из сообщений, которые люди пишут в социальных сетях», – добавляет старший научный сотрудник Лаборатории хемоинформатики и молекулярного моделирования Казанского федерального университета Елена Тутубалина.
По мнению авторов работы, непрерывное развитие и улучшение точности интеллектуального анализа текстов сообщений пациентов в социальных сетях окажет значительное влияние на изучение влияния лекарств на организм, повторное назначение лекарств и понимание лекарственных эффектов в контексте других факторов, таких как одновременный прием разных препаратов, диеты и образа жизни.
В исследовании принимали участие ученые Казанского федерального университета (КФУ), НИЦ «Курчатовский институт», Первого МГМУ им. И.М. Сеченова, Санкт-Петербургского отделения Математического института им. В. А. Стеклова РАН (ПОМИ РАН) и Московского физико-технического института (МФТИ). Работа была поддержана грантом Российского научного фонда и направлена на развитие подобных технологий для анализа русскоязычного текста.
Иллюстрация к статье:
Обсуждение