На пути к цифровой медицине

14 ноября 2021

Санкт-Петербургские ученые из Национального центра когнитивных разработок Университета ИТМО - центра компетенции НТИ - собрали и проанализировали неструктурированные данные электронных медицинских карт при помощи автоматического машинного обучения и методов обработки естественного языка (NLP). Исследование показало, что система остро нуждается в новых инструментах обработки и структуризации ЭМК - полученные данные изменят представление об оценке качества медицинских услуг.

Всеобщая цифровизация не обошла стороной и здравоохранение. Мы наслаждаемся безбумажным медицинским документооборотом уже второй год - с момента запуска федерального проекта по созданию единого цифрового контура в рамках национального проекта "Здравоохранение". С февраля этого года министерским приказом закреплен правовой статус электронного документооборота, что позволяет медицинским организациям в цифровом формате отчитываться перед контрольно-надзорными органами, а пациентам в электронном виде получать копию любого документа.

Государство в лице Минздрава РФ лишь определяет, какие данные загружать в федеральный реестр, и обеспечивает дальнейшее взаимодействие через межведомственную систему. Но единой базы медицинских документов в России не существует. Каждая организация ведет свои записи, причем в разных стандартах передачи информации (семейства HL-7, SNOMED), данные же загружают в федеральный реестр посредством региональной интеграционной шины. Записи не имеют единой структуры и правил оформления. Отличается ведение документации не только в разных медицинских организациях, но и у каждого отдельно взятого специалиста. При этом такие виды записей, как анамнезы, диагнозы, протоколы операций, выписные эпикризы, чаще всего хранятся в виде неструктурированного текста на естественном языке. Образовался огромный архив ценнейших данных, по которым можно было бы отслеживать качество оказываемых медицинских услуг и даже обучить нейронные сети для предсказания течения заболеваний или помощи в назначении лечения. Однако такой разнородный датасет, содержащий неструктурированные элементы, практически невозможно централизованно анализировать.

"Необходимо наращивать кадровый потенциал по работе с данными, разрабатывать автоматизированные алгоритмы анализа данных для подготовки врачебных и управленческих решений. Применять сквозные технологии для решения вопросов повышения качества медицинской помощи", - поделился своим видением заместитель директора по информационным технологиям МИАЦ Сергей Фокин.

Перевод с человеческого на машинный

Ученые из НЦКР в сотрудничестве с персоналом Медицинского информационно-аналитического центра взялись за структурирование электронных медицинских карт в Санкт-Петербурге с помощью автоматического машинного обучения и методов обработки естественного языка (NLP). Задача оказалась весьма нетривиальной. Медицинский текст существенно отличается от текста литературного. Он переполнен терминами и названиями, зачастую на латыни, реже на английском языке, аббревиатурами и единицами измерения (г, мкг, мл). Кроме того, выбор инструментов NLP для русского языка в целом более скромный. Поэтому от исследователей потребовалось разработать свою собственную систему распознавания. Она написана на Python и включает в себя пять инструментов для предобработки текста: определение поставленного диагноза, темы записи (анамнез, протокол и т. д.), имени пациента, временных рамок, а также орфографическая коррекция.

МИАЦ активно собирает информацию для оценки уровня оказываемых медицинских услуг в Санкт-Петербурге, и алгоритмы прошли обучение на их данных. Были взяты 79 тыс. записей о пациентах, обратившихся в клиники Санкт-Петербурга в 2020 году с артериальной гипертензией или острым коронарным синдромом. Для упрощения процесса NLP экспертами был создан некий эталон цифрового документа, с которым сравнивались и по образцу которого автоматически структурировались существующие данные. Записи оценивались по полноте, точности, полезности и отсутствию ошибок.

Вся процедура обработки состоит из трех этапов: определение темы записи, структуры и оценка качества. Тема записи определяется по заголовку. Для этого он проходит предобработку, слова переводятся в изначальную словарную форму (лемматизируются), из предложения убирается все лишнее: символы, так называемые стоп-слова (в основном это предлоги, союзы и местоимения), снижается количество второстепенных слов. После определения типа документа система пытается понять его структуру. Большинство медицинских текстов делятся на части подзаголовками, тогда программа извлекает их обычным способом. Но попадаются и достаточно длинные записи, которые никак не делятся на части, кроме абзацев. В таком случае применяется метод аддитивной регуляризации: с помощью специальных регуляризаторов текст достаточно точно делится по темам и разделам. Подсчитывается частота слов, встречающихся в разделах текстов разной тематики, что поможет в будущем обучить модель распознавать тексты на основе лишь этого показателя.

Далее текст сравнивается с базой идеальных образцов. Система определяет, сколько "необходимых" блоков в нем содержится, а затем предлагает рекомендации, что в него можно добавить, какую информацию лучше размещать в других записях. Таким образом, исследователи сформируют единую и упорядоченную форму хранения медицинской информации.

"Мы планируем дальнейшее развитие систем автоматического распознавания медицинских текстов. Необходима разработка универсальных методов структурирования в соответствии со стандартами хранения и передачи данных и сопоставления медицинских документов со стандартными номенклатурами, используемыми в отрасли", - рассказал Георгий Копаница, руководитель группы, занимающейся унификацией, систематизацией и интеграцией медицинских данных в рамках лаборатории "Цифровое здравоохранение" НЦКР.

При финальном анализе собранных данных исследователи пришли к выводу, что существующая система действительно нуждается в новых инструментах структуризации информации. От этого выиграют все участники процесса. МИАЦ станет проще и эффективнее собирать информацию. В самих больницах работа с данными станет лучше и прозрачнее, что, несомненно, поможет в постановке диагнозов и принятии решений по лечению. Благодаря тому, что по качеству и полноте записей можно сделать вывод об уровне клиники и самого врача, пациент получит доступ к более объективным рейтингам врачей и лучших медицинских организаций города. Подробнее с исследованием можно ознакомиться в научной статье центра.

Возможно ли создание единой базы медицинской информации в России

В мире было предпринято немало попыток создания единой государственной базы медицинской информации, но не все из них были успешны. Великобритания в конечном итоге отказалась от этой идеи. А в Эстонии, например, ее удалось реализовать в полном объеме. Еще в 2008 году эта страна внедрила контролируемую государством общенациональную систему медицинских карт, регистрирующую практически всю медицинскую историю пациентов от рождения до смерти. Более 95% медицинских данных были оцифрованы. Граждане страны получают индивидуальную карту, которая используется для доступа к их записям, как национальное удостоверение личности. Также там внедрена система электронных рецептов: после создания врачом он добавляется к медицинской карте пациента и в аптечную систему. Пациент просто приходит в аптеку и получает нужное ему лекарство. Сейчас в Эстонии 97% рецептов - цифровые.

В некоторых государствах применяется интеграционный подход: данные не поступают в единую базу, но имеют стандартизированный формат хранения и обмена данными. К таким странам относятся США и Нидерланды. В Штатах государство регулирует рынок информационных систем, формируя требования по стандартизации, а основным потребителем информации является пациент. Он может получать доступ и управлять распространением своей медицинской информации через существующих провайдеров доступа. Данные хранятся децентрализованно, но доступны пациенту в любое время. Многими экспертами такой подход признан наиболее безопасным и разумным. Ведь на рынке слишком много поставщиков услуг, каждый из которых имеет право выбирать ту систему, которая ему наиболее подходит. Хранить данные централизованно - значит нести большие издержки, связанные с организацией хранения и доступа к ним. При этом не стоит забывать и про роль пациента, которому эти данные тоже принадлежат.

В США первая волна стандартизации хранения и обмена медицинскими данными прошла в начале 90-х годов, в основном на базе стандартов семейства HL-7. Эти системы применяются в большинстве клиник, однако серьезно устарели. Наша страна избавлена от такого багажа и может внедрять сразу самые современные технологии.

Россия обладает широким технологическим потенциалом, однако создание общенациональной базы проблематично в первую очередь из-за размеров страны. Кроме того, переход к единой системе сложно обосновать экономически для руководства клиник, и без того потративших много ресурсов на выстраивание цифровой инфраструктуры. На сегодняшний день медицинские организации выполняют лишь минимум, требуемый Минздравом, и не заинтересованы в дальнейшем развитии IT-направления. Им нужен пример положительных изменений, готовое и удобное решение.

Государственный федеральный проект определяет сроки перехода к единой базе медицинских карт до 2024 года, однако эксперты полагают, что это лишь время начала глобальных внутренних изменений в большинстве медицинских организаций. В последние годы технологические гиганты заинтересовались тематикой медицины, что, по прогнозам, достаточно сильно ускорит процесс цифровизации.

"Одним из направлений ускорения подобного процесса является разработка инструментов для структурирования уже имеющихся данных ЭМК. Такие технологии могут позволить не только систематизировать и проанализировать разнородные ЭМК, подготовить базу для обучения алгоритмов ИИ, обеспечить непрерывный и полный поток данных, но и предоставить обратную связь медицинским учреждениям и даже конкретным врачам, обеспечив им поддержку организационных, технологических и клинических решений", - комментирует руководитель научно-исследовательской лаборатории "Цифровое здравоохранение" в НЦКР Сергей Ковальчук.

Предлагаемая НЦКР для распознавания медицинских карт система - часть масштабной платформы когнитивных технологий здоровья AI-Vita. Высокотехнологичные инструменты применяются в создании интеллектуальной поддержки врачебных и организационных решений (ProFIT, GraphMiner), анализе и структурировании текстовых данных (MedTextNLP), и общей регуляции здравоохранительной системы (CliPIC, SimHosp). Разработка набирает обороты, все больше компаний и других исследовательских центров присоединяются к процессу: предоставляют ресурсы и свою экспертизу.

"Мы планируем и дальше заниматься проблемами оценки уровня зрелости цифровой трансформации процессов диагностики и лечения в медицинской организации, в том числе на базе научно-клинического центра им. Л.Г. Соколова ФМБА России, где я отвечаю за цифровое развитие, добиваться внесения соответствующих методик в документы Минздрава России. Это будет способствовать созданию достоверной единой базы данных по состоянию здоровья, диагностике и лечению пациентов в России. А последняя поможет применять современные методы поддержки принятия врачебных решений в ситуации, когда врач уже не может охватить существующего сегодня объема медицинской информации о пациенте и применяемых медицинских технологий без помощи информационных технологий", - рассказал о планах на будущее эксперт цифрового развития здравоохранения Геннадий Орлов.