ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СППКР ПО ДАННЫМ ЭЛЕКТРОННЫХ МЕДИЦИНСКИХ КАРТ ДЛЯ ФЕНОТИПИРОВАНИЯ И ДИФФЕРЕНЦИАЛЬНОЙ ДИАГНОСТИКИ БАР И БДР

Обзор
DOI:
https://doi.org/10.60797/BMED.2026.8.4
EDN:
JKBAFA
Предложена:
25.01.2026
Принята:
18.03.2026
Опубликована:
26.03.2026
Выпуск: № 1 (8), 2026
Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)
52
6
XML
PDF

Аннотация

Введение. Дифференциальная диагностика биполярного аффективного расстройства (БАР; bipolar disorder, BD) и униполярной депрессии (БДР; major depressive disorder, MDD) является сложной задачей, особенно на ранних стадиях заболевания. Ошибки в диагностике приводят к задержке в назначении правильной терапии. Электронные медицинские карты (ЭМК; electronic health records, EHR) представляют собой перспективный источник данных для разработки моделей машинного обучения и систем поддержки принятия клинических решений (СППКР; clinical decision support systems, CDSS) для выявления пациентов с БАР, дифференциальной диагностики БАР и БДР, прогнозирования диагностической конверсии БДР в БАР.

Материалы и методы. Проведен аналитический обзор 12 публикаций, посвящённых фенотипированию БАР с использованием ЭМК, валидации «меток» диагноза, дифференциальной диагностике БАР и БДР, а также прогнозированию диагностической конверсии БДР в БАР. Проанализированы также применения методов NLP и text mining для извлечения симптомов из клинических заметок.

Результаты. Качество «меток» диагноза зависит от строгости фенотипа и может быть улучшено с помощью более детализированных методов, таких как NLP. Прогнозы конверсии БДР в БАР имеют умеренную точность, и значимость точности и качества данных подчеркивается рядом исследований. Модели на основе ЭМК показывают хорошие результаты в задаче дифференциальной диагностики, но требуют качественной записи симптомов в ЭМК.

Выводы. Для успешного применения СППКР в психиатрии необходимо обеспечить качественное фенотипирование, использование более строгих критериев и обязательную внешнюю валидацию фенотипов. Важно также контролировать соблюдение этических норм и конфиденциальности при обработке данных. Системы поддержки принятия клинических решений могут эффективно использоваться для риск-стратификации и триггера в процессе дифференциальной диагностики БАР и БДР.

1. Введение

Дифференциальная диагностика биполярного аффективного расстройства (bipolar disorder, BD, БАР) и униполярной депрессии (major depressive disorder, MDD, БДР) — важная клиническая задача. На ранних стадиях заболевания депрессивные симптомы могут преобладать, что приводит к ошибочной интерпретации состояния как униполярной депрессии и, как следствие, к задержке в выявлении биполярного спектра. По данным метаанализа, разрыв между началом симптомов и установлением диагноза БАР может составлять несколько лет, что негативно сказывается на своевременности назначения рекомендованной терапии согласно клиническим рекомендациям

.

Дополнительным риском является то, что у части пациентов с диагнозом униполярной депрессии впоследствии могут возникать маниакальные или гипоманиакальные эпизоды, что приводит к уточнению диагноза БАР. В исследованиях, основанных на данных электронных медицинских карт, антидепрессивная терапия была связана с повышением риска последующего диагноза мании или БАР

.

В условиях такой сложности и неопределённости диагностики системы поддержки принятия клинических решений становятся важным инструментом. Они могут улучшать процесс дифференциальной диагностики благодаря способности обрабатывать большие объёмы данных и учитывать множество факторов, включая динамику состояния пациента, результаты лабораторных исследований и текстовые записи врачей. Это особенно актуально в контексте биполярного расстройства, где раннее и точное распознавание состояния критично для назначения адекватной терапии.

Одним из перспективных источников данных для СППКР являются ЭМК

. В отличие от одноразовых опросников, ЭМК позволяют проводить анализ данных в продольном разрезе и выявлять клинические маркеры, которые могут быть упущены при одном визите, включая сведения, зафиксированные в свободном тексте (с применением технологий обработки естественного языка, NLP).

Цель данного обзора заключается в обобщении методов искусственного интеллекта (ИИ) и машинного обучения (ML), обученных на данных ЭМК, для следующих задач:

1. Фенотипирование БАР и контроль качества «меток».

2. Дифференциальная диагностика БАР и БДР в момент обращения или госпитализации.

3. Прогнозирование диагностической конверсии от БДР к БАР, с акцентом на типы используемых данных, метрики качества, интерпретируемость и переносимость моделей в составе СППКР.

Несмотря на растущий интерес к применению методов машинного обучения и обработки естественного языка в психиатрии, до настоящего времени не было опубликовано значительных обзоров литературы, фокусирующихся на комплексном анализе данной темы. Существующие обзорные исследования частично пересекаются с тематикой, но не охватывают весь спектр задач, рассматриваемых в данной работе. Например, Harvey и соавторы провели скопинг-обзор использования методов NLP для исследований биполярного расстройства, однако их работа сосредоточена на обработке текста и языковых особенностях, а не на построении диагностических моделей на основе ЭМК для задач фенотипирования и дифференциальной диагностики БАР и БДР

.

Таким образом, актуальность нашего обзора заключается в его сосредоточенности на узкой, но клинически значимой проблеме. Имеющиеся работы либо слишком общие (охватывают различные психические заболевания), либо ограничены отдельными компонентами задачи и не рассматривают весь путь от данных ЭМК до внедрения рекомендательных СППКР.

2. Терминология

Ниже приведено определение терминологии, которое может быть полезны читателю, не специализирующемуся в области машинного обучения и искусственного интеллекта.

1. СППКР (системы поддержки принятия клинических решений) — информационные системы, которые помогают врачам принимать обоснованные и своевременные клинические решения. Они используют данные о пациентах и алгоритмы машинного обучения для повышения точности диагностики и выбора терапии.

2. ЭМК (электронные медицинские карты) — цифровые версии медицинских карт пациента, которые содержат важные данные о его здоровье: диагнозы, назначения, лабораторные результаты, записи врачей и т. д. ЭМК позволяют анализировать информацию о пациенте в динамике.

3. NLP (обработка естественного языка) — направление в области искусственного интеллекта, позволяющее компьютерам анализировать и интерпретировать текст на естественных языках. В медицине NLP помогает извлекать полезную информацию из свободного текста (например, из заметок врачей о пациентах).

4. Text mining (извлечение информации из текста) — процесс, при котором с помощью алгоритмов извлекается полезная информация из больших объёмов текста; этот подход особенно востребован при обработке медицинских записей.

5. Фенотипирование (в контексте ЭМК) — это процесс формального определения и выделения «случаев» и/или «контролей» заболевания в базе электронных медицинских карт по заранее заданному правилу (алгоритму), которое использует структурированные данные (диагнозы/коды, назначения, госпитализации, лабораторные показатели и др.) и при необходимости неструктурированный текст (NLP), чтобы получить рабочие метки для дальнейшего анализа и обучения моделей.

6. Метрики качества (PPV, NPV, AUC, recall, precision, F-score):

– PPV (positive predictive value) — положительная прогностическая ценность: вероятность того, что положительный результат действительно указывает на наличие заболевания.

– NPV (negative predictive value) — отрицательная прогностическая ценность: вероятность того, что отрицательный результат действительно означает отсутствие заболевания.

– AUC (area under the curve) — площадь под ROC-кривой, отражающая общую эффективность модели.

– recall (полнота) — способность модели выявлять все случаи заболевания.

– precision (точность) — доля корректных положительных предсказаний среди всех положительных предсказаний модели.

– F-score — гармоническое среднее между precision и recall; это делает F-меру сбалансированной метрикой для оценки бинарной классификации.

7. Диагностическая конверсия (diagnostic conversion) — процесс, при котором диагноз пациента меняется со временем (например, от униполярной депрессии (БДР) к биполярному расстройству (БАР)) по мере появления новых симптомов.

8. Логистическая регрессия (logistic regression) — один из базовых методов машинного обучения для бинарной классификации (например, «болен/не болен»). Алгоритм оценивает вероятность принадлежности объекта к классу (например, «пациент с БАР») с помощью логистической функции.

9. Random forest (случайный лес) — ансамблевый метод, использующий множество деревьев решений. Каждое «дерево» обучается на случайной подвыборке данных, а итоговый прогноз формируется агрегированием результатов всех деревьев.

10. SVM (support vector machine) — алгоритм машинного обучения для задач линейной и нелинейной классификации, регрессии и обнаружения аномалий. Если данные не линейно разделимы, SVM использует ядровые функции (kernel), которые переводят данные в пространство большей размерности.

11. XGBoost (extreme gradient boosting) — метод градиентного бустинга, в котором деревья решений строятся последовательно: каждое следующее дерево исправляет ошибки предыдущего. Алгоритм часто демонстрирует высокую производительность на сложных задачах.

12. Многомерная Cox-регрессия (multivariate Cox regression) — статистический метод анализа выживаемости, моделирующий время до наступления события (например, смерти или рецидива заболевания) с учётом нескольких факторов, влияющих на исход.

13. micro-avg и macro-avg — методы усреднения метрик (precision, recall, F-score) в задачах классификации:

– micro-avg: агрегирует предсказания и метки по всем классам и затем вычисляет общую метрику;

– macro-avg: вычисляет метрику отдельно для каждого класса и затем усредняет результаты (все классы имеют одинаковый вес).

14. Методы объяснения моделей (SHAP и break down):

– SHAP — метод объяснения моделей машинного обучения, использующий значения Шепли (теория игр) для оценки вклада каждого признака (например, возраста, лабораторных показателей или симптомов) в предсказание. SHAP повышает интерпретируемость моделей, делая их более прозрачными для клинициста.

– Break down — метод пошагового разложения предсказания модели на вклады признаков. Он помогает понять, какие именно факторы (например, наличие гипомании, возраст или лечение) вносят наибольший вклад в итоговое решение модели.

3. Логика работы с ЭМК-данными (последовательность этапов)

Чтобы связать между собой все разделы обзора, ниже приведена типичная последовательность построения ИИ-моделей и их внедрения на основе ЭМК:

1. Сбор и подготовка данных ЭМК: структурированные поля (коды, назначения, госпитализации, лабораторные показатели) и, при наличии, тексты клинических заметок.

2. Фенотипирование: разработка и применение ЭМК-фенотипа (правила/алгоритма), по которому формируются группы «случай» (пациенты, которые считаются имеющими целевое состояние) и «контроль» (пациенты, которые не имеют целевого состояния). ЭМК-фенотип может включать комбинацию кодов, назначений, клинического контекста и других признаков.

3. Формирование меток: присвоение каждому пациенту (или эпизоду) классификационной метки на основе выбранного фенотипа (например, БАР vs БДР).

4. Валидация меток: проверка соответствия меток независимому эталону (структурированное интервью/экспертная разметка) и/или конвергентная проверка (например, генетическая согласованность).

5. Обучение и оценка моделей: построение ML-моделей под конкретную клиническую задачу (БАР vs БДР при обращении; прогноз конверсии БДР→БАР) с корректными временными окнами и контролем утечки информации.

6. Оценка клинической применимости: помимо AUC, оценка калибровки, выбор порогов, PPV/NPV при реальной распространённости и анализ клинической пользы.

7. Внедрение в СППКР: использование модели как риск-стратификации/триггера для углублённой диагностики, с мониторингом качества и соблюдением требований безопасности данных.

4. Качество «меток» диагноза и фенотипирование БАР по данным ЭМК

Качество «меток» диагноза и фенотипирование биполярного аффективного расстройства на основе данных электронных медицинских карт требует особого внимания к специфике психиатрических данных. Формальный диагноз может отражать особенности кодирования и документации, а не клиническую реальность, что делает критически важным этап фенотипирования. Это включает формирование рабочих определений БАР и контрольных групп на основе совокупности данных ЭМК, а не единичного кода. В обзорной работе Smoller отмечается, что основным ограничением использования ЭМК в психиатрии является необходимость валидности фенотипов, поскольку неполнота симптомов и неоднородность документации требуют алгоритмов, которые комбинируют структурированные данные и клинический текст, с обязательной проверкой полученных определений

.

На практике фенотипирование БАР по ЭМК осуществляется через несколько стратегий. Во-первых, используются кодовые определения, например, наличие и повторяемость диагностических кодов БАР. Во-вторых, учитываются клинические контексты, такие как назначения препаратов и частота госпитализаций. В-третьих, для повышения точности применяются неструктурированные клинические заметки, из которых извлекаются важные диагностические маркеры с помощью методов NLP и text mining. Это позволяет получать «метки» (например, БАР vs БДР) с контролируемым уровнем достоверности

.

Исследования показывают, что выбор фенотипа существенно влияет на качество разметки. В работе Castro и соавт. различные варианты фенотипирования БАР были сопоставлены с клиническим интервью (SCID) как «золотым стандартом». Более строгие определения обеспечивали более высокую прогностическую ценность: для NLP-усиленного фенотипа БАР (95-NLP) значение PPV (Positive predictive value) составило 0,85, а для строгого кодового определения (Coded-Strict) — 0,79. Более «широкие» определения демонстрировали меньшую точность, что подчёркивает важность строгих критериев разметки для обучения моделей ИИ

.

Дополнительную достоверность ЭМК-фенотипов обеспечивает внешняя валидация. Chen и соавт. показали, что автоматизированные фенотипы БАР, полученные из ЭМК, демонстрируют генетическую согласованность с крупными выборками БАР, подтверждая, что корректно построенный фенотип отражает клинически осмысленную структуру расстройства, а не только административное кодирование

.

Следовательно, при построении систем поддержки принятия клинических решений (СППКР) на основе ЭМК для различения БАР и БДР первоочередной задачей является обеспечение качества исходных «меток». Это включает использование комбинации структурированных данных и клинического текста (NLP), применение строгих фенотипов с ясными правилами включения и исключения, а также проведение валидации фенотипов. Без этих мер качество моделей будет ограничено шумом разметки и смещениями данных ЭМК

,
,
.

5. Дифференциальная диагностика БАР vs БДР на данных ЭМК в момент обращения/госпитализации

Вторая прикладная задача в рамках ЭМК-подходов — дифференциальная диагностика при обращении/госпитализации, то есть различение депрессивного эпизода при биполярном расстройстве и униполярной депрессии в момент обращения. Важно учитывать, что в ЭМК-моделях часть сигналов может отражать не только «биполярность», но и тяжесть состояния, коморбидность и особенности лечения. Модель должна выступать как «подсказка врачу», помогая заподозрить биполярный спектр у пациента с депрессивной симптоматикой. Качество такого решения зависит от полноты симптомов и клинического контекста в ЭМК, а не только от диагностических кодов.

Исследование Zhu и соавт. на данных госпитального уровня (n=16 311; 2009–2018) сравнивало алгоритмы машинного обучения (логистическая регрессия, random forest, SVM, XGBoost) для различения БАР и БДР. Важной особенностью работы является акцент на интерпретируемости: авторы использовали методы объяснения (SHAP, break down) для демонстрации вклада отдельных признаков, что делает выводы модели более понятными для клинициста.

На тестовой выборке достигалась умеренно высокая дискриминация (AUC = 0,777) при PPV 0,576 и NPV 0,899

. Это типично для клинических задач с неоднородной популяцией: модель лучше «исключает» БАР (высокий NPV), чем подтверждает его (ограниченный PPV).

При исключении самоотчётных симптомов точность модели снижалась (AUC = 0,701 для БАР vs БДР)

. Это подчёркивает важность качественной фиксации симптомов в ЭМК: если симптомы документируются неполно или остаются только в свободном тексте, модель, основанная на демографических и рутинных данных, может быть менее эффективной. Для успешного внедрения СППКР критично обеспечить стандартизированную запись симптомов или использовать NLP для извлечения данных из клинических заметок.

В целом результаты показывают, что модели на клинических и ЭМК-данных могут различать БАР и БДР на уровне, потенциально полезном для клинической практики, особенно при наличии симптомных признаков и интерпретируемых факторов. Практическая ценность таких моделей зависит от качества документации, корректности меток и необходимости внешней проверки переносимости на другие учреждения и популяции

,
.

6. Прогноз диагностической конверсии БДР→БАР как «дифдиагноз во времени»

Задача прогноза диагностической конверсии для СППКР на базе ЭМК заключается в выявлении группы повышенного риска среди пациентов с БДР, у которых позднее может быть уточнён диагноз биполярного аффективного расстройства. Важно, чтобы модель прогнозировала вероятность уточнения диагноза, основываясь на данных, доступных на момент диагностики, чтобы избежать «подглядывания в будущее».

В работе Pradier и соавт. рассматривалась клиническая ситуация, когда у пациентов с БДР оценивался риск постановки кода БАР в течение 3 месяцев после начала антидепрессивной терапии. Исследование охватило 67 807 пациентов, и конверсия наблюдалась у 1,36%. Модели логистической регрессии и random forest продемонстрировали среднюю дискриминацию AUC = 0,76 (0,73–0,80), что позволяет выделять пациентов с повышенным риском уточнения диагноза после начала лечения. Такие подходы могут быть полезны для калибровки интенсивности наблюдения и объёма диагностического дообследования в первые месяцы терапии

.

Сильная сторона методов прогнозирования конверсии заключается в их проверяемости на различных источниках данных. Nestsiarovich и соавт. построили модель 1-годичной конверсии БДР→БАР в формате OMOP (стандартный формат для хранения и анализа данных наблюдений за состоянием здоровья) и провели масштабную валидацию в международной сети OHDSI. Модель, обученная на пяти базах данных США, показала AUC = 0,689 (0,633–0,745), а на девяти внешних базах AUC = 0,664 (0,570–0,785). В качестве предикторов перехода в БАР выделены: молодой возраст, тяжёлая депрессия, психоз, тревога, злоупотребление ПАВ, мысли о самоповреждении и предшествующие психические расстройства. Модель позволяла разделять пациентов на группы с различиями риска до 100-кратных, что подчёркивает клиническую полезность даже при умеренных значениях AUC

.

В исследовании Service и соавт. задача конверсии рассматривалась на горизонте до 5 лет после первичного диагноза БДР, охватывая 13 607 пациентов, из которых 1610 (11,8%) получили диагноз БАР. Использовалась многомерная Cox-регрессия для учета цензурирования и разной длительности наблюдения. Среди предикторов конверсии указывались тяжесть первого эпизода, психоз, госпитализация, семейный анамнез БАР и ассоциации с классами лекарств. Суицидальность, извлечённая из клинических заметок с помощью NLP, также была связана с риском конверсии. Для 5-летнего прогноза AUC = 0,65, с recall 72% и precision 38%, что свидетельствует о способности модели находить значительную долю будущих пациентов с конверсией, но с умеренной долей ложных срабатываний

.

В целом результаты исследований по конверсии БДР→БАР показывают, что с помощью ЭМК можно строить модели с умеренной дискриминацией, которые полезны не для автоматической постановки диагноза, а для выделения группы повышенного риска и как повод к углублённой диагностике. Качество интерпретации зависит от горизонта прогноза (3 месяца, 1 год, 5 лет), частоты события в популяции и степени внешней валидации на независимых данных

,
,
.

7. Использование NLP для извлечения симптомов и признаков из клинических заметок ЭМК

Психиатрические данные в электронных медицинских картах (ЭМК) часто неполные для задач ИИ и СППКР, поскольку важная клиническая информация фиксируется в свободном формате, например, описания симптомов и динамика состояния. Это приводит к тому, что один и тот же пациент может выглядеть как «БДР» в структурированных полях, но иметь маркеры биполярного спектра в текстах. Поэтому всё больше исследований применяют методы NLP и text mining для преобразования клинических заметок в формализованные признаки, пригодные для статистики и машинного обучения.

Работа Wu и соавт. показывает, что коды для БДР приемлемы, но точность кодирования для БАР ниже, что увеличивает риск ошибок фенотипирования. Анализ текстов позволяет извлекать депрессивные симптомы с F-score около 0,753–0,774 и выделять пациентов с БДР (recall 0,85, precision 0,69). Это подчёркивает важность NLP для добавления симптомного слоя в ЭМК-аналитику, критичного для дифференциации аффективных расстройств

.

Dai и соавт. демонстрируют возможность построения моделей на небольших клинических корпусах с использованием современных нейросетевых методов. Они исследовали «скрининг» психиатрических пациентов на выборке 500 пациентов с экспертной разметкой диагнозов. Модели с предобучением превосходят модели «с нуля», показывая выигрыш по micro-avg и macro-avg F-score (на 0,11 и 0,28 соответственно). Это говорит о том, что NLP-признаки из текстов ЭМК могут быть реализованы даже при ограниченных ресурсах, если правильно организована разметка и выбран подход к обучению

.

Обзор Harvey и соавт. показывает, что из 507 найденных работ в итоговый анализ вошли 35 исследований, сгруппированных по направлениям: предсказание/классификация, языковые маркеры БАР, использование ЭМК для оценки исходов и фенотипирования. Важно, что вопросы этики и конфиденциальности упоминаются не во всех работах (60% исследований), что критично для внедрения NLP в клинику. В целом обзор подтверждает, что анализ языка поддерживает клинические задачи при БАР, но качество, переносимость и этические аспекты остаются ограничениями

.

В итоге результаты исследований по NLP в ЭМК указывают на три практических вывода для СППКР в задаче БАР vs БДР:

1) одних кодов часто недостаточно — текстовый слой ЭМК добавляет клинически значимые симптомы;

2) NLP позволяет превращать свободный текст в формализованные признаки, полезные для фенотипирования и предиктивных моделей;

3) необходимо контролировать качество разметки, проверять переносимость на новых данных и соблюдать требования конфиденциальности

,
,
.

8. Заключение

Проведённый обзор показывает, что данные электронных медицинских карт (ЭМК) могут быть использованы для трёх ключевых клинических задач при аффективных расстройствах:

1) фенотипирование БАР и контроль качества «меток»;

2) поддержка дифференциальной диагностики БАР и БДР в момент обращения/госпитализации;

3) риск-стратификация и прогноз диагностической конверсии БДР→БАР. Наиболее устойчивый вывод заключается в том, что качество моделей в значительной степени определяется качеством исходного фенотипа/разметки и полнотой клинических данных, а не только выбором алгоритма.

Основные выводы:

1. Для фенотипирования БАР по ЭМК наиболее перспективны строгие правила включения и многоисточниковые определения (коды + назначения + клинический контекст + текст), а также обязательная валидация меток (клиническая и/или генетическая).

2. В задаче дифференциальной диагностики БАР и БДР модели машинного обучения демонстрируют клинически полезную дискриминацию, однако практическая роль СППКР должна формулироваться как «триггер» для углублённого расспроса и уточнения анамнеза, а не как автоматическая постановка диагноза.

3. Модели прогноза конверсии БДР→БАР дают умеренную точность, но уже позволяют выделять подгруппы повышенного риска; наибольшую ценность имеют подходы с внешней валидацией и проверкой переносимости на независимых наборах данных.

4. NLP является важным дополнением к структурированным полям ЭМК, так как позволяет извлекать симптомные признаки из клинических заметок и повышать информативность признакового пространства моделей.

Ограничения и интерпретация. Результаты ЭМК-исследований требуют осторожной интерпретации из‑за неоднородности документации, возможной неполноты симптомов, различий в практиках кодирования и рисков смещения/утечки информации при формировании признаков. Отдельной проблемой является назначения (антидепрессанты, нормотимики, антипсихотики) могут отражать клиническое решение врача и тяжесть состояния, а не быть независимыми «предикторами», что ограничивает причинную интерпретацию моделей. Кроме того, для практического внедрения СППКР одной дискриминации (AUC) недостаточно: необходимы оценка калибровки, выбор клинических порогов, анализ клинической полезности (например, decision-curve/benefit) и мониторинг качества при переносе на новые ЛПУ. Наконец, внедрение должно сопровождаться процедурами защиты данных (де‑идентификация, контроль доступа, аудит, оценка риска) и governance-подходом (регламенты, ответственность, обновления модели). Поэтому СППКР целесообразно рассматривать как инструмент поддержки решения, дополняющий клиническое обследование.

Перспективы. Приоритетными направлениями дальнейших работ являются:

1. Стандартизация и воспроизводимость фенотипов (в т.ч. единые правила формирования «меток» и временных окон).

2. Расширение внешней валидации (многоцентровые исследования и переносимость между ЛПУ).

3. Развитие интерпретируемых моделей и отчётности результатов (калибровка, пороги, анализ ошибок).

4. Интеграция NLP в клинические контуры при соблюдении требований конфиденциальности и этики.

Метрика статьи

Просмотров:52
Скачиваний:6
Просмотры
Всего:
Просмотров:52