banner

Блог

Dec 03, 2023

Разработка надежных критериев для продвижения инноваций в области искусственного интеллекта в здравоохранении

Nature Machine Intelligence, том 4, страницы 916–921 (2022 г.) Процитировать эту статью

5730 Доступов

2 цитаты

21 Альтметрика

Подробности о метриках

Технологии машинного обучения находят все более широкое применение в сфере здравоохранения. Основными движущими силами являются общедоступные наборы данных о здравоохранении и общий интерес сообщества к использованию своих возможностей для открытия знаний и технологических достижений в этой более консервативной области. Однако с этим дополнительным томом возникает ряд вопросов и опасений: являются ли полученные результаты значимыми и точными ли выводы; как мы узнаем, что мы улучшили современное состояние техники; четко ли определена клиническая проблема и решает ли ее модель? Мы размышляем над ключевыми аспектами сквозного конвейера, которые, по нашему мнению, страдают больше всего в этой области, и предлагаем некоторые передовые методы, позволяющие избежать повторения этих проблем.

Нашей целевой аудиторией являются все, кто проводит эксперименты по сравнительному анализу машинного обучения (МО) в здравоохранении и представляет эти результаты на конференциях или в журналах; и все, кто пишет отзывы об этих заведениях. Под клиническим бенчмаркингом мы подразумеваем следование комбинированному процессу.

Выбор проблемы в сфере здравоохранения.

Использование или создание сопутствующих наборов данных.

Разработка набора моделей ML и соответствующей инфраструктуры.

Оценка этих моделей по набору критериев того, насколько хорошо они решают исходную задачу.

Проблема поиска хорошего эталона гораздо более распространена в сфере здравоохранения, потому что нет достаточного согласия относительно того, что он на самом деле представляет собой1. В типичном исследовательском цикле, когда МО впервые применяется в новой области медицины, это приводит к публикации, которая измеряет эффективность модели и устанавливает планку решения этой проблемы. Набор данных, основные данные, метрики или код не всегда исследуются так тщательно, как в традиционном машинном обучении, поскольку существует большой интерес к тому, что новая технология действительно может сделать на практике. Мы утверждаем, что документы по сравнительному анализу следует изучать еще более тщательно, поскольку различия в определениях, схемах и оценках могут привести к значительному искажению результатов, а также к путанице у новичков в этой области относительно того, как сравнивать свои работы.

В следующих четырех разделах мы рассмотрим области, в которых, по нашему мнению, кроется большая часть расхождений между двумя различными публикациями по сравнительному анализу: наборы данных, инструменты и практики, формулировка проблем и результаты. По нашему мнению, любые подобные изменения могут повлиять на клиническое применение в целом, поскольку достижения будет гораздо легче оценить количественно. Вдохновлен реф. В разделе 2 мы разделяем наши предложения на три категории: необходимые, рекомендуемые и поощряемые (Вставка 1–4). Каждый раздел основывается на предыдущем и помещается в определенную группу с учетом сочетания его воздействия и сложности реализации. Даже если некоторые могут не полностью согласиться с категоризацией, мы ожидаем начать разговор по этим темам, который приведет к изменениям в этой области.

В этой области ведется работа, направленная либо на определение стандартов отчетности (например, STARD-AI3, TRIPOD-AI4), либо на определение передового опыта, когда дело доходит до разработки моделей и отчетности о методах5. Оба эти направления поощряют включение дополнительных деталей в окончательные работы, чтобы уменьшить неопределенность в отношении используемых методов. Мы считаем, что наша работа основывается на этих работах и ​​расширяет их, рассматривая сквозной конвейер и решая менее изученные темы, такие как инструменты и инфраструктура.

Большие, высококачественные, разнообразные и хорошо документированные наборы медицинских данных трудно получить, поскольку обмен данными не является нормой в машинном обучении для медицинских исследований6. Во-первых, наборы медицинских данных содержат чрезвычайно конфиденциальную информацию и поэтому строго регулируются, а недавние исследования направлены на то, чтобы понять отношение пациентов к обмену медицинскими данными7,8. Вот почему эти наборы данных обычно деидентифицируются перед публикацией — процесс, который включает в себя удаление имени пациента, идентификационного номера, даты и места сбора данных. Несмотря на это, недавно было показано, что анонимизированные данные магнитно-резонансной томографии (МРТ) или компьютерной томографии могут быть использованы для реконструкции лица пациента9, что поднимает вопросы о том, достаточны ли текущие стандарты деидентификации для безопасного раскрытия публичных данных. Во-вторых, сбор, обслуживание и хранение таких наборов данных требуют значительных усилий, времени и средств. Более того, наборы данных рассматриваются как конкурентное коммерческое преимущество, причем в тех случаях, когда компании формируются вокруг исключительного использования одного из них. Следовательно, они, как правило, имеют значительную коммерческую ценность, что делает менее привлекательным для сборщиков данных свободное распространение своей работы. Однако, чтобы расширить влияние публикации исследований на закрытые наборы данных и стимулировать воспроизводимость, кураторы данных могли бы создать инфраструктуру, позволяющую сообществу разрабатывать модели с использованием сохраняющих конфиденциальность методов машинного обучения, таких как федеративное обучение10,11,12. В этом случае контроллер данных определяет свои собственные процессы управления, соответствующие политики конфиденциальности и стратегии управления доступом как на этапе обучения, так и на этапе проверки. Это открывает возможности для изучения наборов медицинских данных внешними исследователями, сохраняя при этом конфиденциальность данных, тем самым ускоряя прогресс. Тем не менее, мы признаем, что для настройки этой системы требуется сложное обучение, и трудно доверять таким системам, учитывая, что эти методы относительно новы. Тогда, на начальном этапе, возможно, было бы предпочтительнее, чтобы кураторы данных работали с проверенными внешними специалистами по данным. Еще одна область, которая обещает сохранить ценность для бизнеса, — это отслеживание того, когда член набора данных используется для обучения модели. Примеры этого включают недавнюю работу по нанесению «водяных знаков» на определенный набор данных для облегчения идентификации моделей, обученных на нем13, или таких методов, как вывод членства14. Мы предупреждаем, что это место еще не установлено, поэтому следует соблюдать осторожность, идя по этому пути.

ДЕЛИТЬСЯ