banner

Блог

Nov 08, 2023

Влияние противоречивых человеческих аннотаций на принятие клинических решений, основанных на искусственном интеллекте

npj Digital Medicine, том 6, номер статьи: 26 (2023 г.) Цитировать эту статью

2596 Доступов

18 Альтметрика

Подробности о метриках

При разработке модели контролируемого обучения эксперты предметной области часто используются для предоставления меток классов (аннотаций). Несоответствия в аннотациях обычно возникают, когда даже очень опытные клинические эксперты комментируют одно и то же явление (например, медицинское изображение, диагноз или прогностический статус) из-за присущей экспертам предвзятости, суждений и оговорок, а также других факторов. Хотя их существование относительно хорошо известно, последствия таких несоответствий в значительной степени недостаточно изучены в реальных условиях, когда контролируемое обучение применяется к таким «зашумленным» помеченным данным. Чтобы пролить свет на эти проблемы, мы провели обширные эксперименты и анализ трех реальных наборов данных отделений интенсивной терапии (ОИТ). В частности, отдельные модели были построены на основе общего набора данных, независимо аннотированного 11 консультантами отделения интенсивной терапии Университетской больницы Королевы Елизаветы Глазго, а оценки эффективности моделей сравнивались посредством внутренней проверки (κ Флейса = 0,383, т.е. справедливое согласие). Кроме того, широкая внешняя проверка (как на статических наборах данных, так и на наборах временных рядов) этих 11 классификаторов была проведена на внешнем наборе данных HiRID, где было обнаружено, что классификации моделей имеют низкие парные согласования (среднее κ Коэна = 0,255, т. е. минимальное согласие). . Более того, они склонны расходиться во мнениях больше при принятии решений о выписке (κ Флейса = 0,174), чем при прогнозировании смертности (κ Флейса = 0,267). Учитывая эти несоответствия, был проведен дальнейший анализ для оценки текущих лучших практик получения моделей золотого стандарта и определения консенсуса. Результаты показывают, что: (а) не всегда может быть «суперэксперт» в неотложных клинических ситуациях (используя в качестве показателя характеристики внутренней и внешней модели валидации); и (б) стандартный поиск консенсуса (например, большинством голосов) постоянно приводит к неоптимальным моделям. Однако дальнейший анализ показывает, что оценка обучаемости аннотаций и использование только «обучаемых» наборов аннотированных данных для определения консенсуса позволяет в большинстве случаев достичь оптимальных моделей.

Классическое машинное обучение с учителем предполагает, что все метки обучающих примеров верны, игнорируя классовый шум и неточности1. В здравоохранении это предположение может не соблюдаться, даже если эти ярлыки дают высококвалифицированные врачи, из-за степени шума, субъективности наблюдателя и предвзятости. Если пренебречь ими при обучении системы поддержки принятия решений машинного обучения (ML-DSS), несоответствия аннотаций могут привести к произвольно частичной версии основной истины и к последующим непредсказуемым клиническим последствиям, включая ошибочные классификации2,3,4.

В идеале метки классов получаются в процессе приобретения знаний, включающем выбор соответствующего «золотого стандарта», на котором будут основываться эти основные метки классов истины, для построения системы, основанной на знаниях (KBS). В сфере здравоохранения и биомедицины для предоставления такой маркировки часто привлекаются эксперты в клинической области5. Однако во многих клинических областях эти основные истины трудно найти и определить из-за патофизиологических, диагностических и прогностических неопределенностей, присущих медицине2,6.

Когнитивная психология экспериментально показала, что люди (и, следовательно, эксперты) допускают «ошибки», например, из-за когнитивной перегрузки и предубеждений. С другой стороны, в области экспертных систем и KBS предполагается, что для (большинства) дисциплин существуют «безупречные» высококвалифицированные эксперты, и ключевая задача состоит в том, как таких экспертов можно объективно или субъективно идентифицировать. Однако все больше данных из литературы показывает, что по общим наборам задач (например, по классификации) группы экспертов часто существенно расходятся во мнениях5,7,8. В 2021 году Канеман и др.9 опубликовали важную работу по этой теме под названием «Шум: недостаток человеческого суждения», которая убедительно доказывает, что коллеги-эксперты во многих дисциплинах действительно расходятся во мнениях. Эти авторы9 проводят различие между суждениями и мнениями: в первом случае эксперты должны предоставить ответ из (фиксированного) набора альтернатив, тогда как мнения гораздо более открыты. В этой статье мы имеем дело с задачами, которые требуют вынесения суждений различными экспертами.

 0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert's judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen's κ, Fleiss’ κ and Krippendorff's α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d58063440e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>

ДЕЛИТЬСЯ