Lekarz internista versus ChatGPT

Zespół badawczy złożony z pracowników Katedry Endokrynologii i Diabetologii CM UMK pod przewodnictwem prof. Romana Junika, Kierownika Katedry Endokrynologii i Diabetologii CM UMK oraz dr. Szymona Suwały i studentów Wydziału Lekarskiego z SKN Evidence-Based Medicine wykazał, że sztuczna inteligencja (na przykładzie ChatGPT) nie jest w stanie na tą chwilę wcielić się w rolę polskiego lekarza internisty, a konkretnie - zdać polskiego Państwowego Egzaminu Specjalizacyjnego z zakresu chorób wewnętrznych. Artykuł został opublikowany na łamach Polish Archives of Internal Medicine, https://www.mp.pl/paim/issue/article/16608/.

Badacze przedstawili interfejsowi ChatGPT, 1191 pytań z 10 sesji egzaminacyjnych przeprowadzonych w latach 2013-2017 (nie używano nowszych pytań z uwagi na brak dostępności do oficjalnych statystyk zdających oraz fakt, że ChatGPT w tamtym czasie zasilony był danymi pochodzącymi z okresu przed rokiem 2020) - pytania były przedstawiane w takiej samej formie jak występowały na egzaminie, z pominięciem pytań wymagających analizy rycin / wykresów etc.

W żadnej z sesji egzaminacyjnych ChatGPT nie był zdolny osiągnąć minimalnego progu zaliczeniowego, wynoszącego 60% - przeciętny wynik sztucznej inteligencji wynosił 49.37% i w każdej z tych sesji był znacząco gorszy od realnych wyników uzyskiwanych przez lekarzy podchodzących do egzaminu.

Analizując pytania z podziałem na pytania proste i złożone (w ich konstrukcji), zarówno ludzie jak i ChatGPT lepiej radzili sobie z pytaniami prostszymi, przy czym różnica w skuteczności u ludzi nie była tak drastyczna jak w przypadku sztucznej inteligencji - u realnie zdających odsetek prawidłowych odpowiedzi w pytaniach prostych i złożonych wynosił odpowiednio 70.16% i 66.39%, podczas gdy w przypadku ChatGPT było to 52.88% i 29.38%.

Długość pytań będących elementem egzaminu nie miała istotnego statystycznie znaczenia dla skuteczności tak samo sztucznej inteligencji jak i ludzi. Wskaźnik trudności (oceniany na podstawie parametrów skuteczności zdających egzamin) korelował ze skutecznością sztucznej inteligencji w zadaniach egzaminacyjnych - w przypadku pytań określanych jako bardzo łatwe skuteczność ChatGPT wynosiła 63.48%, w łatwych 41.67%, w umiarkowanych 41.88%, w trudnych 37.12%, a w przypadku bardzo trudnych - 37.12% (dla porównania, w przypadku lekarzy było to: 91.18%, 81.63%, 71.47%, 61.97% i 41.92%).

Sztuczna inteligencja najlepiej radziła sobie z pytaniami z dziedziny alergologii (71.43% prawidłowych odpowiedzi) i chorób zakaźnych (55.26%), najgorszej zaś w pytaniach z zakresu pulmonologii (46.71%), diabetologii (45.1%) i kardiologii (43.72%).

Jako kontrast do faktu nieskuteczności sztucznej inteligencji w walce z polskim PES z chorób wewnętrznych - ChatGPT zaskoczył świat możliwością zdania amerykańskiego USMLE czy europejskiego egzaminu specjalizacyjnego z zakresu kardiologii.

Autor: Dział Promocji i Komunikacji CM

Poprawiono: 5.12.2023, 14:34