사상 첫 의료 인공지능 RCT, 유효성 및 안정성 모두 합격점 받아

장새롬
발행 2023-08-05 06:00

- 란셋에 전향적 무작위 대조 임상 중간 분석 결과 게재
- 표준 이중 판독 대비 암 발견율 유사... 작업량은 더 감소해 효율성 자랑

의료 인공지능이 2명의 의사가 교차로 검토하고 있는 현행 표준 이중 판독 대비 안정성과 유효성이 충분하다는 연구 결과가 나와 의료계가 주목하고 있다. 세계 최초로 이뤄진 전향적 무작위 대조 임상시험 결과라는 점에서 의료 인공지능의 효용성을 뒷받침하는 강력한 근거로 작용할 것으로 보인다.

현지시각으로 2일 영국의 권위있는 의학 저널인 란셋(LANCET)에는 의료 인공지능을 활용한 유방암 검진의 효용성에 대한 무작위 대조 임상시험(RCT)의 중간 결과를 분석한 자료가 게재됐다.

유방암 분야는 사실상 의료 인공지능의 태동의 분야로 수많은 AI가 개발돼 차례로 그 효용성을 입증하고 있다. 하지만 대부분 후향적 연구라는 점에서 근거의 무게감이 떨어졌었다. 이 때문에 의료 인공지능이 과연 효용성이 있느냐에 대한 논란이 계속되고 있다.

‘Mammography Screening With Artificial Intellgence(MASAI)’로 명명된 이번 연구에 이목이 쏠리는 것도 같은 배경이다. 인공지능 효용성을 평가하는 세계 최초의 무작위 이중맹검 대조 임상시험이라는 점에서 강력한 근거가 될 수 있는 이유다.

이번 란셋에 공개된 내용은 MASAI의 중간 분석 결과다. 현재 MASAI는 10만 명의 대조를 목표로 진행하고 있는 가운데 8만 명이 모집된 상태에서의 중간 분석 결과를 발표했다.

연구를 주도한 스웨덴 룬드대 크리스티나(Kristina Lang) 교수는 “지금까지 인공지능의 효용성을 증명하기 위한 수많은 시도가 있었지만 RCT가 없었다는 점에서 한계가 있었다"며 "인공지능의 효용성을 입증하기 위한 최초의 RCT 결과에 주목하는 이유”라고 설명했다.

연구진은 효용성 분석에 등록된 8만 33명의 여성을 무작위로 두 그룹으로 나눠 할당했다. 그 결과 인공지능 지원 스크리닝을 받은 개입 그룹의 여성은 4만 3명, 표준 이중 판독을 받은 대조군은 4만 30명으로 분류됐다.

스웨덴에서 연구를 진행한 배경도 여기에 있다. 한명의 영상의학과 전문의가 판독을 담당하는 다른 국가와 달리 스웨덴은 두명의 전문의가 교차로 진단하는 이중 판독이 표준 요법으로 정립돼 있기 때문이다.

결국 인공지능이 판독한 결과와 전문의 두명이 교차로 판독한 결과(표준판독군)를 두고 직접 비교를 진행한 것과 다름이 없었다.

결과적으로 암 발견률을 비교하자 인공지능이 판독한 그룹은 1000명 당 6.1명을 기록했다. 표준 판독군이 1000명 당 5.1명이라는 점을 감안하면 통계적으로 20% 더 많은 암을 발견할 수 있다는 결론이 나왔다.

다른 요인들은 인공지능이 판독한 그룹과 표준 판독군 사이에 큰 차이가 없었다. 위양성률 등은 모두 1.5%대로 유사했고 지속되는 추적 관찰에서 암을 판독해 내는 비율도 크게 다르지 않았다.

하지만 최종 진단을 내리는 전문의의 업무량은 눈에 띄게 감소했다. 비슷한 정확도를 보여주면서도 전문의들의 업무량의 44%가 줄어드는 효과를 보인 것이다.

실제로 같은 수의 환자(각 4만여명)를 봤을때 암을 발견하기 위해 인공지능이 지원한 판독 수는 4만 6345개에 불과했지만 표준 판독군은 판독 수가 8만 3231개에 달했다.

크리스티나 교수는 "유방암 검진에 있어 의료 인공지능은 두명의 영상의학과 전문의가 교차 판독하는 매우 민감도 높은 방식에 비해 암 발견율은 비슷하면서도 판독 수를 44%나 낮췄다"며 "유방암 검진에 인공지능을 바로 투입해도 매우 유효성이 있으며 안전하다는 것을 강력하게 뒷받침하는 근거"라고 설명했다.

그는 이어 "10만명의 등록과 2년간 추적 관찰을 전제로 하는 연구의 1차 종점이 곧 발표될 예정"이라며 "상당 부분 진행된 연구에서 긍정적 결과를 얻은 만큼 충분히 임상 적용이 가능한 합격점을 받을 것으로 기대한다"고 밝혔다.

장새롬 다른기사보기