이들은 임상 2a상에 ‘실패’ 꼬리표가 붙어 있다는 공통점이 있다. 더 정확히는 임상 2a상에서 1차 평가지표 가운데 p값(p-value)에서 0.05 이하의 값을 얻는 데 실패했다. 즉, 의약품이 95% 신뢰도를 얻는 데 실패했단 의미다. p값 0.05 이하를 바꿔 말하면, 치료제가 위약 대비 95% 확률로 효과가 있다고 해석할 수 있다.
이데일리는 15일 제약바이오 업계 관계자, 임상전문가, 애널리스트, 문헌정보 등을 통해 2a상 p값 실패에 대한 오해와 진실을 짚어봤다.
|
임상 2상에서 p값을 중요하게 보는 이유는 임상 3상 결과를 미리 가늠해볼 수 있어서다.
오세중 메리츠증권 연구원은 ‘2상적인 p-value(해설판)’ 보고서를 통해 “임상 2상에 주목해야 하는 이유는 임상 2상과 임상 3상이 동일한 경향성을 보이기 때문”이라며 “임산 2상 p값이 0.05 대비 낮다면 임상 3상에서도 비슷한 결과를 낼 가능성이 높다”고 설명했다. 이어 “(개발 중인 신약이) 표준치료 혹은 위약 대비 (통계적) 유의성이 높을수록 p값은 0.001 혹은 0.001 미만까지 낮아진다”고 덧붙였다.
그는 애브비·베링거인겔하임의 건선치료제 ‘스카이리지’와 테바의 편두통 치료제 ‘아조비’ 등을 사례로 제시했다. 스카이리지와 아조비는 각각 임상 2상에서 p값이 0.001 미만을 기록했고, 임상 3상에서도 같은 결과가 나왔다.
하지만 어디까지나 임상 2상 얘기다. 임상 2상과 2a상은 완전히 다르다는 것이 업계 중론이다.
신혜성 압타바이오 연구개발본부 연구위원(이사)는 “임상 2a상은 p값을 놓고 성공이냐, 실패냐를 단적으로 판단하기보다 개발 방향성을 정하기 위한 단계”라며 “구분하자면 2a 상은 약물 개발 입장에서 ‘Go or Stop’(계속진행 또는 임상중단) 결정을 위한 단계”라고 구분했다.
|
허혜민 키움증권 연구원은 보고서를 통해 “2a상은 효력과 안전성에 대해 후기 임상 진입 전 사전 정보를 얻기 위해 소규모 환자를 대상으로 하는 탐색적 임상”이라며 “p값은 2b상이나 3상 같은 허가 임상에서 중요하다. 2a상에선 입체적인 데이터 해석이 필요하다”고 말했다.
신혜성 이사는 “임상 3상은 최종 허가 단계로, 통계적 유의성 입증이 필수”라며 “모두가 동의할 수 있는 확증적 데이터를 제공하는 방법은 p값”이라며 2a상 p값과 거리를 뒀다.
◇“2a상 p값 충족 어려워...한국만 p값 따져”
문제는 통계적으로 2a상에서 p값을 충족하기 쉽지 않다는 데 있다.
허 연구원은 “2a상 목적이 탐색적 임상인데, 자금이 부족한 바이오텍의 경우 임상 환자 모집 수가 적다”면서 “경우에 따라 한, 두명 데이터로도 p값이 0.05 이상 되기 쉬워 통계적 유의성을 입증하기 어렵다”고 지적했다. 이어 “2a상 p값 데이터만으로 성공·실패로 보는 것은 적절하지 않다는 판단”이라고 말했다.
2a상에서 p값 충족을 위해 임상 규모를 확대하면 환자 모집에 따른 임상 기간이 길어지는 문제도 발생한다.
허 연구원은 보고서에서 p값을 낮추기 위해선 △집단별 샘플 수 증가 △투약군과 위약군 간 표준편차 감소 △투약군과 위약군 간 차이 증가 등이 필요하다고 분석했다. 이 세 가지 조건을 달성하는 방법은 2a상에서 많은 환자를 대상으로 임상을 실시하는 것뿐이다.
|
신 이사는 “임상 2a상에서 p값 얘기하는 나라는 대한민국뿐”이라며 “규제기관에선 2a상 놓고 어떤 것도 판단하지 않는다”고 꼬집었다.
즉 미국 식품의약국(FDA), 식약처, 유럽 의약품청(EMA) 등에선 2a상에 대해 성공,실패를 가늠하지 않는 데, 투자시장과 언론에서만 성공·실패를 구분 짓고 있다는 것이다. 임상시험은 1상~3상을 거치면서 단계마다 목표가 다르다. 2a상은 약물 효능과 안전성에 대한 초기 데이터수집에 목적을 두고 있다.
투자시장과 언론이 임상 2a상 p값 실패를 운운하게 된 것은 전문성이 결여된 규제 당국이 논란 발생에 주먹구구식 대응으로 일관했기 때문이다.
한국거래소는 지난 2022년 포괄공시 가이드라인을 발표하면서, 제약·바이오사가 임상시험수탁기관(CRO)로부터 수령한 임상시험 결과보고서(CSR)를 의무공시하도록 했다. 해당 공시엔 반드시 1차 평가지표 통계값(이하 p값)과 통계적 유의성 등을 기재하도록 했다.
◇국내 실패 낙인 Vs. 해외 우수임상 선정
상황이 이렇다보니 국내에서 실패라는 주홍글씨를 새기고도 해외에선 호평받는 사례도 있다.
압타바이오의 당뇨병성 신증치료제 APX-115는 지난 2020년 유럽 4개국에서 140명의 환자를 대상으로 임상 2a상을 실시했다. 지난 2022년 7월 톱라인(1차지표) 결과를 공개했지만 통계적 유의성을 확보하지 못했다. 당시 압타바이오는 임상 실패에도 불구 성공으로 과대포장했다며 뭇매를 맞았다. 2차 지표였던 중등-중증에서 소변 알부민-크레아티닌 비율(UACR)이 47% 감소했음에도 세간은 무시했다.
더 놀라운 건 같은 해 11월 미국신장학회는 압타바이오 임상 2a상 결과를 ‘올해의 가장 핵심적인 임상연구’(HICT, High-Impact Clinical Trials)로 선정했다는 점이다. 이날 미국시장학회는 3152개의 임상연구 중 단 9개만 HICT에 선정했다. 압타바아오 임상연구는 9개 중 하나였다. 국내 시장과 미국 학계 간의 온도차가 컸단 얘기다.
신 이사는 “미국신장학회 발표 당시 p값 0.05 충족하지 못한 사실을 모두 공개했는데 아무도 신경쓰지 않았다”며 분위기를 전했다.
압타바이오는 APX-115 당뇨병성 신증 적응증 2b상 임상시험계획(IND)을 승인받았다. 1차 지표는 2a상의 결과를 토대로 중등-중등증 당뇨병성 신증 환자를 대상으로 UACR 비율이다.
젬백스 역시 마찬가지 사례다. GV1001의 진행성 핵상마비(PSP) 임상 2a상에서 p값 도출에 실패했다. 일부에선 ‘실패’라며 연구성과를 깎아내렸다. 그럼에도 PSP학회로부터 찬사를 받았다.
이지영 서울특별시 보라매병원 신경과 교수는 “GV1001 PSP 임상 2a상이 실패라고 말하는 사람들은 책임져야 할 것”이라며 “임상에서 건질 데이터가 하나도 없을 때 실패라고 한다. GV1001이 사라지면 PSP 환자들의 유일한 치료 옵션이 사라지는 것”이라고 우려했다.