AI가 실험 동물을 구할 수 있을까 ― 쥐를 30~50% 줄이는 "생성 AI 신약 개발"의 현실성

AI가 실험 동물을 구할 수 있을까 ― 쥐를 30~50% 줄이는 "생성 AI 신약 개발"의 현실성

AI가 실험동물을 구할 수 있을까 - 쥐를 30~50% 줄이는 '생성 AI 신약 개발'의 현실성

신약 개발 현장에서는 오랫동안 피할 수 없는 질문이 있었다.
"동물을 최대한 사용하지 않고 신뢰할 수 있는 과학적 결과를 얻을 수 있는가?"

윤리적 관점에서 보면, 실험에 사용되는 동물의 수는 적을수록 좋다. 그러나 과학적 관점에서 보면, 수가 너무 적은 실험은 우연한 변동에 좌우되기 쉽다. 약물 후보 물질이 정말로 효과가 있는지, 아니면 우연히 그렇게 보이는 것인지. 안전성과 유효성을 판단하려면 일정 수 이상의 데이터가 필요하다.

이 딜레마에 생성 AI를 사용하여 도전하려는 연구가 등장했다. 독일의 괴테 대학교 프랑크푸르트와 필립 대학교 마르부르크, 그리고 프라운호퍼 ITMP가 관련된 연구팀은 "genESOM"이라는 생성 AI를 개발했다. 목표는 전임상 연구에서 사용되는 실험동물, 특히 쥐의 수를 줄이면서 연구 결과의 신뢰성을 유지하는 것이다.

발표에 따르면, genESOM은 탐색적 약리 연구에서 동물 수를 30~50% 줄일 가능성이 있다고 한다. 이는 단순한 효율화의 이야기가 아니다. 만약 실용화가 진행된다면, 신약 개발의 비용, 연구 윤리, 동물 복지, 그리고 AI의 과학적 이용을 둘러싼 논의에 큰 영향을 미칠 가능성이 있다.


"AI가 동물 실험을 대체하는 것이 아니라, 적은 실험을 보강하는 것"

이번 연구에서 중요한 점은, genESOM이 동물 실험을 완전히 대체하는 기술이 아니라는 점이다.

생성 AI라는 말에서 문장이나 이미지를 만드는 AI를 연상하기 쉽다. 그러나 genESOM이 생성하는 것은 문장도 이미지도 아닌, 실험 데이터에 가까운 성질을 가진 새로운 데이터 포인트이다. 연구자들은 이미 얻어진 쥐 실험 데이터를 AI에 학습시켜 그 내부 구조를 파악하게 한다. 그리고 실제로는 추가적인 동물을 사용하지 않았음에도 불구하고, 마치 더 많은 동물로부터 얻어진 것 같은 데이터를 생성한다.

예를 들어, 원래는 26마리의 쥐를 사용하여 확인했던 약효 패턴이 있다고 하자. 만약 18마리의 데이터만으로는 통계적 유의성이 사라져버리는 경우에도, genESOM이 그 데이터 구조를 학습하고 적절한 범위에서 추가 데이터를 만들어 원래 실험에 가까운 분석 결과를 재현할 가능성이 있다.

이는 연구실에 존재하지 않는 가상의 쥐를 '늘리는' 것이라기보다는, 이미 관측된 실험 결과의 구조를 AI가 정밀하게 읽어내고 "이 범위라면 추가 측정치로서 타당할 것이다"라고 생각되는 데이터를 보충하는 이미지에 가깝다.

하지만 여기에는 큰 주의점이 있다. AI가 만드는 데이터는 어디까지나 실제 실험 데이터로부터 학습한 것이다. 최초의 실험 데이터가 너무 적거나 편향되어 있으면, AI는 그 편향이나 우연한 노이즈까지 증폭시켜버린다. 즉, genESOM은 "실험을 불필요하게 만드는 마법"이 아니라, "충분한 실데이터를 전제로, 동물 수를 줄일 여지를 넓히는 기술"로 보아야 한다.


연구의 열쇠는 "오류를 지나치게 늘리지 않는" 시스템

생성 AI를 과학 연구에 사용할 때 가장 두려운 문제 중 하나가 "그럴듯한 실수"이다.

문장 생성 AI라면, 존재하지 않는 논문이나 사실을 자신만만하게 말해버리는 경우가 있다. 실험 데이터 생성에서도 마찬가지로, 겉보기에는 자연스러워도 실제로는 과학적으로 의미 없는 데이터를 만들어버릴 위험이 있다. 특히, 연구에서 정말로 알고 싶은 신호뿐만 아니라 우연한 변동까지 늘려버리면, 원래는 효과가 없을 변수도 마치 중요한 것처럼 보이게 된다.

이 문제는 "오류 인플레이션"이라고 불린다. 쉽게 말해, AI가 데이터를 늘릴수록 오차까지 부풀어버리는 현상이다.

genESOM의 특징은, 이 오류 인플레이션을 감시하는 시스템을 포함하고 있다는 점에 있다. 연구팀은 AI가 데이터 구조를 배우는 단계와 새로운 데이터를 생성하는 단계를 나누었다. 그리고 생성 과정에 인위적인 오류 신호를 포함시켜, 그 오류가 어느 정도 확산되는지를 측정할 수 있도록 했다.

이 시스템을 통해 AI가 데이터를 지나치게 만들어 과학적 타당성을 손상시키기 전에 생성을 멈출 수 있는 판단이 가능해진다. 즉, genESOM은 "단순히 데이터를 늘리는 AI"가 아니라 "어디까지 늘려도 되는지를 감시하는 AI"이기도 하다.

이 점은 동물 실험의 감소를 고려할 때 매우 중요하다. 동물 수를 줄이고 싶다는 윤리적 목적이 있더라도, 그 결과로 과학적으로 잘못된 약효 판단을 하게 되면, 결국에는 인간의 임상 시험이나 환자에게도 위험이 미칠 수 있다. 동물 복지와 과학적 신뢰성은 어느 한쪽을 희생하는 관계가 아니라, 양립시켜야 한다.


18마리의 쥐로부터 26마리의 실험 결과에 가까워지기

연구팀은 과거에 행해진 다발성 경화증 모델의 전임상 연구 데이터를 사용하여 genESOM의 실력을 검증했다.

원래 연구에서는 26마리의 쥐가 3개의 치료군으로 나뉘어 실험 약물의 효과가 조사되었다. 연구팀은 이 데이터를 일부러 18마리, 즉 각 군 6마리로 줄이고 "만약 처음부터 적은 동물 수로 실험했다면 어떻게 될까"를 시뮬레이션했다.

그 결과, 18마리만의 데이터로는 원래 연구에서 보였던 치료 효과가 사라져버렸다. 통계 검정에서는 유의한 차이가 나오지 않았고, 기계 학습을 사용해도 치료군의 차이를 잘 구별할 수 없었다. 이는 소수 샘플 연구에서 자주 발생하는 문제다. 효과가 존재하더라도 데이터 수가 적어 검출할 수 없다.

그래서 genESOM을 사용하여 18마리 분의 실데이터에서 추가 데이터를 생성했다. 그러자 원래 26마리의 실험에서 확인되었던 효과가 원래의 유의 수준에 가까운 형태로 다시 나타났다. 게다가 의미 없는 변수를 잘못 중요하다고 판단하는 가양성은 두드러지게 증가하지 않았다.

연구팀에 따르면, 다른 복잡한 심층 학습 모델도 시도되었지만, 이 경우에는 genESOM처럼 잘 작동하지 않았다. 여기서 보이는 것은 과학 데이터의 보완에는 단순히 크고 복잡한 AI를 사용하면 되는 것이 아니라는 것이다. 소규모 생물 의학 데이터에는 소규모 데이터의 구조와 오차를 다루기 위한 설계가 필요하다.


동물 실험 감소는 "3R"의 흐름에 있다

동물 실험을 둘러싼 국제적인 논의에서는 오래전부터 "3R"이라는 사고방식이 중요시되어 왔다.
Replacement, Reduction, Refinement의 세 가지이다.

Replacement는 동물을 사용하지 않는 방법으로의 대체.
Reduction은 사용하는 동물 수의 감소.
Refinement는 동물의 고통을 최대한 경감하는 실험 방법의 개선을 의미한다.

이번 genESOM은 이 중 Reduction에 강하게 관련된 기술이다. 동물 실험을 완전히 폐지하는 것은 아니지만, 동일한 과학적 목적을 달성하기 위해 필요한 동물 수를 줄일 가능성이 있다.

이 위치는 현실적이기도 하다. 최근에는 오르가노이드, 장기 칩, 컴퓨터 시뮬레이션, 인간 유래 세포를 사용한 시험 등 동물 실험을 대체·보완하는 기술이 급속히 발전하고 있다. 그러나 의약품 개발의 모든 단계를 곧바로 동물 없이 진행할 수 있는 것은 아니다. 생체 전체의 면역 반응, 대사, 신경계에 대한 영향 등 복잡한 상호작용을 평가하는 장면에서는 동물 모델이 여전히 사용되고 있다.

그렇기 때문에 현 단계에서는 "제로 아니면 백"이 아니라 "필요한 실험을 더 적게, 더 정밀하게 하는" 기술이 요구되고 있다. genESOM은 그 현실적인 중간 지점에 위치한다.


SNS에서 나올 반응 - 기대, 회의, 그리고 윤리

이 뉴스에 대한 SNS상의 반응은 기사 공개 직후라는 점도 있어, 확인 가능한 공개 댓글이나 확산은 아직 제한적이었다. Phys.org에서도 확인 시점에서는 공유 수가 적고, 댓글란도 크게 움직이는 상황은 아니었다.

다만, 이 주제는 SNS에서 논의되기 쉽다. 왜냐하면 "AI", "동물 실험", "신약 개발", "윤리"라는 감정과 과학 모두에 영향을 미치는 키워드가 겹쳐 있기 때문이다.

먼저 나올 것은 환영의 목소리일 것이다.
"실험 동물을 줄일 수 있다면 훌륭하다"
"AI의 사용 용도로는 꽤 좋은 방향"
"동물 복지와 연구의 양립으로 이어진다면 응원하고 싶다"
이러한 반응은 자연스럽다. 생성 AI는 저작권 문제나 고용에 대한 영향, 허위 정보 등으로 비판을 받는 경우도 많다. 그 중에서 동물의 희생을 줄일 가능성이 있는 이용법은 비교적 긍정적으로 받아들여지기 쉽다.

한편으로는 신중한 목소리도 나올 것이다.
"AI로 만든 데이터를 실험 결과로 취급해도 되는가"
"편리한 결과를 AI가 보강해버리는 위험은 없는가"
"제약 회사가 비용 절감의 구실로 사용하지 않을까"
이러한 우려도 정당하다. AI가 만든 데이터는 현실 그 자체가 아니다. 아무리 교묘하게 만들어져도 실험에서 직접 관측된 데이터와는 구별되어야 한다. 연구 논문이나 규제 심사에서는 합성 데이터가 어떻게 만들어졌고, 어떤 범위에서 사용되었는지를 명확히 해야 한다.

더 나아가 동물 실험에 반대하는 입장에서는 "30~50% 감소로는 충분하지 않다"는 목소리도 나올 수 있다. 동물의 고통을 문제시하는 사람들에게는 감소는 전진이지만, 최종 목표는 완전한 대체이다. 반대로 연구자나 의료 관계자 측에서는 "동물 수를 줄이는 것이 목적화되면 약의 안전성 평가가 느슨해지지 않을까"라는 우려도 나올 것이다.

이 뉴스의 재미는 단순히 "AI 대단하다"로 끝나지 않는다는 점에 있다. AI가 동물을 구할지도 모른다. 하지만 AI가 잘못된 자신감을 과학에 가져다주는 위험도 있다. 그렇기 때문에 기술 그 자체뿐만 아니라 운영 규칙, 투명성, 규제, 연구 윤리가 동시에 요구된다.


"AI가 만든 데이터"는 어디까지 믿을 수 있는가

생성 AI에 의한 데이터 보완은 의료·생물학 분야에서 이미 주목받고 있다. 환자 데이터는 프라이버시 제약이 크고, 희귀 질환에서는 애초에 사례 수가 적다. 전임상 연구에서도 비용이나 윤리적 이유로 거대한 데이터 세트를 쉽게 만들 수 없다.

그렇기 때문에 적은 데이터로부터 학습하고 통계적으로 타당한 범위에서 보조 데이터를 만드는 기술에는 큰 수요가 있다. 하지만 여기서 물어야 할 것은 "데이터가 늘어난 것처럼 보이는 것"과 "지식이 늘어난 것"은 같은 것이 아니라는 점이다.

데이터 포인트가 100개에서 200개로 늘어나도 그 추가분이 실제 세계의 현상을 정확히 반영하지 않으면 연구의 신뢰성은 올라가지 않는다. 오히려 겉보기의 정확도만 높아지고 잘못된 결론에 자신감을 가질 위험이 있다.

genESOM이 평가되는 포인트는 이 위험을 연구팀이 정면으로 다루고 있다는 것이다. 오류 감시, 중지 기준, 가양성 억제 등의 시스템은 합성 데이터 이용의 약점을 의식한 설계이다. AI를 과학에 도입하려면 "만들 수 있는 것"보다 "너무 많이 만들지 않는 것"이 더 중요할 때가 있다.


제약 연구에의 영향

만약 genESOM 같은 기술이 널리 사용되게 된다면, 전임상 연구의 설계는 변할 가능성이 있다.

첫째로, 탐색적 연구의 초기 단계에서 필요한 동물 수를 줄일 수 있다. 약물 후보 물질이 많은 단계에서는 모든 후보를 대규모 동물 실험으로 시험하는 것은 현실적이지 않다. 소수의 실험 데이터를 AI로 보조하고 유망한 후보를 좁힐 수 있다면 연구의 효율은 올라간다.

둘째로, 과거에 축적된 실험 데이터의 가치가 높아진다. genESOM은 실데이터로부터 학습하기 때문에 질 높은 과거 데이터가 중요해진다. 연구 기관이나 기업이 데이터를 정리하고 재사용 가능한 형태로 관리할 동기도 강해질 것이다.

셋째로, 규제 당국과의 관계가 중요해진다. AI가 생성한 데이터를 어디까지 전임상 평가에 사용할 수 있는가. 어느 단계에서는 보조 자료로 취급하고 어느 단계에서는 실험에 의한 재확인이 필요한가. 의약품 개발에서는 과학적 타당성뿐만 아니라 규제상의 수용 가능성이 실용화의 열쇠가 된다.

특히 인간에 대한 임상 시험으로 나아가는 판단에서는 AI 생성 데이터만 의존하는 것은 생각하기 어렵다. 오히려 당분간은 실험 계획의 최적화, 탐색적 분석,