과학이 죽어가고 있다[김우재의 플라이룸 ](78)
작성자 정보
- 김프로 작성
- 작성일
본문
논문공장 산출물(붉은 선)은 1.5년마다 2배씩 성장하며, 2030년에는 합법적 논문 총량(검은 선)에 근접할 것으로 예측된다. 탐지(파란 점선)는 논문공장보다 10배나 뒤처진다. 출처 리처드슨 외, PNAS 2025
나는 초파리를 연구한다. 한마리의 작은 파리를 가지고 유전자 하나의 기능을 밝히는 데 몇년이 걸리기도 한다. 그 지루하고 고독한 실험의 끝에 1편의 논문이 출판되고, 그 논문은 다른 연구자의 실험 위에 쌓인다. 과학은 이렇게 벽돌을 하나씩 올리며 지식의 탑을 쌓는 과정이다. 그 벽돌 하나하나가 진짜라는 신뢰, 그것이 과학의 작동 원리이자 토대다.
그런데 지금, 그 토대가 무너지고 있다. 아래 그림은 미국 국립과학원 회보(PNAS)에 올해 발표된 논문의 핵심 그림이다. 로그 스케일로 그려진 이 그래프에는 4개의 선이 있다. 맨 위의 검은 선은 전 세계 과학 논문의 총량이다. 그 아래 초록 선은 논문 검증 플랫폼 ‘펍피어(PubPeer)’에서 문제가 제기된 논문, 보라색 선은 철회된 논문이다. 그리고 2010년대 중반부터 폭발적으로 솟구치는 붉은 선이 논문공장 산출물이다. 이 붉은 선의 기울기는 나머지 모든 선을 압도한다. 2030년에는 이 붉은 선이 합법적 논문의 총량에 근접하거나 교차할 것으로 예측된다.
이것은 단순한 통계가 아니다. 학문생태계의 심전도다. 심전도가 평평해지면 심장이 멈춘 것이다. 지금 이 심전도는 정상 신호보다 잡음이 더 크다. 뉴턴이 거인의 어깨 위에 서 있었다고 말했을 때, 그 거인은 신뢰할 수 있는 지식의 누적을 의미했다. 하지만 지금 우리는 사상누각 위에 올라서 있는지 모른다.
1.5년마다 2배씩 늘어나는 논문공장
연구팀은 이른바 논문공장(허위 데이터로 논문을 대량 생산하는 브로커 조직)이 만들어낸 의심 논문 3만2000여편을 추적했다. 결론은 단순하다. 논문공장의 가짜 논문은 1.5년마다 2배씩 증가한다. 반면 합법적인 과학 논문이 2배가 되는 데는 15년이 걸린다. 가짜가 진짜보다 10배 빠르게 늘어나고 있다. 연구자들은 이 상황을 넘치는 욕조에서 숟가락으로 물을 빼는 것에 비유했다. 그래프의 세 번째 패널(C)을 보라. 파란 점선(저널 색인 취소 건수)이 논문공장 논문을 게재하는 저널 수(붉은 실선)보다 10배나 적다. 탐지 기관이 저널 하나를 색인에서 지울 때마다, 논문공장은 이미 10개의 다른 저널에 자리를 잡고 있다. 의심 논문의 약 75%는 결코 철회되지 않은 채 학술 문헌에 영구히 남는다.
여기에 인공지능(AI)이 가세했다. 올해 란셋(Lancet)에 발표된 연구는 250만편의 의생명 논문에 포함된 참조문헌을 전수 검증했다. 2023년 논문 1만편당 4개였던 가짜 참조문헌이 2026년에는 57개로 3년 만에 12배 이상 폭증했다. AI 작문 도구가 연구자들의 일상에 보급된 시점과 정확히 일치한다. 대형언어모델은 실존하지 않는 저자, 저널, 논문 제목을 그럴싸하게 결합해 없는 논문을 만들어낸다. 어느 저널에서는 750단어짜리 짧은 논문의 참조 15개 중 10개가 검색조차 불가능한 가짜였고, 그중 하나는 해당 논문이 실린 바로 그 저널에 게재됐다는 가상의 논문을 인용하고 있었다. AI가 자신이 투고된 저널에 없는 논문을 스스로 지어낸 것이다. 이것은 단순한 실수가 아니다. 지식의 연쇄 오염이다.
이 두 오염 경로는 서로를 강화한다. 논문공장이 가짜 논문을 오픈액세스로 출판하면 AI의 훈련 데이터로 흡수된다. 오염된 AI는 더 많은 가짜 참조를 생성하고, 그 참조가 포함된 논문이 다시 학술지를 통과하면 허구는 공식 지식으로 인쇄된다. 연구자가 다른 연구자의 가짜 참조를 재인용하면, 존재하지 않았던 논문이 실제로 존재하는 것처럼 데이터베이스에 자리를 잡는다. 그 데이터베이스를 AI가 다시 학습한다. 가짜 지식의 자기 복제 루프다. 이것은 단순한 부정행위 몇건의 합산이 아니라 자기 강화하는 구조적 붕괴다.
그래프의 첫 번째 패널(A)을 다시 보라. 2023년에 한 번에 10편 이상씩 묶여 취소되는 대량 철회의 규모가 2010년 IEEE 사태 이후 처음으로 전체의 절반을 넘어섰다. 철회 자체가 이제 산업적 배치(batch) 단위로 이루어지고 있다는 것은 논문공장의 운영이 이미 산업적 규모에 도달했음을 의미한다. 한 저널 분석에서 전체 편집자의 0.25%에 해당하는 45명이 전체 철회 논문의 30%를 처리했다. 편집자가 논문공장과 연결된 것이다. 더 근본적인 문제는 이 구조를 만들어낸 평가 시스템에 있다. 논문 편수와 피인용 수, 대학 순위로 연구자와 기관을 평가하는 한, 그것을 조작하는 것이 합리적 선택이 된다. 한국의 학술용병 논란은 이 구조의 국내판이다. 강의실에 한 번도 나타나지 않은 외국인 교수가 6년 동안 496편의 논문을 해당 대학 소속으로 발표했다. 대학 순위는 올랐다. 지식은 단 한 조각도 쌓이지 않았다. 출판 아니면 소멸이라는 압박이 학계를 지배하는 한 논문은 진리를 기록하는 매체가 아니라 생존을 위한 화폐가 된다.
과학이 기능을 잃기 전에
오늘도 나는 논문을 읽는다. 내가 인용하는 그 논문이 누군가의 진짜 실험 기록인지, 브로커가 조립한 가짜인지 확인하는 것은 사실상 불가능하다. RNA 생물학의 일부 분야는 이미 논문공장의 집중 표적이 돼 회복 불가능하게 오염됐을 가능성이 있다는 경고까지 나온다. 내 연구 분야와 인접한 이야기다. 오늘 내가 인용하는 논문이 어제 브로커가 조립한 가짜일 수 있다는 가능성, 그 공포가 이제 실험실 안에 스며들고 있다. 과학자들이 서로를 의심하고 논문 하나하나를 의심하는 세계에서 협력적 지식 축적은 불가능하다.
해결책이 없는 것은 아니다. 논문 제출 시 참조문헌을 자동으로 검증하는 인프라, 이해충돌 없는 독립 조사 기관의 설립, 그리고 논문 편수가 아니라 연구 내용으로 과학자를 평가하는 문화의 전환. 그러나 변화는 느리고 위조자들은 빠르다. 숫자를 숭배하는 시스템이 바뀌지 않는 한, 논문공장은 규제의 틈새를 비집고 새로운 형태로 진화할 것이다. 2030년까지 남은 시간은 길지 않다. 잘못된 임상 연구를 기반으로 처방된 약, 오염된 데이터로 학습한 AI 진단 시스템, 가짜 환경 연구에 기반한 정책—가짜 지식이 실제 의사결정을 오도하기 시작하면 피해는 실험실 밖 세계로 나온다. 이것이 단순히 학계의 위기가 아닌 이유다. 과학은 빈 껍데기가 돼가고 있다. AI와 논문공장의 시너지가 계속된다면 독이 든 껍데기가 될 것이다. 논문이라는 이름의 가짜들이 과학을 잠식하기 전에 시스템을 근본적으로 바꿔야 한다. 우리에게 남은 선택지는 이 두 가지뿐이다. 바꾸거나, 무너지는 것을 지켜보거나.
김우재 낯선 과학자
Copyright © 주간경향. 무단전재 및 재배포 금지.
관련자료
-
이전
-
다음
댓글 0
등록된 댓글이 없습니다.
