뉴스 저작권, 생성형 AI 혁명의 구원자일까 또다른 장벽일까

[노혜령의 Media Big Read]
(5) 뉴스 저작권과 생성형 AI

저작권의 목적은 문화 및 관련 산업의 발전과 촉진이다. 그래서 저작물의 무단 복제를 법으로 막아 창작자의 이윤을 보장함으로써 창작의 동기를 불어 넣는다. 하지만 과도한 보호는 역효과를 낸다. 연결돼 있지 않았던 지식이 새로 조합되고 재조합되는 과정에서 창작과 혁신이 탄생한다는 점을 고려할 때, 저작권 보호의 높은 장벽이 그런 조합을 가로막을 수 있어서다.


이때 공익을 위해 저작권 침해를 면책해 주는 개념이 ‘공정이용’이다. 국내에서는 2011년 12월에 공정이용 조항(제 35조의 5)이 신설돼 이듬해부터 시행됐다. 한·미 FTA 이행에 따른 저작권법 강화 과정에서 이뤄졌다. 공정이용 여부를 판단하는 4가지 기준 등 그 내용도 미국의 해당 조항인 저작권법 107조를 차용했다. 첫째 이용의 목적 및 성격, 둘째 저작물의 종류 및 용도, 셋째 이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성, 넷째 저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향 등 4가지를 종합적으로 고려해 판단한다고 돼 있다. 하나하나의 기준도 모호하지만 ‘종합’ 판단을 어떻게 내리는지도 명확하지 않다. 그래서 분쟁이 생기면 공정이용 여부는 결국 법정에서 가려진다.

생성형 AI의 변형적 이용을 보여주는 사례들. 위 사진은 미국의 이미지 생성 AI인 스태이블 디퓨젼(Stable Diffusion)의 훈련 데이터(왼쪽)와 이에 기반해 “흰색 배경의 커피컵”이라는 명령어로 생성된 이미지(오른쪽 4개 그림). 육안으로 봐도 양자간 실질적 유사성을 찾기는 어려워 변형적 이용으로 해석될 여지가 높다. /에모리 대학 로스쿨 매튜 새그 교수의 최신 논문 “생성형 AI의 저작권 안전성” (Sag, M. (2023). Copyright safety for generative AI., Houston Law Review. 61(2))

AI의 뉴스 기사 무단 이용이 저작권 침해라고 속단하기 힘든 이유

뉴스 기사를 생성형 AI 모델 훈련에 무단 사용하는 것이 저작권 침해인지를 둘러싼 뜨거운 논쟁의 결말을 예측하기 힘든 이유도 ‘공정이용’의 모호함 때문이다. 그나마 미국에는 의미 있는 공정이용 판례가 많지만 국내에는 그마저 드물다. 올 2월 발행된 한 논문에 따르면 국내에 공정거래 조항이 도입된 지 11년이 지났지만 ‘공정이용’이 언급된 판결까지 포함해도 62건에 불과하다. 대법원이 공정이용의 법리를 설명하고 해석해 적용한 사례는 단 한 건도 없었다. 국내 법조계의 공정이용 논의가 미국 판례에 의존하는 이유다. 미국에서 공정이용의 가장 중요한 잣대가 ‘변형적 이용’이다. 원 저작물에 새로운 목적이나 성격을 덧붙여서 정보, 표현, 의미, 통찰력, 미적 감각 등을 추가함으로써 가치를 부가하는 방식을 말한다. 변형적 이용은 공정이용으로 인정된다. 2012년 미국출판서적협회(Authors Guild)와 하티트러스트(HathiTrust)간 소송은 디지털 맥락에서 가장 자주 인용되는 판례다. 2008년 구글 북스는 출판 도서 본문의 온라인 검색 서비스를 목적으로 미국 대학 도서관들과 손잡고 보유 장서들을 스캔해 디지털화하는 프로젝트 ‘하티트러스트’를 진행했다. 미국 출판서적협회는 저작권이 침해됐다며 소송에 나섰다. 미국 법원은 검색을 위한 데이터베이스화 작업의 경우 검색 목적과 범위, 입력값 형태 등에 따라 검색 결과가 달라지기 때문에 변형적 이용이고 따라서 공정이용이라고 판단했다. 원 데이터에 대한 팩트와 통계를 메타데이터로 만든 뒤 이를 분석해서 새로운 인사이트를 도출하는 소위 ‘텍스트 데이터 마이닝(TDM)’은 변형적 이용이라는 것이다. 최신 논문들을 종합해 보면 이 판례를 들어 생성형 AI의 학습용 데이터 활용 역시 변형적 이용이기 때문에 저작권의 면책을 받을 수 있다는 주장이 많다.

저작권의 열쇠를 쥔 변형적 이용과 공정이용의 모호함

하지만 변형적 이용에 대한 법원의 판단이 자의적인데다 공정이용 4가지 기준이 상충할 때 ‘종합적’ 판단의 기준이 무엇인지는 여전히 모호하다. 지난 5월 내려진 앤디 워홀의 ‘가수 프린스 실크스크린 초상화’ 작품에 대한 판결이 대표적 예다. 사진작가 린 골드스미스가 1981년 촬영한 미국 유명 가수 ‘프린스’의 흑백사진을 밑그림으로 워홀이 실크스크린 기법을 적용해 만든 총 16점의 프린스 시리즈가 저작권 침해인지 여부를 가리는 소송이었다. 1심에서는 변형적 이용을 인정했지만, 항소심과 대법원은 워홀이 골드스미스의 저작권을 침해했다고 판시했다. 충분한 변형적 이용으로 보기에 미흡할 뿐 아니라 두 작품이 똑같이 잡지 기사용이라는 상업적 목적으로 제작된 것이어서 라이선스 시장에서 대체재 관계에 있기 때문에 공정이용에 해당하지 않는다고 결론 내렸다. 변형적 이용을 매우 좁게 적용한 대신 공정이용의 네 번째 기준, 즉 대체재 여부에 방점을 뒀다. 생성형 AI가 뉴스 상품의 대체재인지 여부가 핵심 쟁점이 될 수 있음을 시사한다.

뉴욕타임스의 독자 행보와 소송전 준비의 이면

뉴욕타임스(NYT)가 최근 오픈AI를 상대로 소송을 검토 중이라는 보도도 이 맥락에서 볼 수 있다. NYT는 지난 2월 구글 플랫폼에 콘텐츠를 3년간 제공하는 대가로 1억 달러(약 1300억원)를 받기로 계약을 맺었다. 세부 내용이 공개되지 않았지만, 뉴스 콘텐츠의 유통, 구독, 마케팅, 광고, 그리고 “실험”의 툴에서 협력한다는 발표로 봐서 생성형 AI 바드의 훈련과 관련된 내용이 포함됐을 것으로 보는 시각이 있다. 반면 챗GPT를 만든 오픈AI와는 별도 협의를 진행해왔으나 견해차를 좁히지 못해 소송을 준비 중이라는 보도가 최근 흘러나온다. NYT의 최대 우려는 챗GPT가 뉴스 산업을 대체할 수 있다는 점이다. 공정이용의 네 번째 기준에 집중한 것이다.


하지만 ‘변형적 이용’을 증명하면 ‘종합적 판단’의 결과는 어떻게 될까. 생성형 AI는 뉴스 기사의 표현을 그대로 가져다 쓰는 게 아니다. 챗GPT의 경우 무려 1000테라바이트 이상의 데이터를 투입해 1조8000억개의 매개 변수를 만들고 차원 축소라는 통계적 기법을 통해 확률적으로 발생 빈도가 높은 패턴을 발견해가는 모델이다. 기사의 표현을 그대로 베낀다거나 일부 문장이나 단어를 짜깁기하는 게 아니라 언어적 표현의 수면 아래를 관통하는 공통된 구조를 파악해 예측 모델을 만들어 내는 것이다. 그 모델이 다양한 질문에 답변을 ‘생성’한다. 이것이 명백한 변형적 이용으로 인정되면 공정이용의 면책을 받을 여지가 커진다.


훈련 데이터의 ‘품질’이 향후 생성형 AI 시대에 성능을 좌우하는 핵심을 쥐고 있다는 점도 언론 지형에 큰 영향을 미칠 수 있다. 부고, 인사·동정, 주식시세, 사건·사고 단신기사 등 ‘사실 전달에 불과한 시사 보도’와 보도자료를 그대로 베낀 기사 등은 저작권법의 보호 대상이 아니다. 따라서 팩트에 기반한 심층 분석, 통찰력을 주는 칼럼과 논평 등 고품질 기사를 얼마나 대량으로 훈련 데이터에 투입하느냐가 생성형 AI 경쟁에서도 키를 쥐게 될 전망이다. 챗GPT를 서비스하는 오픈AI가 AP, 구글이 NYT 및 월스트리트저널(WSJ)과 거액의 사용료를 주고 개별 협상을 맺는 이유다. 미국 언론계가 합동으로 빅테크 기업들과 뉴스 저작권료 협상을 진행하려는 연합 전선에 NYT와 WSJ은 합류하지 않기로 했다. 가장 고품질 뉴스를 생산하는 상징적 언론사가 빠지면서 연합 움직임은 벌써 힘이 빠지는 형국이다.

살바도르 달리의 1936년 작품 <Three young surrealist women holding in their arms the skins of an orchestra> (맨 왼쪽)을 훈련 데이터로 넣고 이런 풍의 이미지를 만들어 달라고 명령어를 넣어 생성된 결과. 가운데 4개는 스태이블 디퓨전, 오른쪽 4개는 또 다른 이미지 생성 AI인 미드저니(Midjourney)에서 만들어 낸 이미지다. 모두 싸구려 복제품으로 보이긴 하지만 저작권을 침해할 만큼 실질적 유사성이 있다고 보기는 힘들다. /에모리 대학 로스쿨 매튜 새그 교수의 최신 논문 “생성형 AI의 저작권 안전성” (Sag, M. (2023). Copyright safety for generative AI., Houston Law Review. 61(2))

국내 언론계 대응 수위가 다윗과 골리앗의 격차를 심화시킬 우려

이런 배경에서 국내 언론계 대응이 걱정되는 점은 크게 두 가지다. 첫째 한국신문협회의 지배구조다. 매일의 일상 업무로도 부담이 만만찮은 회원사 임원들이 비상근 체제로 대처하기에 이 이슈는 불확실성이 너무 크고 복잡하며 높은 전문성이 필요하다. 생성형 AI에 사활을 걸고 있는 네이버나 카카오 등의 자금력과 인력 투자를 고려할 때, 저작권 우회 방안에 골몰하는 깊이는 차원이 다를 수밖에 없다. 무엇보다도 기술적 우위 덕분에 생성형 AI의 훈련용 데이터 사용이 왜 공정이용에 해당하는지 증명하는 데 더 유리하다. 미국의 최신 논문들은 이미지 생성형 AI가 학습데이터를 ‘변형적 이용’만 하는 게 아니라 ‘암기’했다가 그대로 결괏값에 내놓을 가능성을 제기하기 시작했다. 특히 훈련 데이터가 클수록, 입력된 훈련 데이터의 이미지가 단순할수록, 그리고 똑같은 이미지가 훈련 데이터에 100개 이상 중복 포함된 경우, 이런 복제 사례가 더 자주 일어난다는 사실을 발견했다. 이게 입증되면 저작권 침해가 성립된다. 이처럼 첨단 기술 발전은 시시각각 예기치 못한 문제를 낳는다. 빅테크 기업들은 그때마다 법무팀과 긴밀히 협조해 문제의 소지를 수정해 갈 수 있는 반면 언론사들에게는 ‘블랙박스’일 뿐이다.

뉴스 저작권 가치 산정의 빈익빈 부익부가 재편할 언론 지형

둘째, 언론계 내부의 이해충돌이다. NYT, WSJ, AP 사례에서 보듯이, 고품질 뉴스를 축적해 온 소수의 대형 언론사와 단순 발생 기사의 비중이 높은 언론사 간 저작권료 가치의 빈익빈 부익부는 기하급수적으로 벌어질 수 있다. AI 혁명에서 뒤처지면 국가 경쟁력도 밀릴 수 있다는 국민적 공감대까지 고려하면, 모든 언론사를 포괄하면서도 충분한 뉴스 저작료를 보장하는 입법이 이뤄질 가능성은 높지 않다. 결국 뉴스 저작권 이슈는 빅테크사와 대형 언론사 간 개별 협상으로 해결될 개연성이 높다. 그 과정에서 ‘소송’을 통해 서로의 파워와 가치를 가늠하면서 윈-윈의 지점에서 저작권료가 결정될 수 있다. ‘망 중립성’이라는 모호한 개념을 둘러싸고 SK브로드밴드와 넷플릭스가 소송전을 병행하다가 결국 타결점을 찾았듯이 말이다. 이 지각변동 앞에서 언론사 각자는 얼마나 준비하고 있는가.

노혜령 ㈜프레스온 대표의 전체기사 보기

배너

많이 읽은 기사