"AI 학습데이터, 언론계서 전략적으로 투명성 압박·제도화 요구해야"

더코어·오픈넷 'AI 시대 뉴스저작권 대응전략' 세미나

  • 페이스북
  • 트위치

“언론사들이 협회, 유관단체를 통해 제일 우선적으로 추진할 과제는 어떤 데이터를 얼마나 썼는지 공개토록 하는 압박이라 본다.”


‘클로바X’ 공개 후 생성형 AI가 국내 언론계에 미칠 영향 역시 가시화된 가운데 AI 학습에 사용된 뉴스 데이터 이용범위 등을 기업이 투명하게 공개토록 하고 이에 대한 제도화를 요구하는 게 언론계 권리보호를 위해 전략적으로 급선무란 지적이 나왔다. 스타트업 ‘더코어’와 시민단체 ‘오픈넷’이 마련한 지난 21일 ‘AI 시대의 뉴스저작권 이슈와 대응전략’ 세미나에서 이성규 미디어스피어 대표는 “투명성을 높이는 압박은 명분이 있다. 특히 하이퍼클로바가 처음 논문으로 공개됐을 때 (네이버는) 어떤 데이터를 얼마나 썼는지까지 공개했지만 현재는 완전히 불투명한데 이 태도를 지적할 필요가 있다”며 이 같이 밝혔다.

디지털 비즈니스 전문 미디어 ‘더코어’와 개방, 공유의 인터넷을 지향하는 시민단체 ‘오픈넷’은 지난 21일 서울 용산구 동자아트홀에서 ‘AI 시대 뉴스 저작권 이슈와 대응 전략’ 세미나를 개최했다. 사진은 이날 발표자 (왼쪽부터) 이성규 미디어스피어 대표, 박경신 고려대 법학전문대학원 교수, 강정수 더코어 비즈니스 에디터가 토론 중인 모습.


투명성이 우선 전제되지 않고선 AI가 자신들의 뉴스 데이터를 학습했다는 명확한 근거를 언론사가 증빙하기 어려운 현실에서 비롯된 제언이다. 하이퍼클로바X 이전 하이퍼클로버를 다룬 과거 논문에서 네이버는 데이터세트 항목 등을 공개하며 뉴스와 관련해선 738억개 토큰이 사용됐다고 적시했으나 이후 이런 공개는 없었다. 이 같은 정보 비대칭은 AI 학습데이터와 관련한 향후 개별 언론사의 법적대응에서도 불리한 조건이다. 더욱이 구글이나 네이버 등이 뉴스 저작권의 핵심쟁점이라 할 공정이용과 관련해 SGE(생성형 검색 경험)를 지속 업데이트(정보출처 명시, 링크 확대, 민감한 답변 거부 등)하며 이미 대비 중이란 해석도 나오고 있다.


이날 △사용 목적과 성격(상업·비영리 교육 여부) △저작물의 성격 △저작물 사용 양과 상당성 △잠재 시장에 미칠 영향 등 국내 저작권법상 공정이용 요건이 유사한 미국 2000여개 언론사의 뉴스미디어연합(NMA)과 챗GPT 개발사 오픈AI의 대응 논리를 비교한 이 대표는 “적어도 언론사 잠재 시장에 침해가 없다는 오픈AI 주장은 올초 자체 언어모델을 개발해 현재 비즈니스를 돌리는 블룸버그GPT 사례 등을 볼 때 취약점으로 보인다”고 했다. 그는 “그 안에서 뉴스를 소비하는 행태가 계속되면 더 세게 말할 요소가 되지만 링크 수 등이 늘어난 구글 SGE처럼 언론사 연결고리를 늘리면 희석될 여지도 있다”면서 “과거 학습에 대한 약관동의는 언론이 인정할 수밖에 없어 보이지만 2021년 하이퍼클로바 논문 이후 2년은 문제제기 근거가 되는 시기로 본다. 이로 인한 시장 영향을 앞으로 증명해야 될 텐데 무엇보다 정교한 접근이 필요한 시점”이라고 했다.


언론사 대응전략을 중심으로 꾸려진 세미나에선 AI 시대 저작권 패러다임의 변화 및 향후 논의지점을 전한 강정수 더코어 비즈니스 에디터, AI의 학습권과 공정이용에 대해 현행 저작권법을 중심으로 살핀 박경신 고려대 법학전문대학원 교수의 발표도 이뤄졌다. 토론에서 강 에디터는 “앞으로 공적 논의에서 저작권법 개혁 노력 등이 있어야 하고, 공적 논의 공간이 늘어야 하는데 현실은 사적 협상이나 (언론에) 합의금을 주는 형태로, 예컨대 모든 언론이 아니라 통신사와 개별 협상을 하는 식으로 시대사적 의미가 퇴색된 태도가 더 가능해보인다”며 “공적으로 AI 시대 저작권 전반에 대한 논의, 한계가 더 많이 다뤄질 필요가 있다”고 했다.


오픈넷 이사이기도 한 박 교수는 정보 해방과 창작자 보호 등 측면에서 기존 문화예술인의 배타적 권리를 인정하는 창작자고유보상권 운동을 언론인까지 확대할 만한다는 입장을 피력하기도 했다.


이 대표는 “현재 미국에서 소송을 거는 중심은 뉴욕타임스, 월스트리트저널처럼 페이월을 걸고 있는 회사다. ‘내 걸 함부로 못 쓰게 하려면 페이월을 해야하네’란 방향으로 가는데, 결국 공정이용 범주를 너무 폭넓게 허락하면 정보 격차가 더 심해지고 뉴스 생태계 전체에선 매우 위험할 수 있다”며 “저작권만으로 언론사가 풀 수 있는 문제는 아니다. 다만 과거 검색이 내일 검색이냐는 근본적인 질문이 나오는 시기, 언론사가 생존 모색을 위한 실마리를 찾는 과정에서 저작권이 활용될 여지를 찾는 건 꼭 필요한 상황”이라고 했다.

최승영 기자의 전체기사 보기

배너

많이 읽은 기사