포털 다음에서 뉴스 데이터 '줄줄' 새는 중?

  • 페이스북
  • 트위치

포털 다음이 언론사 뉴스를 인링크로 제공하는 도메인에 인공지능(AI) 크롤러 차단 조치를 취하지 않고 있는 것으로 나타났다. AI 기업의 무단 뉴스데이터 학습에 대해 언론사들이 여러 대응을 이어온 상황에서 다음을 통해 뉴스 유출이 이뤄지고, AI 검색 기업이 학습했을 가능성이 제기된다.

포털 네이버 뉴스(왼쪽)와 다음 뉴스의 robots.txt 파일 확인결과. 네이버의 경우 거의 모든 학습용 봇을 차단하고 있고 주석으로 이런 방침을 밝히고 있다. 반면 다음 뉴스의 경우 파일 자체가 존재하지 않아 모든 크롤러가 접근 가능하다.

13일 현재 다음에서 인링크로 공급되는 모든 언론사 뉴스가 담기는 도메인 v.daum.net에 robots.txt 파일이 존재하지 않는 게 확인된다. 모든 검색용과 학습용 봇 등이 뉴스를 긁어가는 게 가능하다는 의미다. robots.txt는 데이터 크롤링 등에 대한 물리적 방어 장치는 아니지만 ‘이 룰을 준수하라’는 정책공표 행위로 소송 등의 근거가 된다. daum.net에선 일부를 제외하고 사실상 모든 AI 검색 크롤러를 차단하고 있는 반면, 뉴스에 대해선 다른 정책을 적용하고 있는 게 현재다.


이 문제를 최근 제기한 미디어스타트업 블루닷AI의 매체 더코어는 관련 기사에서 실제 다음 인링크 기사를 가져올 수 있는지 테스트를 진행, “다음은 뉴스 콘텐츠를 헤더 단위에서 학습용 봇에 노출하고 있다”고 결론내렸다. “AI 검색 기업이 언론사 기사를 학습했을 가능성이 존재한다”고도 했다. 이는 일부 검색 봇만 허용하고 대다수 학습용 봇은 차단한 네이버 뉴스의 조치와도 비교된다.


AI 검색 부상 후 국내 상당 언론은 저작물 보호 등을 위해 자사 사이트에 봇 접근을 막는 조치 등을 취해왔다. 종합일간지 디지털 부문 한 관계자는 “언론사들이 각자 사이트에서 애를 썼어도 다음에서 다 샜을 수 있다는 것 아닌가”라며 “연초 다음과 신규 제휴계약에서 AI 관련 부분은 다 뺐는데, 이렇게 열어놔 버리면 계약이 무슨 의미인가. 최소한의 저작권 보호 생각도 없다는 데 분노가 치민다”고 했다.


이 같은 정책은 ‘데이터 누수’는 물론 언론사의 기회를 상당히 박탈하는 측면도 있다. 각종 검색에서 언론사 기사는 포털 다음 도메인에 밀려 후순위에 올 가능성이 커서다. 실제 한국온라인신문협회에선 몇 년 전부터 구글 검색 시 상당 뉴스가 다음 링크로 노출돼 언론사 ‘트래픽 누수’를 야기한다고 지적해왔지만 시정된 바 없다.


이성규 블루닷AI 대표는 “구글 디스커버에서 다음 내 뉴스 인용을 많이 하고 있다. 다음으로선 틀어막는 순간 트래픽과 광고 수익이 떨어진다”며 “아직 합병되진 않았지만 (다음 인수에 나선) 업스테이지로서도 나쁘지 않다. 막는 순간부터 비용 지불 이슈가 불거지는데 지금은 모든 봇이 다 가져가거나 학습해도 무관한 만큼 안 막는 게 나을 수 있다”고 했다. 이어 “언론사 비즈니스를 심각하게 침해하는 문제이고, 네이버였다면 난리가 났을 것”이라고 덧붙였다.


다음 운영사인 AXZ 관계자는 “다음 뉴스를 통한 유출 사례가 발견되지 않았으며, 안전한 서비스를 운영하기 위해 지속 보완할 것”이란 입장을 밝혔다.

최승영 기자의 전체기사 보기

배너

많이 읽은 기사