얼마 전 한 미디어비평 프로그램을 보다가 고개를 갸웃했다. 언론이 오보를 내보내 피해자가 발생하더라도 이를 정정하거나 사과하는 데 인색하다는 건데, 그 근거를 명확히 하기 위해 10개 신문에 올해 들어 게재된 94건의 정정보도를 자체 분석했다. 이 중 59건은 자체 정정인데, 대부분 단순 오탈자나 오기(誤記)로 인한 것이고 나머지 35건은 언론중재위원회 조정이나 법원 판결에 의한 반론보도나 정정보도라 설명했다. 그리곤 94건 중 300자 이상은 단 24건에 그쳐 진정성이 의심되고, 또 단 10건 만이 사과를 포함했다고 덧붙였다.
편하게 듣거나 읽는다면 무엇이 문제인지 모르고 지나가기 쉽다. 하지만 함정이 있다. 바로 ‘94’란 모수가 문제다. ‘반성하지 않는 언론’이라는 주제를 강조하기 위해 데이터를 오독한 것이다. 각각 수위가 다른 오탈자 정정, 반론보도, 그리고 정정보도가 뒤섞인 94건 ‘모두’가 300자 이상이어야 하고 사과를 담고있어야 할까? 301자면 진정성이 있는 것인가? 그렇다고 해도 피해가 발생했지만 사과하지 않는 언론사의 파렴치함에 대한 비판의 근거로 삼을 수 있을까?
로우데이터(raw data)를 정확히 알 순 없지만, 적어도 오탈자 정정은 제외하고 모수로 삼는 게 좋았을 것으로 보인다. 숫자가 작아 문제였다면 조사기간을 늘려야 했다. 300자보다 적은 정정보도가 문제라면 왜 300자를 기준으로 삼았는지도 밝혀야 한다. 데이터를 근거로 이용하는 건 성공했지만, 데이터 자체를 이해하는 건 성공하지 못했다.
다른 사례도 있다. 한 방송사에서 대선주자 선호도 조사를 심층분석해 친문 표심이 전체 유권자의 12%p라는 보도였다. 다자대결 시 이낙연 전 대표를 지지하는 응답자 중 이재명 vs. 윤석열 양자구도에서 이재명 지사를 지지한다는 응답자는 41.3%이고, 다자대결에서 이 지사를 지지하지만 이낙연 vs. 윤석열 양자구도에서 이 전 대표를 지지한다는 응답자가 53.4%로 확인됐다. 보도에선 53.4%-41.3%, 그러니까 약 12%p의 사람이 ‘친문 표심’이라는 분석을 내놨다.
기초통계가 틀린 건데, 다자대결에서 엄연히 n이 다른 두 집단(이재명 23.5%, 이낙연 12.3%)의 %값을 단순 뺄셈한 오류를 범했다. 응답자가 1000명이라고 단순 가정했을 때 이 전 대표를 지지한다고 밝힌 123명×58.7%=72.21명, 그러니까 전체 응답자 중 7.2% 정도가 ‘이낙연은 되는데 이재명은 안되는 친문 표심’으로 볼 수 있다. 반대로 이재명은 되는데 이낙연은 안되는 표심은 10.9%가량이다.
데이터 저널리즘은 과학과 닮아있다. 같은 조건이라면 같은 결과가 나와야 한다는 재현성(replicability)이 그것이다. 보도에 사용한 데이터를 공개하고, 보도에 넣은 분석이 틀리지 않았음을 모두가 확인할 수 있게 하는 게 핵심이다. 이를 통해 ‘아니면 말고’식의 가짜뉴스를 극복하고, 언론의 신뢰를 회복하고 유지하는 데 데이터를 이용하자는 거다.
데이터를 활용한 보도가 늘어나는 건 환영할만한 일이지만, 데이터가 정교한 거짓말을 완성하는 요소로 이용되는 것은 큰 문제다. 데이터가 주는 객관성이나 엄밀성의 이미지만 빌려가면서 이를 달성하지는 못하는 보도가 늘어나고 있다. 의도적이든 그렇지 않든 틀리게 보도한 숫자는 그 자체로 가짜뉴스가 되고, 기자는 또다시, 거짓말쟁이가 된다.
장슬기 MBC 기획취재팀 데이터전문기자의 전체기사 보기
Copyright @2004 한국기자협회. All rights reserved.