데이터라고 다 같은 것이 아니다

[이슈 인사이드 | IT] 최연진 한국일보 IT전문기자

얼마 전 이재명 대통령이 주재한 제1차 핵심 규제 합리화 전략회의에서 인공지능(AI) 학습을 위한 데이터 문제가 관심을 끌었다. 정부의 지나친 거미줄 규제를 걷어내기 위한 이 자리에 기업도 참여했는데 그 중 AI 업체 코딧의 정지은 대표가 공공 데이터의 품질 문제를 거론했다. 그는 “정부에서 AI 학습에 사용하라고 개방한 공공 데이터를 보니 안에 내용이 없는 빈 곽이었다”며 “무슨 데이터인지 식별이 안 돼 사용할 수 없다”고 지적했다.

이재명 대통령이 9월15일 서울 성북구 한국과학기술연구원(KIST)에서 열린 제1차 핵심규제 합리화 전략회의에서 발언하고 있다. /뉴시스


사람들은 데이터만 있으면 AI 학습이 가능하다고 생각하지만 그렇지 않다. 데이터에도 쓸 수 있는 것이 있고 그렇지 못한 것도 있다. AI 학습에 쓸 수 있는 데이터를 ‘AI 레디 데이터’(AI ready data)라고 한다.


AI 레디 데이터는 말 그대로 AI를 위해 준비된 데이터다. AI가 학습이나 답변에 바로 활용할 수 있도록 가공된 데이터다. 창고에 무턱대고 물건을 쌓아 놓는다고 재산이 되는 것은 아니다. 그중에 쓸모없는 것들도 있을 수 있다. 흔히 기업들은 데이터가 많이 축적됐으니 AI 경쟁력이 있다고 착각하는 경우가 많다. 하지만 AI 훈련에 적합하도록 정제된 데이터가 아니면 쓰레기나 다름없다. 오히려 정제되지 않은 데이터를 AI 학습에 활용하면 AI가 거짓말을 하는 환각 오류를 일으킨다.


그렇다면 어떤 데이터가 AI 학습에 적절한 AI 레디 데이터인가. 우선 일정한 형식과 값을 가져야 한다. 과일이라면 이름과 생산 연도, 무게, 당도 등 기본 항목들을 갖고 있어야 하며 이 가운데 누락된 것이 없어야 한다. 특히 과일 이름 항목에 생산 연도가 적혀 있다면 다른 자료와 형식이 달라 AI가 혼란을 일으킨다. 그만큼 자료의 통일성과 구조화가 중요하다.


단적인 예로 데이터의 통일성과 구조화를 보여주는 것이 주소와 우편번호 체계다. 시, 구, 동 순으로 이어지는 주소 체계는 전국 어디서나 똑같다. 우편번호 숫자도 앞자리부터 뒷자리 숫자까지 구조화돼 있어 어느 지역을 의미하는지 파악할 수 있다. 만약 주소와 우편번호가 구조와 형식이 통일돼 있지 않고 뒤죽박죽이라면 우편배달부터 행정 처리까지 제대로 돌아가기 힘들다.


두 번째로, 두말하면 잔소리지만 자료가 정확해야 한다. 또 최신 자료를 담고 있어야 한다. 10년 전 데이터는 AI 또한 10년 전 수준에 머물게 한다.


이런 것들을 명확하게 구분하려면 데이터에 꼬리표가 있어야 한다. 한마디로 데이터의 생성일과 수정일, 출처 등을 표시한 데이터의 이력이다. 앞서 정 대표가 “무슨 데이터인지 식별이 되지 않는다”고 지적한 내용이 바로 이 부분이다. 여기서 착각하면 안 되는 것이 AI 레디 데이터는 누구인지 식별 가능한 개인정보를 말하는 것이 아니다. 사용 가능하도록 비식별 처리된 공공이나 기업 정보를 말한다.

최연진 한국일보 IT전문기자.

중요한 것은 AI 레디 데이터가 국가와 산업, 기업의 AI 경쟁력을 가를 수 있다는 점이다. 잘못된 내용의 교과서로 공부한 학생은 경쟁에서 뒤처질 수밖에 없다. AI 개발 시간을 줄이고 국민들의 AI 활용을 높이려면 지금이라도 정제된 데이터를 준비해야 한다. 곧 경주에서 아시아 태평양 지역 국가들이 참여하는 아시아태평양경제협력체(APEC) 정상회의가 열린다. 이 자리에 각국 정상과 기업 총수들이 대거 참여하니 AI 레디 데이터 문제를 주도적으로 논의해 보는 것도 방법이다. 이 문제를 우리가 주도할 수 있다면 이 또한 시장을 넓힐 기회가 될 수 있다.

최연진 한국일보 IT전문기자의 전체기사 보기

배너

많이 읽은 기사