오픈소스 LLM 훈련시켜 기사 제목 달아보니…

황경상 경향신문 기자 석사논문

생성형 인공지능(AI)의 도입 분야나 잠재 영향을 모색하는 시도로 여러 산업군이 분주하다. 이 고민은 언론계도 공유하지만 연구와 실험이 충분히 진행 중이지는 의문이 남는다. 석사학위(고려대 빅데이터융합학과) 논문 <오픈소스 대규모 언어모델을 활용한 신문기사 제목 생성>(황경상 경향신문 데이터저널리즘팀장)은 이런 상황에서 개발 역량을 갖춘 현직 기자가 언론 영역과 맞물려 신기술의 가능성을 살핀 드문 시도라 하겠다.


연구는 오픈소스 언어모델들을 바탕으로 신문기사 제목을 생성하는 모델을 제작하고 성능을 평가한 과정을 담았다. 신문기사 본문과 제목 데이터 5만여 건을 수집해 7개 언어모델을 훈련시키고 100개 기사에 대해 각 모델이 제목을 생성<사진>하게 했다. 상용 언어모델 GPT-3.5-turbo로도 동일한 기사들에 제목을 생성하고 △각 언어모델이 본래 제목을 얼마나 잘 재현했는지 △GPT-4와 사람 각각에게 기사 본문에 어울리는 제목을 잘 생성했는지 0~5점으로 평가시키는 두 방법으로 총 8가지 모델 성능을 측정했다.

실험결과 양 평가 모두에서 일부 모델은 GPT-3.5-turbo를 능가하거나 유사 성능을 보였다. 특히 SOLAR-KO-10.7B(솔라)는 모든 지표에서 상용 모델을 앞섰고, 사람이 직접 작성한 제목 품질에 근접한 결과를 보였다. 실제 해당 모델은 GPT-4 평가에서 4.51점, 사람 평가에선 3.41점을 획득했는데, 이는 기사 본래 제목 각각의 평가점수가 4.53점, 3.66점임을 감안할 때 “실무에서도 사용이 가능한” 수준이었다. 더 나은 제목 생성에 어떤 데이터 학습이 효과적일지 위 ‘솔라’ 모델에 추가 실험도 했다. 같은 주제지만 여러 언론이 조금씩 다르게 쓴 제목, 본문의 기사(네이버 뉴스 클러스터링 수집) 비중을 늘려 학습시키며 성능 향상을 기대했지만 애초 모델 성능이 더 좋게 나타났다. 저자는 “데이터의 다양성이 제목 생성을 위한 언어모델 미세조정에 더 중요한 요소”라고 추론했다.


단순히 최고 점수를 기록한 언어모델을 도입하면 된다는 결론은 섣부르다. 언론 부문에서도 매우 협소한 영역을 다루는 논문이 업계를 당장 바꿀 것이란 단언도 쉽지 않다. 다만 이 연구가 ‘기자’ ‘개발자’ 정체성을 공유한 저자에 의해 가능했던, 신기술에 대한 한 업계 내 당사자의 고유한 고민 결과란 의미가 매우 중요하다. 기술 앞에 무지했거나 무력했던 언론계 과거에서 우리가 배운 점이라면 누구도 답을 대신 알려주지 않았다는 사실일 것이기 때문이다.

맨 위로