고전 소설 「소현성록」과 「구운몽」에 대한
AI 디지털 분석이 보여 주는 인문학의 미래
이 책은 두 저자가 중앙대학교 HK+인공지능인문학사업단의 HK 연구 교수로서, 인공 지능 시대가 도래하면서 가능해진 새로운 방법론으로 고전 소설을 분석한 기록이다. 주된 분석 대상이 된 텍스트는 17세기 국문 소설인 「소현성록」 연작과 「구운몽」으로, 「소현성록」 연작은 중세 중국을 배경으로 소현성과 그 부인들의 이야기가 주를 이루는 본전 「소현성록」과 소현성의 여러 아들과 그 부인들의 이야기가 주를 이루는 별전 「소씨삼대록」으로 구성되어 국문 장편 소설의 효시로 불리는 작자 미상의 작품이다. 「구운몽」은 현실 세계의 젊은 승려 성진이 하룻밤 꿈속에서 주인공 양소유로 분해 겪는 팔선녀와의 연애와 성공담을 통해 진정한 삶이란 무엇인가를 묻는, 17세기 소설사를 대표하는 서포 김만중의 국문 소설이다.
두 저자는 2018년 당시 학계에서는 생소하게만 여겨졌던 고전 문학과 디지털 인문학의 융합을 위해 두 작품의 인문 데이터를 처음부터 구축하고, 형태소 분석, 계층 분석, 감정 분석, 사회 네트워크 분석, 딥러닝 분석 등의 다채로운 기법을 최적화해 디지털 분석을 진행했다.
역사 속 숨겨진 「소현성록」 연작의 저자를 찾는 모험:
디지털 문체 분석과 고전 문학
궁극적으로는 0과 1로 세상을 인식하는 컴퓨터가 어떻게 사람의 특징적인 문체를 판별할 수 있을까? 우선 컴퓨터가 문체적인 특징을 형태로 인지한다는 사실을 이해해야 한다. 예를 들어 우리가 텍스트에서 “이순신”을 검색하면 그 결과를 얻지만, 의미상으로 거의 동일하지만 형태가 다른 “충무공”은 검색이 되지 않는다. 이처럼 컴퓨터는 맥락을 파악하는 데는 매우 취약하지만 특정 형태가 전체 문장에서 몇 번 등장했는지는 빠르고 정확하게 처리할 수 있다.
그렇기에 컴퓨터로 진행하는 기본적인 문체 판별은 텍스트에서 특정 형태들의 등장 빈도를 상호 비교하는 통계적 방식으로 이루어진다. 특정 텍스트에 ‘엇디’가 많이 나오