Abstract
This study aims to analyze the similarities and dissimilarities of various versions of <Heungbu-jeon> at both micro- and macro-levels using contents analysis techniques and the Hamming distance metrics. The 28 versions of <Heungbu-jeon> were segmented into 341 content units, and for each unit, the value of the content type was encoded. The dissimilarities between content types were compared among all versions by the content unit, respectively. The (dis-)similarities based on the content types of the 28 versions were aggregated and transformed into a distance matrix. The matrix was interpreted by multi-dimensional scaling, resulting into the two-dimensional coordinates. By visualizing the results by multi-dimensional scaling analysis, it was confirmed that the versions of <Heungbu-jeon> can be broadly divided into two groups. Hierarchical clustering and phylogenetic analysis were applied to analyze the clusters of the 28 versions, using the same distance matrix. The results showed that there are five clusters based on the micro-level analysis of (dis-)similarities within two major clusters. This study demonstrated the usefulness of applying digital humanities methods to encode the content of classical literary versions and analyze the data using clustering analysis techniques based on the (dis-)similarity of literary content.
이 연구는 내용 분석 기법과 해밍 거리 측정 방법을 적용하여 <흥부전> 이본의 계열과 계통을 미시적, 거시적으로 분석하는 것을 목적으로 한다. <흥부전>의 28개 이본을 내용 단락으로 분절하고 각 단락마다 내용 유형에 따라 내용 유형의 값을 인코딩하여서, 모든 이본의 유형 차이를 비교하였다. 28개 이본의 내용 단락 유형에 따른 차이를 종합하여서 이본의 친소 관계를 분석하기 위하여 거리 행렬로 변환하였다. 거리 행렬은 차원 축소 기법의 일종인 다차원 척도법을 적용하였고 그 결과 거리 행렬을 2차원 공간으로 축소하여 2차원 좌표를 구하였다. 다차원 척도법 분석 결과를 시각화하여서 흥부전 이본은 크게 2가지 계통으로 구분이 된다는 것을 확인하였다. 동일한 거리 행렬을 활용하여 28개 이본의 친소 관계 군집을 분석하기 위한 방법으로는 계층적 군집 분석과 계통분기분석방법을 적용하였다. 그 결과 2개의 이본 계통은 친소 관계의 미시적 분석 결과에 따라 5개의 계열이 존재하는 것을 확인하였다. 이 연구에서는 디지털 인문학 연구 방법을 적용하여 고전 문학 이본의 내용을 인코딩하고 그 데이터를 분석하는 방법을 적용하여 문헌의 내용 유사도에 따른 군집 분석 기법이 유용함을 보여주었다.