A Method on Associated Document Recommendation with Word Correlation Weights

Kim, Seonmi;Na, InSeop;Shin, Juhyun;

doi:10.9717/kmms.2019.22.2.250

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Volume 22 Issue 2
/
Pages.250-259
/
2019
/
1229-7771(pISSN)
/
2384-0102(eISSN)

Korea Multimedia Society (한국멀티미디어학회)

DOI QR Code

A Method on Associated Document Recommendation with Word Correlation Weights

단어 연관성 가중치를 적용한 연관 문서 추천 방법

Kim, Seonmi (Dept. of Software Convergence Engineering Chosun University) ;
Na, InSeop (SW Convergence Education Institute, Chosun University) ;
Shin, Juhyun (Dept. of ICT Convergence, Chosun University)

Received : 2018.12.28
Accepted : 2019.01.21
Published : 2019.02.28

https://doi.org/10.9717/kmms.2019.22.2.250 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

Keywords

1. 서 론

4차 산업혁명 시대를 맞이하면서 인공지능(AI), 빅데이터, 사물인터넷(IoT), 로봇 등 다양한 기술들이 주목받고 있다. 빅데이터의 등장으로 인공지능이 본격적으로 시장에 확대되기 시작했고 구글의 인공지능 ‘알파고’의 바둑 대전을 통해 사람들의 관심도높아졌다. 인공지능이란 기계가 사람과 유사한 지능을 가지도록 인간의 학습능력, 추론능력, 자연어 이해능력 등을 컴퓨터 프로그램으로 실현하는 기술이다. 인공지능 관련 기술 분야로는 패턴인식, 자연어 처리, 기계 학습(MachineLearning), 데이터마이닝, 시멘틱 웹, 지능 엔진 등이 있다. 데이터 분석 및 처리를 위한 핵심 기술들이 주로 해당되고 인공지능은 중요한 기반 기술로 자리 잡고 있으며 인공지능의 능력을 활용하여 더욱 가치 있는 분석 결과를 창출할 수 있다. 자연어 처리(Natural Language Process-ing, NLP)는 컴퓨터가 사람처럼 언어를 이해하고 처리할 수 있도록 해주는 인공 지능의 중요한 연구 분야이며 음성 인식, 정보 검색, 문서 자동 분류, 챗봇,시스템 자동 번역 등 다양하게 응용되고 있다.

정보 검색 기술은 정보 사회를 대표하는 기술이며검색 결과인 정보의 순위는 사람들에게 영향력을 미치는 것으로 검증되었다[1-2]. 대규모의 정보가 생성되고 있고 정보 과부하 문제로 인해 사람들은 필요한 정보를 찾아내는데 어려움을 겪고 있으며 연관 문서추천 방법에 대한 다양한 연구가 진행되고 있다[3-5]. 기존의 용어 사전, 온톨로지와 같은 지식 리소스 기반의 연구는 사람의 개입과 구축비용, 유지보수가 필요하다. TF-IDF 같은 단순 빈도수 기반의 연구는 단어의 의미와 문장에서의 맥락을 고려하지 못하고 새로운 단어에 대한 해석이 불가능하므로 검색의 효율이 떨어진다.

한국 인터넷진흥원(Korea Internet & Security Agency, KISA)에 따르면 모바일 인터넷의 주요 이용 목적은 ‘커뮤니케이션’ 다음으로 ‘자료/정보 습득’이 높았으며 자료/정보 습득 시 가장 많이 이용하는 방법 중 ‘뉴스’가 높은 순위를 차지하였다. 뉴스는 다양한 언론사를 통해 보도되고 넓고 방대한 정보 범위를 가지는 것을 특징으로 한다. 다양한 사건을 다루기 때문에 여러 주제를 내포하고 있으며 하나의 주제속에 매우 다양한 키워드로 이루어져 있으므로 사용자 맞춤형 정보를 제공하는데 한계가 있다.

본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여 LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고 Word2vec을 이용해 단어를 벡터화한 후 가중치 행렬을 생성하여 단어연관성 가중치를 적용해 연관성 SCORE를 도출한다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안한다.

본 논문의 구성은 다음과 같다.2장에서 본 논문의 기본 이론이 되는 LDA와 Word2vec에 대하여 설명하고, 3장에서는 본 논문에서 제안하는 단어 연관성가중치를 적용한 연관 문서 추천 방법에 대하여 설명한다. 4장에서는 제안한 방법을 적용하여 성능을 평가하고 5장에서 결론에 대하여 기술한다.

2. 관련 연구

2.1 LDA

잠재 디리클레 할당(Latent Dirichlet Alocation, LDA)은 토픽 모델링 기법 중 가장 주목 받고 있으며 비 구조화된 대량의 문서 집합에서 잠재되어있는 주제(토픽)를 추출하여 숨겨진 의미 구조를 발견하기 위한 머신러닝 기법이다[6]. 특정 주제에 관련된 문서에서는 해당 주제에 대한 단어가 다른 단어들에 비해 더 자주 등장할 것이라는 개념을 바탕으로 하며문서 내에 내포된 주제와 주제의 분포는 문서 내의 단어 통계를 수학적으로 분석하여 알아낸다. LDA는 확률 모델로 여러 주제가 혼합된 문서를 다룰 수 있는 것을 장점으로 한다.

MTMDCW_2019_v22n2_250_f0001.png 이미지

Fig. 1. Graphical model representation of LDA.

LDA 모델은 Fig.1과 같이 표현되어지며 N은 단어의 개수이고 D는 문서의 개수이며 K는 주제의 개수를 나타낸다. 문서 집합(Corpus)에서 관측된\( W_{d, n}\)을 이용하여 Hidden 상태의 \(\theta_{d}\)와 \(\beta_{k}\)를 추론한다. 각 문서들이 갖는 주제 \(\theta\)를 확률적으로 나타내며 각 토픽에 해당하는 단어들의 확률 분포 z도 나타낼 수 있다. 본 논문에서는 문서 내 주제 분포와 주제 내단어 분포를 추출하기 위하여 LDA를 사용하였다.

2.2 Word2vec

Word2vec은 인공신경망 기반의 단어 임베딩(Wordembedding) 알고리즘으로 빠른 학습 속도와 좋은 성능을 가지고 있다. 단어 임베딩은 딥러닝 분야에서 텍스트를 구성하는 각각의 단어를 수치화하는 방법이며 Word2vec은 문장을 구성하는 단어들의 전후관계를 인공신경망에 학습시켜 단어의 의미를 내포하여 단어를 벡터 공간에 표현한다[7]. 인공신경망은 인간의 신경세포(neuron)의 구조에 많은 영향을 받았으며 각 입력 값을 받아들일 때 입력 값을 바로출력하지 않고 일정한 가중치(weight)를 곱해 준다.

MTMDCW_2019_v22n2_250_f0002.png 이미지

Fig. 2. Examples of (a) CBOW and (b) Skip-gram model configurations.

Fig. 2는 Word2vec의 두 가지 학습 모델인 Con-tinuous Bag-of-Word(CBOW)모델과 Skip-gram 모델이다. CBOW 모델은 주변에 있는 단어들을 이용하여 대상 단어를 예측하는 방식이고, Skip-gram 모델은 대상 단어로 주변 단어를 예측하는 방식이다[8]. 이와 같이 Word2vec은 단어의 의미와 문장에서의 맥락을 고려하여 단어를 벡터로 표현하기 때문에 의미적으로 유사한 단어들끼리 근접한 벡터 공간에 위치하게 된다. 같은 단어라도 단어의 의미와 맥락에 따라 다른 벡터 공간에 학습될 수 있다는 것을 의미한다. 본 논문에서는 단어 벡터들 간의 거리를 코사인 유사도를 통해 계산하여 단어 간 의미적 유사도를 구하기 위해 Word2vec을 사용하였다.

3. 본 론

3.1 시스템 구성도

본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고 Word2vec을 사용하여 단어 간 유사도를 구한다. 두 결과 값을 이용해 가중치 행렬을 생성하고 연관성SCORE를 도출하여 수치가 높은 순서대로 문서를 추천한다. Fig. 3은 본 논문에서 제안하는 의미 기반 연관 문서 추천 방법의 구성도이다.

MTMDCW_2019_v22n2_250_f0003.png 이미지

Fig. 3. System configuration diagram.

실험을 위한 데이터는 네이버(www.naver.com)에서 제공하는 정치 카테고리의 뉴스 기사로 선정해 Java 기반 환경에서 웹 크롤링하여 2018.07.01.부터 2018.07.31.까지 총 24,887개의 기사 내용을 수집해.csv 파일로 저장하였다.Rstudio에서 한국어 자연어 처리를 위해 KoNLP 라이브러리를 사용하며 전처리 작업으로 문장을 어절 단위로 토큰화(Tokenizing) 시키고 형태소 분석을 통해 단어들의 품사를 판별하 PosTagging 작업을 수행한 후 보통 명사를 추출하고 불용어를 제거한다.

TF-IDF 가중치를 부여하여 LDA 기반 토픽 모델링을 수행하고 문서 내 주제 분포와 주제 내 단어 분포를 추출한다.Word2vec 학습을 통해 Vector Spacemodel을 구축하고 단어를 벡터화한 후 단어 간 의미적 유사도를 구해 거리 행렬(Distancematrix)을 생성한다.

거리 행렬에서 주제 내 키워드에 해당하는 부분만 추출해 가중치 행렬(Weightmatrix)을 생성하여 단어 연관성 가중치를 적용해 키워드를 확장하고 DTM(Document TermMatrix) 행렬과 가중합을 통해 연관성 SCORE를 도출한다. 연관성 SCORE의 범위를0부터 1구간으로 일치시키기 위하여 정규화 과정을 거친 후 연관성 SCORE 수치가 높은 순서대로 문서를 추천하는 방법을 제안한다.

3.2 TF-IDF 가중치를 적용한 LDA 기반 토픽 모델링

LDA 분석을 위한 작업으로 문서에 나타나는 단어를 행렬로 표현하는 TDM(Term Document Matrix)을 생성하여 단어가 문서에 몇 회 출현했는지 알 수 있다. TDM은 단어들의 단순 빈도수를 나타내기 때문에 빈도수가 적은 단어들은 중요도가 떨어지므로 어떤 단어가 특정 문서에서 얼마나 중요한지 나타내주는 TF-IDF 가중치를 부여하여 단어 별 TF-IDF 분포 값을 기준으로 TDM의 크기를 조절해 성능을 향상시켜 LDA 기반 토픽 모델링을 수행하였다. 그 결과 ‘오늘’, ‘이번’, ‘관련’, ‘당시’와 같은 의미가 중요하지 않지만 자주 등장하는 단어를 제거할 수 있었다.

LDA기반 토픽 모델링 결과 총 24,887개의 각각의 뉴스 기사 문서에 대한 주제 분포와 주제 내 단어 분포 벡터를 추출할 수 있었다. 본 논문에서는 매개변수 K를 15으로 지정하였고 총 15개의 주제가 생성되었다.15개의 주제에 따라 총 15개의 클러스터가 생성되었고 같은 클러스터 내에 있는 문서들은 서로 동일한 주제 범위를 갖는다.

MTMDCW_2019_v22n2_250_f0004.png 이미지

Fig. 4. Topic number and probability distribution.

Fig.4는 각 문서들이 갖는 주제 번호 및 확률 값의 분포를 시각화하였고 Table1은 문서 내 주제 분포 예시이다. X 좌표는 Topic 번호를 뜻하고 총 15개의 주제를 나타내며 Y 좌표는 15개 각 주제들에 대한 문서들의 확률 값을 의미한다. 하나의 문서가 갖는각 토픽에 대한 최대 확률 값으로 한 문서 내에 여러토픽이 내포되어있으며 다양한 확률 분포 값을 가지는 것을 알 수 있다. 사용자 관심문서가 가장 높은 확률 분포를 가지는 주제를 선택하고 해당 주제의 주제어를 키워드로 지정한다.Fig.5는 Fig.4에 나타난 15개 각 주제들에 해당하는 상위 단어들의 확률분포를 보여준다. 주제 내 단어들을 통해 LDA의 결과인 각 토픽이 어떤 주제 범위를 갖는지 판단할 수 있으며 서로 동일한 주제 범위를 가지는 문서끼리클러스터링된다. LDA 기반 토픽 모델링을 통해 문서를 구조화하여 잠재되어있는 문서와 문서 내 단어간의 관계를 파악할 수 있었다.

Table 1. Topic distribution of documents

MTMDCW_2019_v22n2_250_t0001.png 이미지

MTMDCW_2019_v22n2_250_f0005.png 이미지

Fig. 5. Probability distributions of top 15 words by topic (Utilizing Korean news articles in political categories provided by Naver).

3.3 단어 간 유사도 추출

전처리 작업을 거친 데이터를 Word2vec을 이용하여 200차원, 대용량 데이터에 성능이 좋은 Skip-gram 방식으로 학습하였다. 학습 결과인 단어 벡터 값들을 VectorSpaceModel로 구축했다. 그 결과 의미적으로 유사한 단어들끼리 근접한 벡터 공간에서 위치하는 것을 확인할 수 있었다. 서로 연관되어 있는 단어들이 군집을 형성하며 비슷한 공간에 위치하고 있으며 Word2vec 학습을 통해 단어를 벡터화 할때 단어의 문맥적 의미를 보존하는 것을 알 수 있다. 단어 간의 유사도를 구하기 위해 단어를 벡터 값으로 표현한 수치를 cosinesimilarity를 이용해 계산하여 단어 벡터들 간의 거리를 측정하였다. 식 (1)은 벡터A와 B의 cosinesimilarity를 구하는 계산식이다.

\(\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum\limits_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum\limits_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum\limits_{i=1}^{n}(B)^{2}}}\) (1)

cosinesimilarity는 내적 공간의 두 벡터 사이의 각도를 cosine 값을 이용해 측정하여 벡터 간의 유사한 정도를 구한다.0에서 1사이의 값을 가지며 1에 가까울수록 두 단어가 유사하다. 다음과 같은 방식으로 문서 내 단어 벡터들 간의 거리를 계산하였고Table 2와 같이 단어 간의 유사도를 나타내는 거리행렬을 생성한다.

Table 2. Example of a distance matrix (Utilizing Korean news articles in political categories provided by Naver)

MTMDCW_2019_v22n2_250_t0002.png 이미지

3.4 연관성 Score 도출

3.2절에서는 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출했고 3.3절에서는 Word2vec을 사용하여 단어 간 유사도를 구해 거리 행렬을 생성하였다.

MTMDCW_2019_v22n2_250_f0006.png 이미지

Fig. 6. Framework for Recommendation of Related Documents.

본 절에서는 문서의 주제 내 키워드에 해당하는 부분만 추출하여 가중치 행렬을 생성하고 단어 연관성가중치를 적용해 연관성 SCORE를 도출한다. Fig. 6은 본 논문에서 제안한 연관 문서 추천 시스템의 프레임워크이며 사용자의 관심문서 또는 질의 문서의 확률 분포가 가장 높은 주제를 찾고 사용자가 원하는 주제 내의 키워드에 따라 가장 연관성이 높은맞춤형 문서들을 추천해준다. 사용자 관심문서는 사용자의 조회 수가 높은 뉴스 기사로 정의한다. Fig. 7은 연관성 SCORE 도출 예시를 나타낸다.

MTMDCW_2019_v22n2_250_f0007.png 이미지

Fig. 7. Procedure of extracting relevance score (Utilizing Korean news articles in political categories provided by Naver).

사용자 관심문서의 키워드와 문서 집합 내 단어들의 의미 관계를 고려하기 위하여 Word2vec을 사용해 생성한 단어들 간의 유사도를 나타내는 거리 행렬에서 해당 주제의 키워드에 해당하는 부분만 추출하여 가중치 행렬로 사용하였고 문서와 단어의 관계를 빈도수로 나타내는 DTM을 생성하였다. 두 행렬의 가중합을 통해 연관성 SCORE를 산출하였고 키워드와 문서간의 연관성을 파악할 수 있다. 가중합은 각각의 수에 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합하는 계산 방식을 의미한다. 연관성 SCORE산출 과정은 식 (2)와 같이 나타낼 수 있다.

Relevance SCORE \(=\sum\limits_{i=1}^{n} \sum\limits_{j=1}^{q} w_{j} a_{i, j}\) (2)

가중치 행렬에서 ‘비핵화’와 ‘핵물질’, '일자리', ‘폭염’과 같은 문서 내 단어들의 유사도를 나타는 1행과DTM에서 문서1 내에서 단어 등장 유무를 나타내는 1열을 가중합하면 ‘비핵화’ 키워드와 문서 1의 연관성 SCORE를 도출할 수 있다. ‘비핵화’ 키워드와 연관성이 높은 ‘핵물질’은 높은 가중치가 부여되고 연관성이 낮은 ‘일자리’와 ‘폭염’은 낮은 가중치를 갖게 된다. 단어의 의미와 문장에서의 맥락을 내포한 단어간의 의미적 유사도를 가중치로 사용하였고 특정 키워드와 의미가 유사할수록 높은 가중치를 부여할 수 있다. 가중치가 적용된 키워드와 문서 내 단어들의 등장 유무를 통해 연관성 SCORE를 산출하였다. 연관성 SCORE를 통해 어떤 문서가 어떤 주제 내 특정키워드와 얼마나 연관성이 있는지 수치화할 수 있게 되고 점수가 높은 순서대로 문서를 추천해준다.

제안하는 방법론을 통하여 문서를 검색할 때 여러뜻을 가지고 있는 다의어와 모양이 달라도 의미는 같은 동음이의어를 처리하여 키워드를 확장할 수 있고 단어 간의 의미 관계를 고려한 의미 기반 문서 검색이 가능해진다.

Table 3 The relevance score normalization results of the 'denuclearization' keyword

MTMDCW_2019_v22n2_250_t0003.png 이미지

Table3은 ‘비핵화’ 키워드에 대한 연관성 SCORE결과와 정규화 과정을 거친 연관성 SCORE 값을 비교한 것이다. 키워드 결과 값마다 서로 다른 연관성SCORE 범위를 가지므로 범위를 0에서 1 구간으로 일치시키기 위하여 연관성 SCORE를 정규화하였다. 1에 가까울수록 연관성이 높은 문서이며 정규화 할때 사용한 수식은 식 (3)과 같다.

\(z_{i}=\frac{x_{i}-\min (x)}{\max (x)-\min (x)}\) (3)

4. 실험 결과 및 고찰

4.1 실험 결과 및 성능 평가

실험에 사용한 키워드는 ‘비핵화’로 선정했으며 제안하는 방법의 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에 있는 기사들은 Table4와 같다.

Table 4. Examples of articles by the range of relevance scores (Utilizing Korean news articles in political categories provided by Naver)

MTMDCW_2019_v22n2_250_t0004.png 이미지

상위 연관성 SCORE 범위에 있는 기사들은 핵, 핵물질, 핵탄두, 핵실험장, 핵국가, 핵무력 등 ‘비핵화’키워드와 연관성이 높은 단어들로 구성되기 때문에 주로 직접적인 의견이 담긴 기사들이 나타났다. 하위연관성 SCORE 범위에 있는 기사들은 종전선언, 유해, 송환, 휴가 등 ‘비핵화’와 낮은 연관성을 갖는 단어들을 포함하기 때문에 이와 같은 결과가 도출되었다.

본 논문에서 제안하는 방법에 대한 성능을 평가하기 위해 TextRank 알고리즘을 사용하여 문서 내 단어의 중요도를 측정하였다[9-12]. 문서 내의 단어들을 정점(Node)로 선택하였고 두 단어의 연관성을 확률적으로 계산하는 PMI(Pointwise Mutual Infor-mation) 값을 간선(Edge)으로 지정했다.PMI 값이 클수록 두 단어의 연관성이 높다는 것을 의미한다[13]. PMI의 계산식은 식 (4)와 같고 분모의 P(X,Y)는 X,Y가 동시에 출현할 확률을 나타내고 있으며 분자 P(X)P(Y)는 X와 Y가 각각 독립적으로 일어날 확률을 의미하고 있다. 성능 평가 또한 두 범위에서 진행하였으며 범위별 단어 중요도 결과는 Table 5와 같다.

\(\operatorname{PM}(X, Y)=\log \frac{P(X, Y)}{P(X) P(Y)}\) (4)

Table 5. Importance of words by the range of relevance scores (Utilizing Korean news articles in political categories provided by Naver)

MTMDCW_2019_v22n2_250_t0005.png 이미지

성능 평가 결과 ‘비핵화’ 키워드는 상위 연관성SCORE에서 더 높은 중요도를 가졌으며 상위 연관성 SCORE 범위의 ‘트럼프’, ‘김정은’과 하위 연관성SCORE 범위의 ‘종전’, ‘선언’과 같이 각 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었다. 본 논문에서 제안하는 단어연관성 가중치를 적용한 연관성 SCORE에 따른 의미 기반 문서 추천의 적합성을 확인할 수 있었다.

4.2 비교 평가

키워드와 문서간의 연관성을 측정하여 문서의 랭킹을 매기기 위해 제안하는 방법과 기존 방법론을 통해 문서들에 대한 연관성을 도출하여 비교 실험을 진행한다. 검색 엔진에서 많이 사용되는 TF-IDF와 LDA를 사용하였고 본 논문에서 제안하는 방법의 결과인 상위 연관성 SCORE 범위와 하위 연관성SCORE 범위에서 기존 방법론을 통해 키워드와 문서간의 연관성을 측정하였다.Table6과 Table 7은각 범위의 비교 실험에 대한 결과를 나타낸다.

Table 6. Comparison test results of the high relevance score range

MTMDCW_2019_v22n2_250_t0006.png 이미지

Table 7. Comparison test results of the low relevance score range

MTMDCW_2019_v22n2_250_t0007.png 이미지

비교 실험 결과 TF-IDF는 연관성이 불규칙적으로 일치하지 않게 나타났다.LDA의 결과 범위는 0부터 1까지이며 제안하는 방법의 상위 연관성 SCORE범위에서는 LDA 또한 범위 기준으로 높은 수치 값이 나타났지만 하위 연관성 SCORE 범위에서는 상위 연관성 SCORE와 유사한 값의 수치 결과가 나타난 것을 확인할 수 있었다.

문장에서의 맥락이나 문맥상의 의미를 통해 단어간의 관계를 고려하지 않고 TF-IDF는 단어 간의 관계를 단순 빈도수를 기반으로 계산하며 확률 모델인 LDA는 확률적으로 계산하기 때문에 위와 같은 결과가 도출된 것으로 판단할 수 있다. 제안하는 방법은 단어의 문맥적 의미를 보존하여 키워드와 문서의 연관성 SCORE를 도출할 수 있으며 기존 방법론보다 더 효과적인 의미 기반 문서 추천이 가능하다는 것을 알 수 있었다.

5. 결 론

본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여 LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고 Word2vec을 이용해 단어를 벡터화한 후 가중치 행렬을 생성하여 단어연관성 가중치를 적용해 연관성 SCORE를 도출한다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안하였다.

가중치 행렬을 통해 사용자가 원하는 키워드와 문서집합 내 단어들의 의미적 연관성을 가중치로 부여하였고 키워드와 문서의 연관성을 SCORE로 수치화하였다. LDA는 확률 모델로 단어 간의 관계를 확률적으로 계산하지만 Word2vec을 이용해 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 의미적 검색을 가능하게 하였고 확률에 의존한 일반화의 한계를 극복할 수 있도록 했다. 의미적 모호성을 해소하여 문서 검색의 성능이 향상될 수 있고 사용자가 원하는 키워드와 가장 연관성이 높은 문서를 추천해주므로 사용자 맞춤형 정보를 제공할 수 있으며 같은 주제에서 각 키워드와 관련된 사건들을 파악하기 쉬워진다.

연관성 SCORE를 통한 문서 추천 성능 평가 결과로 질의 키워드는 상위 연관성 SCORE 수치 값이 클수록 더 높은 중요도를 가졌다. 상위 연관성 SCORE와 하위 연관성 SCORE 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었으며 제안하는 방법의 적합성을 확인할 수 있었다. 비교실험을 통하여 기존 문서 랭킹 방법론인 TF-IDF와 LDA보다 더 효과적인 의미 기반 문서추천이 가능하다는 것을 알 수 있었다.

References

J.Y. Kim, "Internet Search Engine : Technological Mode that Draws User's Attention to Make Its Expertise Reinforce," Journal of Science and Technology Studies, Vol. 13, No. 1, pp. 181-216, 2013.
J.Y. Oh and S.G. Park, "The Effects of Search Engine Credibility and Information Ranking on Search Behavior," Journal of Korean Society for J ournalism and Communication Studies, Vol. 53, No. 6, pp. 26-49, 2009.
G.J. Ham, "Semantic-based Document Retrieval Technology Trend," Journal of Korean Society of Mechanical Engineers, Vol. 55, No. 5, pp. 38-42, 2015.
R. Kwak, S. Kim, S. Lee, and B. Suh, "Intelligent Issues Tracking System : Exploring Relationship between Stock-specific Keywords and Stock Price," Proceedings of HCI KOREA, pp. 351-356, 2018.
M.S. Kim and G.Y. Hae, "XML Information Retrieval by Document Filtering and Query Expansion Based on Ontology," Journal of Korea Multimedia Society, Vol. 8, No. 5, pp. 596-605, 2005.
D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv preprint, arXiv:1301.3781, 2013.
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," Proceeding of International Conference on Neural Information Processing Systems, pp. 3111-3119, 2013.
L. Page, S. Brin, R. Motwani, and T. Winograd, ThePageRank Citation Ranking: Bringing Order to the Web, Stanford Digital Libraries Working Paper, 1998.
S. Brin and L. Page, "The Anatomy of a Large-scale Hypertextual Web Search Engine," Journal of Computer Networks and ISDN Systems, Vol. 33, pp. 107-117, 1988.
R. Mihalcea and P. Tarau, "TextRank: Brigning Order into Texts," Proceeding of EMNLP-04 and the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004.
J.Y. Son and Y.T. Shin, "Music Lyrics Summarization Method Using TextRank Algorithm," Journal of Korea Multimedia Society, Vol. 21, No. 1, pp. 45-50, 2015. https://doi.org/10.9717/KMMS.2018.21.1.045
Turney and M. Littman, "Measuring Praise and Criticism: Inference of Semantic Orientation from Association," Proceedings of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, pp. 417-424, 2002.
S.M. Kim, Method of Related Document Recommendation Considering Semantic Relation between Words, Master's Thesis of Chosun University, 2019.

Cited by

리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델 vol.9, pp.2, 2020, https://doi.org/10.30693/smj.2020.9.2.69
기업 아카이브에 관한 연구 동향 분석: 토픽모델링 분석을 중심으로 vol.21, pp.3, 2021, https://doi.org/10.14404/jksarm.2021.21.3.163
Trend Analysis of Grow-Your-Own Using Social Network Analysis: Focusing on Hashtags on Instagram vol.24, pp.5, 2019, https://doi.org/10.11628/ksppe.2021.24.5.451

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

A Method on Associated Document Recommendation with Word Correlation Weights

단어 연관성 가중치를 적용한 연관 문서 추천 방법

Abstract

Keywords

1. 서 론

2. 관련 연구

2.1 LDA

2.2 Word2vec

3. 본 론

3.1 시스템 구성도

3.2 TF-IDF 가중치를 적용한 LDA 기반 토픽 모델링

3.3 단어 간 유사도 추출

3.4 연관성 Score 도출

4. 실험 결과 및 고찰

4.1 실험 결과 및 성능 평가

4.2 비교 평가

5. 결 론

References

Cited by

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)