Abstract
Latent Semantic Analysis (LSA Landauer & Dumais, 1997) is a technique to represent the meanings of words using co-occurrence information of words appearing in he same context, which is usually a sentence or a document. In LSA, a word is represented as a point in multidimensional space where each axis represents a context, and a word's meaning is determined by its frequency in each context. The space is reduced by singular value decomposition (SVD). The present study elaborates upon LSA for use of representation of ambiguous words. The proposed LSA applies rotation of axes in the document space which makes possible to interpret the meaning of un. A simulation study was conducted to illustrate the performance of LSA in representation of ambiguous words. In the simulation, first, the texts which contain an ambiguous word were extracted and LSA with rotation was performed. By comparing loading matrix, we categorized the texts according to meanings. The first meaning of an ambiguous wold was represented by LSA with the matrix excluding the vectors for the other meaning. The other meanings were also represented in the same way. The simulation showed that this way of representation of an ambiguous word can identify the meanings of the word. This result suggest that LSA with axis rotation can be applied to representation of ambiguous words. We discussed that the use of rotation makes it possible to represent multiple meanings of ambiguous words, and this technique can be applied in the area of web searching.
잠재의미분석은 단어 의미를 동일한 맥락 (문장/문서) 하에서 동시에 제시되는 단어들의 공기성(co-occurence)으로 정의한다. 이 분석에서 한 단어는 맥락들을 대표하는 측들로 구성된 다차원 상의 한 점으로 표상 되며, 단어 의미는 각 단어가 맥락 속에서 등장한 빈도로 정의된다. 이 다차원 의미공간은 SVD를 통하여 차원이 축소되어 추상된 의미를 표상 한다. 이 연구는 다의어의 표상이 가능하도록 LSA를 발전시켰다. 제안된 LSA는 축에 대한 해석이 가능하도록 축의 회전을 도입하였으며 다의어 표상을 가능하게 하였다. 시뮬레이션에서는, 먼저 LSA에 의해 산출된 단어-맥락 빈도표에서 다의어를 포함하고 있는 문서들만을 재 수집한 다음 문서들을 다의어 의미별로 분류하였다. 두 번째 단계에서는 다의어의 특정의미에 대한 표상을 분류된 단어-맥락 빈도표에서 비해당 의미에 대한 맥락들을 제거한 후 LSA를 적용하여 구성하였다. 시뮬레이션 결과는 다의어의 의미들을 LSA가 표상 할 수 있음을 보여주었다. 이는 축회전을 포함한 LSA가 다의어 다중의미를 표상 할 수 있고 실용적인 측면에서 웹검색 엔진에도 적용될 수 있음을 시사한다.