• 제목/요약/키워드: weight of word

검색결과 128건 처리시간 0.026초

Ordering a Left-branching Language: Heaviness vs. Givenness

  • Choi, Hye-Won
    • 한국언어정보학회지:언어와정보
    • /
    • 제13권1호
    • /
    • pp.39-56
    • /
    • 2009
  • This paper investigates ordering alternation phenomena in Korean using the dative construction data from Sejong Corpus of Modern Korean (Kim, 2000). The paper first shows that syntactic weight and information structure are distinct and independent factors that influence word order in Korean. Moreover, it reveals that heaviness and givenness compete each other and exert diverging effects on word order, which contrasts the converging effects of these factors shown in word orders of right-branching languages like English. The typological variation of syntactic weight effect poses interesting theoretical and empirical questions, which are discussed in relation to processing efficiency in ordering.

  • PDF

Latent Semantic Analysis Approach for Document Summarization Based on Word Embeddings

  • Al-Sabahi, Kamal;Zuping, Zhang;Kang, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.254-276
    • /
    • 2019
  • Since the amount of information on the internet is growing rapidly, it is not easy for a user to find relevant information for his/her query. To tackle this issue, the researchers are paying much attention to Document Summarization. The key point in any successful document summarizer is a good document representation. The traditional approaches based on word overlapping mostly fail to produce that kind of representation. Word embedding has shown good performance allowing words to match on a semantic level. Naively concatenating word embeddings makes common words dominant which in turn diminish the representation quality. In this paper, we employ word embeddings to improve the weighting schemes for calculating the Latent Semantic Analysis input matrix. Two embedding-based weighting schemes are proposed and then combined to calculate the values of this matrix. They are modified versions of the augment weight and the entropy frequency that combine the strength of traditional weighting schemes and word embedding. The proposed approach is evaluated on three English datasets, DUC 2002, DUC 2004 and Multilingual 2015 Single-document Summarization. Experimental results on the three datasets show that the proposed model achieved competitive performance compared to the state-of-the-art leading to a conclusion that it provides a better document representation and a better document summary as a result.

음성 인식을 위한 최적 가중 켑스트랄 거리 측정 방법 (Optimally Weighted Cepstral Distance Measure for Speech Recognition)

  • 김원구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.133-137
    • /
    • 1994
  • In this paper, a method for designing an optimal weight function for the weighted cepstral distance measure is proposed. A conventional weight function or cepstral lifter is obtained eperimentally depending on the spectral components to be emphasized. The proposed method minimizes the error between word reference patterns and the traning data. To compare the proposed optimal weight function with conventional function, speech recognition systems based on Dpynamic Time Warping and Hidden Markov Models were constructed to conduct speaker independent isolated word necogination eperiment. Results show that the proposed method gives better performance than conventional weight functions.

  • PDF

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

확장된 벡터 공간 모델을 이용한 한국어 문서 분류 방안 (Korean Document Classification Using Extended Vector Space Model)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.93-108
    • /
    • 2011
  • 본 논문에서는 한국어 문서의 분류 정밀도 향상을 위해 애매어와 해소어 정보를 이용한 확장된 벡터 공간 모델을 제안하였다. 벡터 공간 모델에 사용된 벡터는 같은 정도의 가중치를 갖는 축이 하나 더 존재하지만, 기존의 방법은 그 축에 아무런 처리가 이루어지지 않았기 때문에 벡터끼리의 비교를 할 때 문제가 발생한다. 같은 가중치를 갖는 축이 되는 단어를 애매어라 정의하고, 단어와 분야 사이의 상호정보량을 계산하여 애매어를 결정하였다. 애매어에 의해 애매성을 해소하는 단어를 해소어라 정의하고, 애매어와 동일한 문서에서 출현하는 단어 중에서 상호정보량을 계산하여 해소어의 세기를 결정하였다. 본 논문에서는 애매어와 해소어를 이용하여 벡터의 차원을 확장하여 문서 분류의 정밀도를 향상시키는 방법을 제안하였다.

유사단어 정보와 유전자 알고리듬을 이용한 HMM의 상태하중값을 사용한 단어의 검증 (Word Verification using Similar Word Information and State-Weights of HMM using Genetic Algorithmin)

  • 김광태;백창흠;홍재근
    • 대한전자공학회논문지SP
    • /
    • 제38권1호
    • /
    • pp.97-103
    • /
    • 2001
  • 현재 HMM은 음성인식에서 가장 널리 쓰이는 방법이다. 대부분의 경우 HMM의 매개변수는 훈련데이터에 대해 최대유사도를 가지도록 훈련된다. 그러나 이러한 방법은 다른 단어들에 대한 변별력을 고려하지 않는 단점이 있다. 이 논문에서는 이러한 단점을 보완하기 위해, 유사단어에 대한 정보와 두 단어 사이에 변별력을 가지는 함수를 사용하여, 인식된 단어와 유사단어만을 대상으로 재인식하는 과정을 통해 단어를 검증하는 방법을 제안하였다. 유사단어는 각 단어의 HMM에 다른 단어의 훈련음성으로 확률값을 계산하여 가장 유사한 단어를 얻었으며, 단어간에 변별력을 가지는 인식기는 각 상태에 하중값을 가지는 인식기를 사용하여 구현하였다. 단어간에 변별력을 가지는 하중값은 유전자 알고리듬을 사용하여 얻었다. 실험에서 유사단어와 변별력을 가지는 검증기의 사용으로 오인식률이 약 22% 감소하였다.

  • PDF

Ranking Translation Word Selection Using a Bilingual Dictionary and WordNet

  • Kim, Kweon-Yang;Park, Se-Young
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.124-129
    • /
    • 2006
  • This parer presents a method of ranking translation word selection for Korean verbs based on lexical knowledge contained in a bilingual Korean-English dictionary and WordNet that are easily obtainable knowledge resources. We focus on deciding which translation of the target word is the most appropriate using the measure of semantic relatedness through the 45 extended relations between possible translations of target word and some indicative clue words that play a role of predicate-arguments in source language text. In order to reduce the weight of application of possibly unwanted senses, we rank the possible word senses for each translation word by measuring semantic similarity between the translation word and its near synonyms. We report an average accuracy of $51\%$ with ten Korean ambiguous verbs. The evaluation suggests that our approach outperforms the default baseline performance and previous works.

DBSCAN을 활용한 유의어 변환 문서 유사도 측정 방법 (A Method for Measuring Similarity Measure of Thesaurus Transformation Documents using DBSCAN)

  • 김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제21권9호
    • /
    • pp.1035-1043
    • /
    • 2018
  • There is a case where the core content of another person's work is decorated as though it is his own thoughts by changing own thoughts without showing the source. Plagiarism test of copykiller free service used in plagiarism check is performed by comparing plagiarism more than 6th word. However, it is not enough to judge it as a plagiarism with a six - word match if it is replaced with a similar word. Therefore, in this paper, we construct word clusters by using DBSCAN algorithm, find synonyms, convert the words in the clusters into representative synonyms, and construct L-R tables through L-R parsing. We then propose a method for determining the similarity of documents by applying weights to the thesaurus and weights for each paragraph of the thesis.

Word2Vec의 IN-OUT Vector를 이용한 기계독해용 단락 검색 모델 (Paragraph Retrieval Model for Machine Reading Comprehension using IN-OUT Vector of Word2Vec)

  • 김시형;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.326-329
    • /
    • 2019
  • 기계독해를 실용화하기 위해 단락을 검색하는 검색 모델은 최근 기계독해 모델이 우수한 성능을 보임에 따라 그 필요성이 더 부각되고 있다. 그러나 기존 검색 모델은 질의와 단락의 어휘 일치도나 유사도만을 계산하므로, 기계독해에 필요한 질의 어휘의 문맥에 해당하는 단락 검색을 하지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Word2vec의 입력 단어열의 벡터에 해당하는 IN Weight Matrix와 출력 단어열의 벡터에 해당하는 OUT Weight Matrix를 사용한 단락 검색 모델을 제안한다. 제안 방법은 기존 검색 모델에 비해 정확도를 측정하는 Precision@k에서 좋은 성능을 보였다.

  • PDF

거리 제한을 이용한 색인 시스템 (An Index System using Restrictive Distance)

  • 박찬이;김상복
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.273-282
    • /
    • 2006
  • 한본 논문에서는 단어 가중기법에 거리 개념을 도입한 색인 기법을 제안한다. 본 색인 기법은 질의어와 문서를 대표하는 색인의 대부분은 복합명사 혹은 인접한 두개 이상의 명사 또는 명사구가 많으며 이들 명사간의 거리가 멀면 멀수록 색인으로 선택되는 비율이 줄어드는 점을 착안하여, 이를 기존의 가중치 부여 기법으로 색인어 후보를 선정하고, 후보들 간의 거리가 3어절 이내의 후보를 최종 색인으로 선정하였다. 이 방법을 이용하여 신문기사, 학술논문, 웹문서 등 100여종의 문서를 대상으로 실험한 결과 신문기사 92.03%, 학술논문 95%, 웹문서는 73..33%의 정확율을 보였다.

  • PDF