• Title/Summary/Keyword: word sense information

Search Result 141, Processing Time 0.019 seconds

Word Sense Disambiguation Based on Local Syntactic Relations and Sense Co-occurrence Information (국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소)

  • Kim, Young-Kil;Hong, Mun-Pyo;Kim, Chang-Hyun;Seo, Young-Ae;Yang, Seong-Il;Ryu, Chul;Huang, Yin-Xia;Choi, Sung-Kwon;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.184-188
    • /
    • 2002
  • 본 논문에서는 단순히 주변에 위치하는 어휘들간의 문맥 공기 정보를 이용하는 방식과는 달리 국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소 방안을 제안한다. 기존의 WSD 방법은 구조 분석의 어려움으로 인하여 문장의 구문 관계를 충분히 고려하지 못하고 주변 어휘들과의 공기 관계로 그 의미를 파악하려 했다. 그러나 본 논문에서는 동사구의 논항 의미 관계뿐만 아니라 명사구내에서의 의미 관계도 고려한 국소 구문관계를 고려한 명사 의미 모호성 해소 방법을 제안한다. 이 때, 명사들의 의미는 자동번역 시스템의 목적에 맞게 공기(co-occurrence)하는 동사들에 따라 분류하였다. 그리고 한중 자동 번역 지식으로 사용되는 명사 의미 코드가 부착된 74,880 의미 격틀의 의미 공기정보를 이용하였으며 형태소 태깅된 말뭉치로부터 의미모호성이 발생하지 않게 의미 공기정보 및 명사구 의미 공기 정보를 자동으로 추출하였다. 실험 결과, 의미 모호성이 발생하는 명사들에 대해서 83.9%의 의미 모호성 해소 정확률을 보였다.

  • PDF

A Personalized Retrieval System Based on Classification and User Query (분류와 사용자 질의어 정보에 기반한 개인화 검색 시스템)

  • Kim, Kwang-Young;Shim, Kang-Seop;Kwak, Seung-Jin
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.43 no.3
    • /
    • pp.163-180
    • /
    • 2009
  • In this paper, we describe a developmental system for establishing personal information tendency based on user queries. For each query, the system classified it based on the category information using a kNN classifier. As category information, we used DDC field which is already assigned to each record in the database. The system accumulates category information for all user queries and the user's personalized feature for the target database. We then developed a personalized retrieval system reflecting the personalized feature to produce search result. Our system re-ranks the result documents by adding more weights to the documents for which categories match with the user's personalized feature. By using user's tendency information, the ambiguity problem of the word could be solved. In this paper, we conducted experiments for personalized search and word sense disambiguation (WSD) on a collection of Korean journal articles of science and technology arena. Our experimental result and user's evaluation show that the performance of the personalized search system and WSD is proved to be useful for actual field services.

CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding (다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델)

  • Nam, Sangha;Han, Kijong;Kim, Eun-Kyung;Gwon, Seong-Gu;Jeong, Yu-Seong;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

A Study on the Design and Fabrication of Content Addressable Memory (연상메모리 설계 및 제작에 관한 연구)

  • 박상봉;박노경;차균현
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.2
    • /
    • pp.145-154
    • /
    • 1991
  • In this dissertation, the same reading and writing operation of general SRAM, the algonthm and hardware of 8 bit $\times$16 word CAM(Content Addressable Memory) which carry out the parallel that search is presented. The designed CAM chip consists of five functional blocks (CAM cell array, Address Deceden, Address Encoden. Data Selector, Sense Amplifier). The smulation is performed using logic smmulator on Apollo workstation and PSPICE eitcut simulation on PC/AT. The designed CAM was fabricated by 3um CMOS N Well process (ETRI) design nitles and testing was performed.

  • PDF

Inversion in the Centering Framework

  • Joh, Yoon-Kyoung
    • Language and Information
    • /
    • v.17 no.1
    • /
    • pp.17-32
    • /
    • 2013
  • Birner (1998) analyzes the construction of inversion within the centering theory, claiming that the preposed constituent in the inversion structure represents the backward-looking center that connects the current utterance to the previous discourse. However, this paper refutes such a strong claim, pointing out various problems of her work. Instead, this paper argues that the preposed element in the inversion construction is merely the preferred center under the condition that the ranking of the forward-looking centers is determined by the surface word order, rather than by grammatical relations. Thus, this paper claims that the discourse function of the construction of inversion is not text development but merely prominence-giving, in the sense of Ili$\acute{c}$ (1998).

  • PDF

word-sense Disambiguation based on Semantic Informations extracted from Definitions in Dictonary (사전 뜻말이에서 추출한 의미 정보에 기반한 의미 중의성 해결)

  • Hur, Jeong;Ock, Cheol-Young
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.269-276
    • /
    • 2000
  • 본 연구에서는 사전의 뜻말이에서 의미 정보를 추출하고, 이 의미 정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 모델을 제안한다. 사전의 뜻풀이말에 동형이의어를 포함하고 있는 표제어와 뜻풀이말을 구성하는 보통 명사, 형용사와 동사를 의미 정보로 추출한다. 비교적 중의성이 자주 발생하는 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 데이터로 정확률을 실험하는 내부 실험의 결과, 체언류(보통 명사)와 용언류(동사, 형용사)의 가중치를 0.9/0.1로 주는 것이 가장 정확률이 높았다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 1,796문장을 실험하였는데, 평균 79.73%의 정확률을 보였다.

  • PDF

Word Sense Disambiguation From Unlabelled Data (의미 부착이 없는 데이터로부터의 학습을 통한 의미 중의성 해소)

  • 박성배;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.330-332
    • /
    • 2000
  • 의미 모호성 해소는 문맥상의 한 단어의 올바른 의미를 밝히는 것으로, 대부분의 자연언어처리 응용에서 가장 중요한 문제 중 하나이다. 말뭉치로부터 얻어진 예제로부터 의미 모호성 해소 방법을 학습하기 위해서는 답이 알려져 있는 대량의 학습 예제가 필요하지만, 답이 알려져 있는 예제를 구하는 일은 사람의 간섭을 필요로 하므로 매우 비싼 작업이다. 본 논문에서는 답이 알려져 있는 학습 예제로 어느 정도 학습한 수, 답이 알려져 있지 않은 예제로 학습을 보충하는 방법을 통해 사람의 간섭을 최소화하였다. 결정트리 학습을 통한 한국어 명사에 대한 의미 결정 실험 결과, 본 논문에서 제안한 방법은 가장 많은 분포를 보이는 의미를 선택하는 경우보다 평균적으로 33.6%의 성능 향상을 보이며, 이는 전체 학습 예제의 답이 모두 알려져 있는 경우와 거의 비슷한 결과이다. 따라서, 한국어와 같이 신뢰할 만한 의미 부착 말뭉치가 없는 경우에 본 논문에서 제시된 방법은 매우 효율적이다.

  • PDF

Word Sense Disambiguation of Polysemy Predicates using UWordMap (어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

Word-Sense Disambiguation based on Semantic Informations extracted from Definitions in Dictionary (사전 뜻풀이말에서 추출한 의미 정보에 기반한 의미 중의성 해결)

  • Hur, Jeong;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.269-276
    • /
    • 2000
  • 본 연구에서는 사전의 뜻풀이말에서 의미 정보를 추출하고, 이 의미 정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 모델을 제안한다. 사전의 뜻풀이말에 동형이의어를 포함하고 있는 표제어와 뜻풀이말을 구성하는 보통 명사, 형용사와 동사를 의미 정보로 추출한다. 비교적 중의성이 자주 발생하는 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 데이터로 정확률을 실험하는 내부 실험의 결과, 체언류(보통 명사)와 용언류(동사, 형용사)의 가중치를 0.9/0.1로 주는 것이 가장 정확률이 높았다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 1,796문장을 실험하였는데, 평균 79.73%의 정확률을 보였다.

  • PDF

A Novel Hybrid Algorithm Based on Word and Method Ranking for Password Security

  • Berker Tasoluk;Zuhal Tanrikulu
    • International Journal of Computer Science & Network Security
    • /
    • v.23 no.3
    • /
    • pp.161-168
    • /
    • 2023
  • It is a common practice to use a password in order to restrict access to information, or in a general sense, to assets. Right selection of the password is necessary for protecting the assets more effectively. Password finding/cracking try outs are performed for deciding which level of protection do used or prospective passwords offer, and password cracking algorithms are generated. These algorithms are becoming more intelligent and succeed in finding more number of passwords in less tries and in a shorter duration. In this study, the performances of possible password finding algorithms are measured, and a hybrid algorithm based on the performances of different password cracking algorithms is generated, and it is demonstrated that the performance of the hybrid algorithm is superior to the base algorithms.