• 제목/요약/키워드: Lexical processing

검색결과 142건 처리시간 0.02초

Research on Keyword-Overlap Similarity Algorithm Optimization in Short English Text Based on Lexical Chunk Theory

  • Na Li;Cheng Li;Honglie Zhang
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.631-640
    • /
    • 2023
  • Short-text similarity calculation is one of the hot issues in natural language processing research. The conventional keyword-overlap similarity algorithms merely consider the lexical item information and neglect the effect of the word order. And some of its optimized algorithms combine the word order, but the weights are hard to be determined. In the paper, viewing the keyword-overlap similarity algorithm, the short English text similarity algorithm based on lexical chunk theory (LC-SETSA) is proposed, which introduces the lexical chunk theory existing in cognitive psychology category into the short English text similarity calculation for the first time. The lexical chunks are applied to segment short English texts, and the segmentation results demonstrate the semantic connotation and the fixed word order of the lexical chunks, and then the overlap similarity of the lexical chunks is calculated accordingly. Finally, the comparative experiments are carried out, and the experimental results prove that the proposed algorithm of the paper is feasible, stable, and effective to a large extent.

Linear Precedence in Morphosyntactic and Semantic Processes in Korean Sentential Processing as Revealed by Event-related Potential

  • Kim, Choong-Myung
    • International Journal of Contents
    • /
    • 제10권4호
    • /
    • pp.30-37
    • /
    • 2014
  • The current study was conducted to examine the temporal and spatial activation sequences related to morphosyntactic, semantic and orthographic-lexical sentences, focusing on the morphological-orthographic and lexical-semantic deviation processes in Korean language processing. The Event-related Potentials (ERPs) of 15 healthy students were adopted to explore the processing of head-final critical words in a sentential plausibility task. Specifically, it was examined whether the ERP-pattern to orthographic-lexical violation might show linear precedence over other processes, or the presence of additivity across combined processing components. For the morphosyntactic violation, fronto-central LAN followed by P600 was found, while semantic violation elicited N400, as expected. Activation of P600 was distributed in the left frontal and central sites, while N400 appeared even in frontal sites other than the centro-parietal areas. Most importantly, the orthographic-lexical violation process revealed by earlier N2 with fronto-central activity was shown to be complexes of morphological and semantic functions from the same critical word. The present study suggests that there is a linear precedence over the morphological deviation and its lexical semantic processing based on the immediate possibility of lexical information, followed by sentential semantics. Finally, late syntactic integration processes were completed, showing different topographic activation in order of importance of ongoing sentential information.

말소리 단어 재인 시 높낮이와 장단의 역할: 서울 방언과 대구 방언의 비교 (The Role of Pitch and Length in Spoken Word Recognition: Differences between Seoul and Daegu Dialects)

  • 이윤형;박현수
    • 말소리와 음성과학
    • /
    • 제1권2호
    • /
    • pp.85-94
    • /
    • 2009
  • The purpose of this study was to see the effects of pitch and length patterns on spoken word recognition. In Experiment 1, a syllable monitoring task was used to see the effects of pitch and length on the pre-lexical level of spoken word recognition. For both Seoul dialect speakers and Daegu dialect speakers, pitch and length did not affect the syllable detection processes. This result implies that there is little effect of pitch and length in pre-lexical processing. In Experiment 2, a lexical decision task was used to see the effect of pitch and length on the lexical access level of spoken word recognition. In this experiment, word frequency (low and high) as well as pitch and length was manipulated. The results showed that pitch and length information did not play an important role for Seoul dialect speakers, but that it did affect lexical decision processing for Daegu dialect speakers. Pitch and length seem to affect lexical access during the word recognition process of Daegu dialect speakers.

  • PDF

한국어 어휘 중의성 해소에서 어휘 확률에 대한 효과적인 평가 방법 (An Effective Estimation method for Lexical Probabilities in Korean Lexical Disambiguation)

  • 이하규
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1588-1597
    • /
    • 1996
  • 본 논문은 한국어 어휘 중의성 해소(lexical disambiguation)에서 어휘 확률 (lexical probability) 평가방법에 대해 기술하고 있다. 통계적 접근 방법의 어휘 중 의성 해소에서는 일반적으로 말뭉치(corpus)로부터 추출된 통계 자료에 기초하여 어 휘 확률과 문맥 확률(contextual probability)을 평가한다. 한국어는 어절별로 띄어 쓰기가 이루어지므로 어절 단위로 어휘 확률을 적용하는 것이 바람직하다. 하지만 한 국어는 어절의 다양성이 심하기 때문에 상당히 큰 말뭉치를 사용하더라도 어절 단위 로는 어휘 확률을 직접 평가할 수 없는 경우가 다소 있다. 이러한 문제점을 극복하기 위해 본 연구에서는 어휘 분석 측면에서 어절의 유사성을 정의하고 이에 기반을 둔 한국어 어휘 확률 평가 방법을 제안한다. 이 방법에서는 어떤 어절에 대해 어휘 확률 을 직접 평가할 수 없는 경우 이와 어휘 분석이 유사한 어절들을 통해 간접적으로 평 가한다. 실험결과 제안된 접근방법이 한국어 어휘 중의성 해소에 효과적인 것으로 나 타나고 있다.

  • PDF

Unknown Word Lexical Dictionary의 자동 생성 방법 (Automatic Construction Method of Unknown Word Lexical Dictionary)

  • 황명권;윤병수;정일용;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.3-6
    • /
    • 2008
  • 본 연구는 의미적 정보 검색을 위한 연구 중의 하나로, 현재까지의 의미적 문서 검색에서 큰 걸림돌이었던 사전에 정의되지 않은 단어(Unknown Word)들의 어휘 사전(Lexical Dictionary)을 자동으로 생성하기 위한 것이다. 이를 위해 UW를 기존의 영어 어휘 사전인 워드넷(WordNet)에 정의되지 않은 단어로 간주하고, 웹 문서의 입력을 통하여 UW와 관련된 단어들을 추출하여 의미적 관련 정도를 확률적, 의미적 방법으로 측정한다. 본 논문에서는 UW Lexical Dictionary를 자동으로 구축하기 위한 방법에 대해서만 기술하였고, 정량적이고 객관적인 평가는 포함하지 않고 있다. 하지만 본 연구의 효용성을 확인하기 위한 몇 가지 문서로부터 추출된 결과는 본 연구가 상당히 의미적이며 가치가 높을 것으로 기대되고 있다.

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득 (The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques)

  • 유원희;서태원;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-73
    • /
    • 2010
  • 본 논문은 자연어처리 연구를 위하여 지도학습(supervised learning)방식의 어휘지식(lexical knowledge) 수동 구축 방법의 한계점을 극복하기 위하여 비지도학습(unsupervised learning)방식의 자동 어휘지식 획득 모델을 제안한다. 제안하는 모델은 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 입력으로 주어지는 어휘목록에서 어휘지식을 자동으로 획득한다. 모델의 어휘지식 획득 과정에서 파라미터 변화에 따른 어휘지식 개수의 변화와 어휘지식의 특징이 나타나는 어휘 지식 사전의 일부 모습을 보인다. 실험결과 어휘지식 중 하나로 획득되는 어휘범주 지식의 클러스터가 일정한 개수에서 수렴하는 것이 관찰되어 어휘지식을 필요로 하는 전자사전 자동구축의 가능성을 확인하였다. 또한 한국어 특성이 반영되어 좌 우 통사정보가 포함된 어휘사전을 구축하였다.

  • PDF

한국어 어휘습득의 계산주의적 모델 (A Computational Model for Lexical Acquisition in Korean)

  • 유원희;박기남;류기곤;임희석;남기춘
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.135-137
    • /
    • 2007
  • This study has experimented and materialized a computational lexical processing model which hybridizes full model and decomposition model as applying lexical acquisition, one of early stages of human lexical processes, to Korean. As the result of the study, we could simulate the lexical acquisition process of linguistic input through experiments and studying, and suggest a theoretical foundation for the order of acquitting certain grammatical categories. Also, the model of this study has shown proofs with which we can infer the type of the mental lexicon of the human cerebrum through fu1l-list dictionary and decomposition dictionary which were automatically produced in the study.

  • PDF

Lexical and Semantic Incongruities between the Lexicons of English and Korean

  • Lee, Yae-Sheik
    • 한국언어정보학회지:언어와정보
    • /
    • 제5권2호
    • /
    • pp.21-37
    • /
    • 2001
  • Pustejovsky (1995) rekindled debate on the dual problems of how to represent lexical meaning and on the information that is to be encoded in a lexicon. For natural language processing such as machine translation, these are important issues. When a lexical-conceptual mismatch occurs in translation of corresponding words from two different languages, the appropriate representation of their meanings is very important. This paper proposes a new formalism for representing lexical entries by first analysing observable mismatches in comparable pairs of nouns, verbs, and adjectives in English and Korean. Inherent mis-interpretations and mis-readings in each pair are identified. Then, concept theories such as those presented by Ganter and Wille (1996) and Priss (1998) are extended in order to reflect the cognitivist view that meaning resides in concept, and also to incorporate the propositions of the so-called ‘multiple inheritance’system. An alternative to the formalism of Pustejovsky (1995) and Pollard & Sag (1994) is then proposed. Finally, representative examples of lexical mismatches are analysed using the new model.

  • PDF

한국인의 영어처리의 기제: 모국어처리와의 상호작용을 중심으로 (The Processing System of English for Korean: Focused on the Interaction with Native Language Processing)

  • 이창환;강봉경
    • 인지과학
    • /
    • 제15권2호
    • /
    • pp.43-53
    • /
    • 2004
  • 영어를 제2언어로 사용하는 한국인을 대상으로 이중언어의 어휘접근이 음운 정보와 관련하여 어떻게 일어나는지를 알아보았다. 이중언어를 처리할 매에 양 언어의 음운적 지식이 동시에 활성화된다는 비선택적 가설과 한 언어의 음운적 지식만이 활성화된다는 선택적 가설을 검증하고자하는 목적으로 2개의 실험을 실시하였다. 실험결과 한글 표적자극의 수행이(실험2) 점화자극으로 제시된 영어 단어의 음운적 조작에 따라 유의미한 영향을 받았고, 영어 표적자극을 처리할 때에는 (실험1) 점화자극으로 제시된 한글 단어의 음운적 조작에 따라 영향을 받는 경향을 발견하였다. 이는 이중언어 중 한 언어를 처리할 때에 다른 언어의 음운적 지식이 자동적으로 활성화됨을 의미하며 한국인에게 있어서 제2언어인 영어의 처리에서 음운정보가 중요한 역할을 함을 의미한다.

  • PDF

한국인의 영어처리의 기제 : 모국어처리와의 상호작용을 중심으로 (The Processing System of English for Korean : Focused on the Interaction with Native Language Processing)

  • 이창환;강봉경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.240-247
    • /
    • 2004
  • 영어를 제2언어로 사용하는 한국인을 대상으로 이중언어의 어휘접근이 음운 정보와 관련하여 어떻게 일어나는 지를 알아보았다. 이중언어를 처리할 때에 양 언어의 음운적 지식이 동시에 활성화된다는 비선택적 가설과 한 언어의 음운적 지식만이 활성화된다는 선택적 가설을 검증하고자하는 목적으로 2개의 실험을 실시하였다. 실험결과 한글 표적자극의 수행이(실험2) 점화자극으로 제시된 영어 단어의 음운적 조작에 따라 유의미한 영향을 받았고, 영어 표적자극을 처리할 때에는(실험1) 점화자극으로 제시된 한글 단어의 음운적 조작에 따라 영향을 받는 경향을 발견하였다. 이는 이중언어 중 한 언어를 처리할 때에 다른 언어의 음운적지식이 자동적으로 활성화됨을 의미하며 한국인에게 있어서 제2언어인 영어의 처리에서 음운정보가 중요한 역할을 함을 의미한다.

  • PDF