• Title/Summary/Keyword: 한국어 문장의 유사도 측정

Search Result 27, Processing Time 0.03 seconds

An Effective Sentence Similarity Measure Method Based FAQ System Using Self-Attentive Sentence Embedding (Self-Attention 기반의 문장 임베딩을 이용한 효과적인 문장 유사도 기법 기반의 FAQ 시스템)

  • Kim, Bosung;Kim, Juae;Lee, Jeong-Eom;Kim, Seona;Ko, Youngjoong;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.361-363
    • /
    • 2018
  • FAQ 시스템은 주어진 질문과 가장 유사한 질의를 찾아 이에 대한 답을 제공하는 시스템이다. 질의 간의 유사도를 측정하기 위해 문장을 벡터로 표현하며 일반적으로 TFIDF, Okapi BM25와 같은 방법으로 계산한 단어 가중치 벡터를 이용하여 문장을 표현한다. 하지만 단어 가중치 벡터는 어휘적 정보를 표현하는데 유용한 반면 단어의 의미적인(semantic) 정보는 표현하기 어렵다. 본 논문에서는 이를 보완하고자 딥러닝을 이용한 문장 임베딩을 구축하고 단어 가중치 벡터와 문장 임베딩을 조합한 문장 유사도 계산 모델을 제안한다. 또한 문장 임베딩 구현 시 self-attention 기법을 적용하여 문장 내 중요한 부분에 가중치를 주었다. 실험 결과 제안하는 유사도 계산 모델은 비교 모델에 비해 모두 높은 성능을 보였고 self-attention을 적용한 실험에서는 추가적인 성능 향상이 있었다.

  • PDF

Automatic Transformation of Semantic Roles between PropBank and Sejong using Similarity Estimation based on Tree Level (레벨 기반의 유사도 계산을 이용한 PropBank 의미역과 Sejong 의미역 간의 자동 변환)

  • Youn, Young-Shin;Seok, Mi-Ran;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.221-224
    • /
    • 2014
  • 의미 표지 부착 작업은 구문 표지 부착된 문장의 술어-논항 구조를 파악하여 논항에 적절한 의미역을 부착하는 과정이다. 이 작업을 통하여 생성되는 의미 표지 부착 말뭉치는 의미역 결정에 있어서 절대적으로 필요한 자원이 된다. 의미 표지 부착 말뭉치로는 세계적으로 PropBank가 널리 활용되고 있는데 이를 한국어에 적용시키기 위해서는 PropBank 의미역과 Sejong 의미역 간의 자동 변환이 필요하다. 이전에 제안되었던 이종 의미역 간의 자동변환 방법에서는 명사 계층의 구조 정보를 반영하지 않았다는 문제점이 있었다. 본 논문에서는 이러한 문제점을 보강하기 위하여 명사 계층구조를 반영하여 한국어 PropBank 의미역을 Sejong 의미역으로 자동 변환하는 방법을 제안한다. 제안하는 방법은 PropBank와 Sejong의 맵핑관계 중에서 1:N으로 맵핑되는 PropBank 의미역을 기준으로 명사 계층구조에서 변환 대상 의미역을 가지고 있는 단어와 변환 후보 의미역을 가진 단어들의 개념번호를 뽑아 두 단어 간의 거리를 측정한다. 그리고 레벨 당 가중치를 주어 유사도 계산을 하여 유사도가 적은 값으로 의미역을 자동 변환한다. 본 논문에서 제안하는 방법은 0.8의 성능을 보인다.

  • PDF

A Text Reuse Measuring Model Using Circumference Sentence Similarity (주변 문장 유사도를 이용한 문서 재사용 측정 모델)

  • Choi, Sung-Won;Kim, Sang-Bum;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

SRLev-BIH: An Evaluation Metric for Korean Generative Commonsense Reasoning (SRLev-BIH: 한국어 일반 상식 추론 및 생성 능력 평가 지표)

  • Jaehyung Seo;Yoonna Jang;Jaewook Lee;Hyeonseok Moon;Sugyeong Eo;Chanjun Park;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.176-181
    • /
    • 2022
  • 일반 상식 추론 능력은 가장 사람다운 능력 중 하나로써, 인공지능 모델이 쉽게 모사하기 어려운 영역이다. 딥러닝 기반의 언어 모델은 여전히 일반 상식에 기반한 추론을 필요로 하는 분야에서 부족한 성능을 보인다. 특히, 한국어에서는 일반 상식 추론과 관련한 연구가 상당히 부족한 상황이다. 이러한 문제 완화를 위해 최근 생성 기반의 일반 상식 추론을 위한 한국어 데이터셋인 Korean CommonGen [1]이 발표되었다. 그러나, 해당 데이터셋의 평가 지표는 어휘 단계의 유사성과 중첩에 의존하는 한계를 지니며, 생성한 문장이 일반 상식에 부합한 문장인지 측정하기 어렵다. 따라서 본 논문은 한국어 일반 상식 추론 및 생성 능력에 대한 평가 지표를 개선하기 위해 문장 성분의 의미역과 자모의 형태 변화를 바탕으로 생성 결과를 평가하는 SRLev, 사람의 평가 결과를 학습한 BIH, 그리고 두 평가 지표의 장점을 결합한 SRLev-BIH를 제안한다.

  • PDF

Interaction of native language interference and universal language interference on L2 intonation acquisition: Focusing on the pitch range variation (L2 억양에서 나타나는 모국어 간섭과 언어 보편적 간섭현상의 상호작용: 피치대역을 중심으로)

  • Yune, Youngsook
    • Phonetics and Speech Sciences
    • /
    • v.13 no.4
    • /
    • pp.35-46
    • /
    • 2021
  • In this study, we examined the interactive aspects between pitch reduction phenomena considered a universal language phenomenon and native language interference in the production of L2 intonation performed by Chinese learners of Korean. To investigate their interaction, we conducted an acoustic analysis using acoustic measures such as pitch span, pitch level, pitch dynamic quotient, skewness, and kurtosis. In addition, the correlation between text comprehension and pitch was examined. The analyzed material consisted of four Korean discourses containing five and seven sentences of varying difficulty. Seven Korean native speakers and thirty Chinese learners who differed in their Korean proficiency participated in the production test. The results, for differences by language, showed that Chinese had a more expanded pitch span, and a higher pitch level than Korean. The analysis between groups showed that at the beginner and intermediate levels, pitch reduction was prominent, i.e., their Korean was characterized by a compressed pitch span, low pitch level, and less sentence internal pitch variation. Contrariwise, the pitch use of advanced speakers was most similar to Korean native speakers. There was no significant correlation between text difficulty and pitch use. Through this study, we observed that pitch reduction was more pronounced than native language interference in the phonetic layer.

Generation Paraphrase using Pointer Generation Network (포인터 생성 네트워크를 이용한 패러프레이즈 생성)

  • Park, Da-Sol;Kim, Young-kil;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.535-539
    • /
    • 2020
  • 다양한 발화를 모델링하는 요구는 자연어 처리 분야에서 꾸준히 있었으며 단어, 구 또는 문장과 동등한 의미 콘텐츠를 자동으로 식별하고 생성하는 것은 자연어 처리의 중요한 부분이다. 본 논문에서는 포인터 생성 네트워크(Pointer Generate Nework)를 이용하여 패러프레이즈 생성 모델을 제안한다. 제안한 모델의 성능을 측정하기 위해 사람이 직접 구축한 유사 문장 코퍼스를 이용하였으며, 토큰 단위의 BLEU-4 0.250, ROUGE_L 0.455, CIDEr 2.190의 성능을 보였다. 하지만 입력 문장과 동일한 문장을 출력하는 문제점이 존재하여 빔서치(beam search)를 적용하여 입력 문장과 비교하여 생성 문장을 선택하는 방식을 적용하였다. 입력 문장과 동일한 문장을 제외한 문장으로 평가를 진행했으며, 토큰 단위의 BLEU-4 0.234, ROUGE_L 0.459, CIDEr 2.041의 성능을 보였으나, 패러프레이즈 생성 데이터 양이 크게 증가하였다. 본 연구는 문장 간의 의미적으로 동일한 정보를 정확하게 추출할 수 있게 됨으로써 정보 추출, 온톨로지 생성에 도움이 될 것이다. 또한 이러한 기법이 챗봇에서 사용자의 의도 탐지 및 MRC와 같은 자연어 처리의 여러 분야에 유용한 자원으로 사용될 것이다.

  • PDF

SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP (SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 )

  • Jaemin Kim;Yohan Na;Kangmin Kim;Sang Rak Lee;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF

Perceptive evaluation of Korean native speakers on the polysemic sentence final ending produced by Chinese Korean learners (KFL중국인학습자들의 한국어 동형다의 종결어미 발화문에 대한 원어민화자의 지각 평가 양상)

  • Yune, Youngsook
    • Phonetics and Speech Sciences
    • /
    • v.12 no.4
    • /
    • pp.27-36
    • /
    • 2020
  • The aim of this study is to investigate the perceptive aspects of the polysemic sentence final ending "-(eu)lgeol" produced by Chinese Korean learners. "-(Eu)lgeol" has two different meanings, that is, a guess and a regret, and these different meanings are expressed by the different prosodic features of the last syllable of "-(eu)lgeol". To examine how Korean native speakers perceive "-(eu)lgeol" sentences produced by Chinese Korean learners and the most saliant prosodic variable for the semantic discrimination of "-(eu)lgeol" at the perceptive level, we performed a perceptual experiment. The analysed material constituted four Korean sentences containing "-(eu)lgeol" in which two sentences expressed guesses and the other two expressed regret. Twenty-five Korean native speakers participated in the perceptual experiment. Participants were asked to mark whether "-(eu)lgeol" sentences they listened to were (1) definitely regrets, (2) probably regrets, (3) ambiguous, (4) probably guesses, or (5) definitely guesses based on the prosodic features of the last syllable of "-(eu)lgeol". The analysed prosodic variables were sentence boundary tones, slopes of boundary tones, pitch difference between sentence-final and penultimate syllables, and pitch levels of boundary tones. The results show that all the analysed prosodic variables are significantly correlated with the semantic discrimination of "-(eu)lgeol" and among these prosodic variables, the most salient role in the semantic discrimination of "-(eu)lgeol" is pitch difference between sentence-final syllable and penultimate syllable.

An automatic extraction of newspaper articles using activation degree of 5W1H (육하원칙 활성화도를 이용한 신문기사 자동요약)

  • Yoon, Jae-Min;Kang, In-Su;Kwon, Oh-Woog;Bae, Jae-Hak;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.277-284
    • /
    • 2002
  • 본 논문은 신문기사에서 중요한 문장을 추출(Extract)하는데 있어서, 기존에 기장 우수한 방법인 전문기반 방법(Lead-based method)과 제목을 이용한 유사도 측정방법(Title-based method)의 문제점을 해결하기 위해서, 육하원칙 활성화도를 이용하여 신문기사를 효과적으로 요약할 수 있는 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저, 제목(Title)과 전문(Lead)에서 중복출현하지 않는 육하원칙 구성성분을 결합하고, 본문은 각 문장에서 육하원칙 구성성분의 재사용성과 육하원칙 구성성분의 범주 증감을 파악하여 육하원칙 활성화도를 구하고, 전문기반 방법을 응용하여 각 문장의 상대적인 중요도에 따라 최종적인 가중치를 부여함으로써, 신문기사에서 중요한 문장을 효과적으로 추출할 수 있는 가중치 계산식을 제안하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며, 요약율이 30%일 경우 제안한 방법의 정확률은 74.7%로 기존의 전문기반(Lead-based method)방법보다 6.7% 향상되었다.

  • PDF

Aspects of Korean rhythm realization by second language learners: Focusing on Chinese learners of Korean (제 2언어 학습자의 한국어 리듬 실현양상 -중국인 한국어 학습자를 중심으로-)

  • Youngsook Yune
    • Phonetics and Speech Sciences
    • /
    • v.15 no.3
    • /
    • pp.27-35
    • /
    • 2023
  • This study aimed to investigate the effect of Chinese on the production of Korean rhythm. Korean and Chinese are typologically classified into different rhythmic categories; because of this, the phonological properties of Korean and Chinese are similar and different at the same time. As a result, Chinese can exert both positive and negative influences on the realization of Korean rhythm. To investigate the influence of the rhythm of the native language of L2 learners on their target language, we conducted an acoustic analysis using acoustic metrics like of the speech of 5 Korean native speakers and 10 advanced Chinese Korean learners. The analyzed material is a short paragraph of five sentences containing a variety of syllable structures. The results showed that KS and CS rhythms are similar in %V, VarcoV, and nPVI_S. However, CS, unlike KS, showed characteristics closer to those of a stress-timed language in the values of %V and VarcoV. There was also a significant difference in nPVI_V values. These results demonstrate a negative influence of the native language in the realization of Korean rhythm. This can be attributed to the fact that all vowels in Chinese sentence are not pronounced with the same emphasis due to neutral tone. In this sense, this study allowed us to observe influences of L1 on L2 production of rhythm.