• Title/Summary/Keyword: 자연 언어 처리

Search Result 429, Processing Time 0.021 seconds

Korean POS and Homonym Tagging System using HMM (HMM을 이용한 한국어 품사 및 동형이의어 태깅 시스템)

  • Kim, Dong-Myoung;Bae, Young-Jun;Ock, Cheol-Young;Choi, Ho-Soep;Kim, Chang-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.12-16
    • /
    • 2008
  • 기존의 자연언어처리 연구 중 품사 태깅과 동형이의어 태깅은 별개의 문제로 취급되었다. 그로 인해 두 문제를 해결하기 위한 모델 역시 서로 다른 모델을 사용하였다. 이에 본 논문은 품사 태깅 문제와 동형이의어 태깅 문제는 모두 문맥의 정보에 의존함에 착안하여 은닉마르코프모델을 이용하여 두 가지 문제를 해결하는 시스템을 구현하였다. 제안한 시스템은 품사 및 동형이의어 태깅된 세종 말뭉치 1100만여 어절에 대해 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 사전을 구축하였다. 구현된 시스템의 성능 확인을 위해 비학습 말뭉치 261,360 어절에 대해 실험하였고, 실험결과 품사 태깅 99.74%, 동형이의어 태깅 97.41%, 품사 및 동형이의어 태깅 97.78%의 정확률을 보였다.

  • PDF

Korean Speech Act Tagging using Previous Sentence Features and Following Candidate Speech Acts (이전 문장 자질과 다음 발화의 후보 화행을 이용한 한국어 화행 분석)

  • Kim, Se-Jong;Lee, Yong-Hun;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.23-30
    • /
    • 2007
  • 화행 분석이란 자연언어로 된 발화를 통해서 나타나는 화자의 의도를 인식하는 것으로 대화를 처리하는 여러 응용 분야에서 중요하게 요구되는 과정이다. 기존의 연구에서는 이전 발화의 화행과 현재 발화의 문장 자질을 사용하여 규칙 기반 및 통계 기반의 연구가 진행되었다. 하지만 본 논문에서는 현재 발화 이후의 후보 화행을 추정하여 이를 현재 발화의 화행을 결정하는데 사용함으로써 기존의 연구와 차별화를 두었으며, 실제로 기존 방법보다 약 4%의 성능향상을 보인 96.08%의 정확도(accuracy)를 보였다. 또한 이전 발화의 화행 정보 대신 이전 화행을 결정하는데 사용했던 문장 자질을 현재 발화의 화행 결정에 직접 사용함으로써 실제 이전 화행을 적용했을 때보다 향상된 성능을 가져왔으며, 이전 문장 자질과 후보 화행을 함께 사용하여 화행을 결정했을 경우 96.96%의 정확도를 보였다.

  • PDF

Neural Theorem Prover with Word Embedding for Efficient Automatic Annotation (효율적인 자동 주석을 위한 단어 임베딩 인공 신경 정리 증명계 구축)

  • Yang, Wonsuk;Park, Hancheol;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.79-84
    • /
    • 2016
  • 본 연구는 전문기관에서 생산되는 검증된 문서를 웹상의 수많은 검증되지 않은 문서에 자동 주석하여 신뢰도 향상 및 심화 정보를 자동으로 추가하는 시스템을 설계하는 것을 목표로 한다. 이를 위해 활용 가능한 시스템인 인공 신경 정리 증명계(neural theorem prover)가 대규모 말뭉치에 적용되지 않는다는 근본적인 문제를 해결하기 위해 내부 순환 모듈을 단어 임베딩 모듈로 교체하여 재구축 하였다. 학습 시간의 획기적인 감소를 입증하기 위해 국가암정보센터의 암 예방 및 실천에 대한 검증된 문서들에서 추출한 28,844개 명제를 위키피디아 암 관련 문서에서 추출한 7,844개 명제에 주석하는 사례를 통하여 기존의 시스템과 재구축한 시스템을 병렬 비교하였다. 동일한 환경에서 기존 시스템의 학습 시간이 553.8일로 추정된 것에 비해 재구축한 시스템은 93.1분 내로 학습이 완료되었다. 본 연구의 장점은 인공 신경 정리 증명계가 모듈화 가능한 비선형 시스템이기에 다른 선형 논리 및 자연언어 처리 모듈들과 병렬적으로 결합될 수 있음에도 현실 사례에 이를 적용 불가능하게 했던 학습 시간에 대한 문제를 해소했다는 점이다.

  • PDF

A Design of Dialogue Interface System Based on Statistical Approach (통계에 기반한 다영영 대화형 도우미 시스템의 설계)

  • Jeong, Hyoung-Il;Kim, Dong-Hyun;Jang, Hyo-Jun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.262-267
    • /
    • 2006
  • 대화 인터페이스 시스템(dialogue interface system)은 인간과 컴퓨터의 상호작용을 위한 도구로서 자연언어(natural language)를 사용하여 정보를 공유하거나 특정 업무를 수행하는 프로그램이다. 대화 인터페이스 시스템에 대한 기존의 연구들은 영역 의존적인 스크립트나 계획 추론을 위한 계획 지식을 이용해 왔다. 스크립트 모델(script model)은 제한적인 실용시스템 개발을 위해 주로 연구되었고 계획에 기반한 모델은 대화의 원리를 이해하는 분야에서 주로 연구되어 왔다. 그러나 기존의 모델들은 시스템 확장이 매우 어려우며 예측하지 못한 사용자 발화에 대하여 대응이 어렵기 때문에 매우 제한적인 영역이나 정해진 형태의 대화만을 처리할 수 있다. 본 논문에서는 이런 단점들을 보완하기 위하여 통계에 기반한 다 영역(multi-domain) 대화 모델을 제안한다. 제안된 시스템은 각 작업들에 대하여 해당 작업에 적합한 영역 모델(domain model)을 잘 알려진 프레임 구조를 따르면서 사용자 의도 파악과 시스템 의도 생성에 통계적 방법을 사용한다. 이러한 하이브리드 형태의 구조 덕분에 제안된 시스템은 영역 확장성과 이식성이 뛰어나다는 장점을 가진다.

  • PDF

Linking Korean Predicates to Knowledge Base Properties (한국어 서술어와 지식베이스 프로퍼티 연결)

  • Won, Yousung;Woo, Jongseong;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • Journal of KIISE
    • /
    • v.42 no.12
    • /
    • pp.1568-1574
    • /
    • 2015
  • Relation extraction plays a role in for the process of transforming a sentence into a form of knowledge base. In this paper, we focus on predicates in a sentence and aim to identify the relevant knowledge base properties required to elucidate the relationship between entities, which enables a computer to understand the meaning of a sentence more clearly. Distant Supervision is a well-known approach for relation extraction, and it performs lexicalization tasks for knowledge base properties by generating a large amount of labeled data automatically. In other words, the predicate in a sentence will be linked or mapped to the possible properties which are defined by some ontologies in the knowledge base. This lexical and ontological linking of information provides us with a way of generating structured information and a basis for enrichment of the knowledge base.

The Influence and Impact of syntactic-grammatical knowledge on the Phonetic Outputs of a 'Reading Machine' (통사문법적 지식이 '독서기계'의 음성출력에 미치는 영향과 중요성)

  • Hong, Sungshim
    • The Journal of the Convergence on Culture Technology
    • /
    • v.6 no.4
    • /
    • pp.225-230
    • /
    • 2020
  • This paper highlights the influence and the importance of the syntactic-grammatical knowledge on "the reading machine", appeared in Jackendoff (1999). Due to the lack of the detailed testing and implementation in his research, this paper tests an extensive data array using a component of Google Translate, currently available freely and most widely on the internet. Although outdated, Jackendoff's paper, "Why can't Computers use English?", argues that syntactic-grammatical knowledge plays a key role in the outputs of computers and computer-based reading machines. The current research has implemented some testings of his thought-provoking examples, in order to find out whether Google Translate can handle the same problems after two decades or so. As a result, it is argued that in the field of NLP, I-language in the sense of Chomsky (1986, 1995 etc) is real and the syntactic, grammatical, and categorial knowledge is essential in the faculty of language. Therefore, it is reassured in this paper that when it comes to human language, even the most advanced "machine" is still no match for human faculty of language, the syntactic-grammatical knowledge.

Text integration processing based on connectives in Aphasics (실어증 환자의 접속사 정보처리에 관한 연구)

  • Kim, Soo-Jeong;Moon, Young-Sun;Kim, Mi-Ra;Kim, Yoo-Jeong;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.441-446
    • /
    • 1999
  • 본 연구는 접속사를 통한 텍스트 통합 과정이 논리적 추론 종류에 따라 다른 정보처리 과정 혹은 다른 종류의 단원적 구조(modular structure in language processing)에 의해 처리되는지를 조사하기 위해 실시되었다. 또한, 접속사를 통한 추론 과정이 실어증의 증상 종류에 따라 다른 종류의 언어정보처리 손상이 있는지를 평가하기 위해 실시되었다. 실험에 참가한 환자는 이해성 실어증환자(Wernicke aphasic), 전반성 실어증 환자(Global aphasic), 표현성 실어증 환자(Broca aphasic) 등이었다. en 종류의 과제를 이용하였다. 한 과제는 앞 뒤 문장을 논리적 관계성을 표현하는 접속사를 채워 넣는 과제였고 다른 과제는 접속사가 포함된 텍스트가 옳은지를 판단하는 정오 판단 과제였다. 실험재료 문장에 사용된 접속사는 추가적인 정보를 제공하는 '그리고'와 대등 관계를 나타내는 '그러나' 및 인과 관계를 표현하는 '그래서' 였다. 이 세 종류의 접속사는 각기 다른 논리적 관계성을 나타낸다. 실험 결과는 실어증 환자가 전반적으로 채워 넣기 과제에서 보다는 정오 판단 과제에서 더 많은 실수를 보였으며, 표현성 실어증 환자보다는 이해성 실어증 환자가 더 많은 오류를 보였다. 또한, 세 종류의 접속사 중에 '그리고'가 표함된 텍스트에서 더 많은 실수를 보였다. 이 연구에서 나타난 흥미 있는 결과는 표현성 실어증 환자는 '그러나' 접속사가 포함된 텍스트에서의 수행이 '그래서'가 포함된 경우에서보다 좋은 반면에 전반성 실어증 환자는 '그래서'를 포함하는 텍스트에서의 수행이 '그러나'를 포함하는 텍스트에서의 수행이 더 우수해서 이중해리(double dissociation)가 나타난다는 사실이다. 이 결과는 선후 문장이 어떤 종류의 논리적 관계성을 지니는가에 따라 다른 종류의 정보처리가 진행된다는 것을 암시하는 결과이다.>$\textrm{cm}^2$.。C로 비교적 양호한 초전박막의 전기적 특성을 나타내었다.(Mg+Fe)비를 갖고 전자에 비해 Al이 풍부한 환경에서 생성되었으며, 따라서 활석과 연관되지 않은 녹니석은 생성시 광체와 인접한 화강아질 편마암에 의해 주로영향을 받았을 것으로 생각된다. 녹니석의 이러한 2가지 화학조성상의 경향은 녹니석과 공존하는 운모류나 각섬석류들의 화학분석결과와도 잘 일치한다. 이러한 결과는 이 지역의 활석 광상이 초염기성암 기원의 사문암이 열수변질작용을 받아 생성되었음을 명확하게 지시하며, 따라서 활석 광석내에 존재하는 녹니석은 활석의 근원 광물로서 녹니석편암 및 녹니석 편마암 매의 녹니석이 활석화되고 남은 잔존광물이 아니라, 주변암에 의해 성분상의 영향을 받은 열수와 사문암과의 변질교대작용에 의한 활석화과정 중에 주로 생성된 것으로 추정된다. 이러한 결과는 연구지역의 활석광상이 초염기성암의 사문암화 작용과 활석화 작용의 두 가지 변질작용에 의해 형성되어졌음을 알려준다.농도 증가 없이 폐 조직에 약 50배 정도의 고농도 cisplatin을 투여할 수 있었으며, 또한 분리 폐 관류 시 cisplatin에 의한 직접적 폐 독성은 발견되지 않았다이 낮았으나 통계학적 의의는 없었다[10.0%(4/40) : 8.2%(20/244), p>0.05]. 결론: 비디오흉강경술에서 재발을 낮추기 위해 수술시 폐야 전체를 관찰하여 존재하는 폐기포를 놓치지 않는 것이 중요하며, 폐기포를 확인하지 못한 경우와 이차성 자연기흉에 대해서는 흉막유착술에 더 세심한 주의가 필요하다는 것을 확인하였다. 비디오흉강경수술은 통증이 적고, 입원기간이 짧고, 사회로의 복귀가 빠르며, 고위험군에 적용할 수 있고, 무엇보다도 미용상의 이점이 크다는 면에서 자연기흉에 대해 유용한 치료방법임에는 틀림이 없으나 개흉술에 비해 재발율이 높고 비용이 비싸다는 문제가 제기되고 있는 만큼

  • PDF

Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis (음절 복원 규칙과 형태소 분석을 이용한 음성인식 후처리)

  • Seo, Sang-Hyun;Kim, Jae-Hong;Kim, Hae-Jin;Kim, Mi-Jin;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.495-499
    • /
    • 1997
  • 컴퓨터의 사용이 보편화됨에 따라 컴퓨터와 사용자 사이의 쉽고 자연스러운 의사 소통을 위한 자연어 인터페이스에 대한 연구가 활발히 진행되고 있다. 이 중에서 특히, 음성인식 분야는 음성명령, 받아쓰기 시스템 등 일반적인 컴퓨터 사용자의 요구를 충족시켜 줄 수 있는 분야로 주목을 받고 있다. 그러나 음성인식은 인식 자체만으로는 인식률에 한계가 있으며, 인식 결과를 향상시키기 위해서는 후처리 단계가 필요하다. 본 논문에서는 음성 인식의 성능을 향상시키기 위해 음성 인식의 결과로 들어온 연속된 한국어 음성을 올바른 음절로 복원시켜 주는 시스템을 구현하였다. 이 시스템에서는 어절단위의 연속된 한국어 음성을 입력으로 받아 한국어 발음 규칙을 역으로 적용하여 원래의 음절로 복원시키고, 형태소 분석기를 이용하여 복원된 음절이 올바른지를 확인하고 수정한다. 초등학교 교과서에 나오는 문장을 대상으로 본 시스템의 성능을 실험한 결과, 90.42%의 복원율을 나타내었다. 현재 정확하게 복원이 되지 않는 것 중에는 동음이의어가 차지하는 비중이 크며, 이 문제는 구문분석이나 의미분석을 이용하여 어느 정도 개선할 수 있을 것으로 보인다.

  • PDF

A Domain Selection for Multi-Domain Dialog System (멀티 도메인 대화시스템을 위한 도메인 결정 기술)

  • Lee, Injae;Kim, Kyungduk;Kim, Seokhwan;Lee, Donghyeon;Choi, Junwhi;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.133-135
    • /
    • 2011
  • 본 논문은 다중 도메인 대화 시스템에서 사용자의 발화에 가장 적합한 도메인을 결정하는 방법에 관하여 논한다. 다중 도메인 대화 시스템 구축 시, 도메인의 확장성 재고 및 각 도메인 별 특성의 효과적인 적용을 위해, 각 도메인 별 단일 도메인 대화 전문가를 구축하고, 다수의 도메인 대화 전문가들을 통합함으로써, 다양한 도메인을 처리할 수 있는 대화 시스템을 구축할 수 있다. 이 때, 자연스러운 대화 처리를 위해서 주어진 사용자의 발화에 가장 적합한 도메인을 결정하는 기술이 필요하다. 본 논문에서는 사용자 발화의 의도 분석 결과 및 이전 사용자 발화 도메인 정보를 이용하는 구축된 분류 모델에 기반한 도메인 결정 방법을 제안하고, 실험 결과를 통해 제안된 방법의 효과를 검증한다.

  • PDF

An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet (한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상)

  • Kwon, Soonho;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.