• Title/Summary/Keyword: 자연 언어 처리

Search Result 430, Processing Time 0.027 seconds

A Dictionary Constructing System based on a Web-based Object Model of Distributed Language Resources (웹 기반의 언어자원 객체화에 근거한 사전 개발 시스템)

  • 황도삼
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.1_2
    • /
    • pp.1-9
    • /
    • 2001
  • In this paper. we present a web-based object model of language resources that are distributed in different places in variable forms. Language resources organized as objects distributed over web sites can be easily utilized to produce application systems of natural language processing. So. it renders effective maintenance of overall language processing environment in that upgrading language resources can lead to the mechanical upgrading of application systems. We implemented a dictionary constructing system for Korean Language (YDK2000). This system can integrate various linguistic dictionaries and also allow to construct high quality application specific dictionaries by connecting them to natural language systems on the Internet.

  • PDF

YDK : A Thesaurus Developing System for Korean Language (한국어 통합정보사전 시스템)

  • Hwang, Do-Sam;Choi, Key-Sun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.9
    • /
    • pp.2885-2893
    • /
    • 2000
  • Dictionaries are indispensable for NLP(natural language processing) systems. Sophisticated algorithms in the NLP systems can be fully appreciated only with matching dictionaries that are built systematically based on computational linguistics. Only few dictionaries are developed for natural language processing. Available dictionaries are far from complete specifications for practical uses. So, it is necessary to develop an integrated information dictionary that includes useful lexical information for processing and understanding natural languages such as morphology and syntactic and semantic information. In this paper, we propose a method to build an integrated dictionary, and introduce a dictionary developing system.

  • PDF

A Plug-In Component-based Korean Morphological Analyzer (플러그인 컴포넌트 기반의 한국어 형태소 분석기)

  • Park, Sangwon;Choi, Donghyun;Kim, Eunkyung;Choi, Keysun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.197-201
    • /
    • 2010
  • 지식/정보 서비스의 수준이 급격히 발전함에 따라 기반 기술인 자연언어처리의 중요성이 증가했고, 또 여러 분야에서 다양한 목적에 부합하는 자연언어처리 도구를 필요로 하고 있다. 한국어 자연언어처리 기반 기술 중에서 형태소 분석은 기초적이면서도 중요한 분석 단계이다. 하지만 현재까지 개발된 한국어 형태소 분석기들은 대부분 특정 시스템에 맞게 최적화되어 실행 효율성과 정확성을 높이는데 중점을 두고 있다. 이러한 도구들은 접근성과 확장성이 떨어지고 다양한 요구에 유언하게 대처할 수 없는 단점이 있다. 따라서 본 논문에서는 플러그인 형태의 한국어 형태소 분석 컴포넌트들을 이용하여 유연하게 워크플로를 구성하고 다양한 목적에 맞게 활용할 수 있도록 지원하는 한국어 형태소 분석 시스템을 제안한다. 이번 연구를 통해서 보다 많은 사람들이 형태소 분석 기술에 쉽게 접근하고 활용하여, 한국어 분석 기반 기술 및 용용 기술이 더욱 발전 할 수 있을 것으로 기대한다.

  • PDF

Anaphora Resolution for Contextually Appropriate Animation of Multimedia Fairy Tales (문맥상 자연스러운 멀티동화 자동 애니메이션을 위한 참조현상 해결)

  • Hong, Kyung-Wha;Park, Jong-C.
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.317-324
    • /
    • 2002
  • 참조현상이란 이미 언급되었던 혹은 이미 알고 있다고 여겨지는 정보에 대한 재표현이다. 참조현상은 자연언어처리 분야에서뿐만 아니라 인지과학, 심리학, 철학분야에서도 활발하게 연구되는 현상으로 참조표현인 조응사(anaphora)의 선행사(antecedent)를 채택하는 방법에 따라 그 성능이 좌우된다. 자연언어문장으로부터 멀티동화를 생성을 위한 애니메이션 제어 스크립트 명령들에서의 참조해결은 선행 정보의 적절한 참조를 바탕으로 자연스러운 애니메이션 장면을 생성하는데 있어서 필수적이다. 본 논문에서는 이러한 동화의 자연언어 문장에 나타나는 참조현상들에 대해 살펴보고 결합범주문법을 이용하여 참조현상을 해결하는 방법과 구현방법에 대해 논의한다.

  • PDF

A Recognition of Value Identifiers in Electonic Commerce System (전자거래 시스템에서 가격지정 연산자의 인식)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.85-88
    • /
    • 1999
  • 전자거래 시스템에서 상품정보에 대한 자연언어 질의 문장은 상품명과 가격의 범위를 인식하는 것이 가장 중요한 요소이다. 가격의 범위를 인식하려면 가격 어휘와 가격지정어로 이루어진 가격범위 구문에 대한 별도의 처리 방법이 요구된다. 아라비아 숫자와 수사들로 구성된 가격어휘를 인식하는 수사어절 인식 알고리즘과 구문분석기를 이용하여 상품정보를 검색하는 질의 문장으로부터 상품명에 대한 가격의 범위를 인식하는 자연언어 질의어 처리 방법을 제안한다.

  • PDF

Robust Part-of-Speech Tagger using Statistical and Rule-based Approach (통계와 규칙을 이용한 강인한 품사 태거)

  • Shim, Jun-Hyuk;Kim, Jun-Seok;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.60-75
    • /
    • 1999
  • 품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

  • PDF

Natural Language Information Retrieval by Fuzzy Inference (퍼지 추론에 의한 자연언어 정보 검색)

  • Park, Hyeon-Gyu;O, Jong-Hun;Kim, Myeong-Ho;Choe, Gi-Seon;Lee, Gwang-Hyeong
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.243-250
    • /
    • 2001
  • 인터넷 전자 상거래 시스템에서 주로 일어나는 정보 검색은 사용자의 상품정보 요구라고 할 수 있다. 이와 같이 사용자가 원하는 상품 정보를 웹 환경에서 검색하기 위해서는 편리한 검색 환경의 제공뿐만 아니라, 검색 성능의 효율성 또한 우수해야 한다. 인터넷 인구와 온라인 쇼핑몰의 급격한 증가로 인해 다양한 조건 검색에 의한 상품검색 요구가 증대되고 있다. 또한, 이러한 상품의 검색 결과는 사용자의 의도와 의미상으로 밀접한 관계를 가져야 한다. 자연언어 정보검색은 이러한 요구의 중요한 대안으로 대두되고 있으나, 자연언어 자체가 가지는 애매한 의미의 해석 등으로 인하여 상용 시스템에 적용하는데 많은 어려움이 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 퍼지추론을 이용한다. 입력된 자연언어 질의에서 형태소 분석을 통하여 데이터베이스 질의에 사용될 수 있는 의미어(content word)를 추출한 후, 의미어들을 재구성하여 템플릿을 작성한다. 작성된 템플릿은 퍼지 추론을 통하여 의미의 애매성을 해소하고 데이터베이스 질의로 변환하여 사용자의 질의 의도와 부합되는 검색 결과를 제시한다.

  • PDF

음성정보처리기술 응용서비스

  • 구명완;김재인
    • Korea Information Processing Society Review
    • /
    • v.11 no.2
    • /
    • pp.17-24
    • /
    • 2004
  • 음성정보처리 기술은 사람의 말을 음향, 언어, 심리학 및 공학적인 측면에서 연구하여 사람과 기계사이의 인터페이스를 자연스럽게 하는 것을 목표로 하고 있으며, 음성인식, 음성합성 및 언어처리 기술로 이루어져 있다. 음성인식기술이란 사람의 말을 이해하는 것뿐만 아니라 화자를 식별하고 인증하는 기술도 포함하고 있으며, 음성합성 기술이란 문자로부터 음성을 생성하는 기술을 의미한다. 그리고 언어처리 기술은 음성인식, 음성합성기술 속에 포함될 수 있으나 최근 마크업 언어를 활용하여 음성인식, 합성 등을 제어하는 경향이 도래함에 따라 언어처리 기술을 따로 분류하기도 한다[1][2].(중략)

  • PDF

A Feature Set Description of Grammar Rules for Natureal Languages (자질 집합 표현에 의한 자연언어 문법 규칙 기술)

  • Park, Sung-Suk;Han, Sung-Kook
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.419-425
    • /
    • 1994
  • 문법체계내의 문법규칙은 규칙의 기술양식에 의해 언어특성이 결정된다. 본 논문에서는 문법 체계의 규칙기술을 위한 새로운 자질 집합 기술 (feature set description)을 제안하고, 이를 기반으로 한 파라메터화된 문맥자유문법 (parametrized context-free grammar : PCFG)을 정의하여, 자연언어의 문법규칙을 구성하는 방법에 대하여 기술한다. 자질 집합 기술은 간결한 규칙체계를 유지하면서 강력한 생성능력을 갖는 문법체계를 구현할 수 있어, 자연언어 처리 시스템에 효과적으로 적용할 수 있음을 보였다.

  • PDF

Expansion and Improvement of Korean FrameNet utilizing linguistic features (언어적 특징을 반영한 한국어 프레임넷 확장 및 개선)

  • Kim, Jeong-uk;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF