• Title/Summary/Keyword: Korean Parser

Search Result 168, Processing Time 0.032 seconds

Development and Implementation of the XML Parser for integrated XML Webservice (XML웹서비스를 위한 XML Parser개발 및 구현)

  • Kwon, Doo-Wy;Do, Kyeong-Hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.72-75
    • /
    • 2009
  • XML과 웹서비스의 등장으로 전자문서 관리의 중요성이 대두되었고, 효율적인 관리를 위해 많은 기업들이 기술 개발을 해오고 있다. 그러나 웹언어나 프로토콜에 대한 공개 표준이 제정 되지 않아 기업들은 개별적으로 웹서비스를 구축하고 이는 인터넷 시장과 웹의 분열을 가져왔다. 이에 W3C에서는 웹 상호운용성을 목표로 XML표준안을 공표했다. MusicXML, MathML, CML(Chemistry Markup Language), WML(Wireless Markup Language)등은 모두 특정한 용도를 가지는 XML기반의 마크업 언어들이다. XML은 단지 웹 환경만을 위한 표준이 아니라 인터넷 전반에서 데이터를 생성, 저장, 변환하기 위한 보편적인 표준으로 자리 잡고 있다. 본 논문에서는 모바일환경과 웹 환경에서 동시 서비스가 가능한 XML 웹서비스를 구현하였다. XML 웹서비스는 인터넷 표준기술인 XML과 HTTP를 사용하는데, XML기반의 SOAP메시지를 파싱하기 위하여 WIPI와 HTML기반으로 설계, 개발하였다. 제안하는 XML Parser는 PULL모델을 변형한 이벤트 방식이다. 제안한 Parser는 모바일기기와 웹 환경에서 동시 사용가능한 인터넷 서점에 적용하였고, 제안하는 XML Parser와 기존의 Parser들과의 벤치마킹을 통해 속도비교를 함으로써 Parsing속도의 향상을 나타내었다.

  • PDF

A Parser of Definitions in Korean Dictionary based on Probabilistic Grammar Rules (확률적 문법규칙에 기반한 국어사전의 뜻풀이말 구문분석기)

  • Lee, Su Gwang;Ok, Cheol Yeong
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.5
    • /
    • pp.448-448
    • /
    • 2001
  • The definitions in Korean dictionary not only describe meanings of title, but also include various semantic information such as hypernymy/hyponymy, meronymy/holonymy, polysemy, homonymy, synonymy, antonymy, and semantic features. This paper purposes to implement a parser as the basic tool to acquire automatically the semantic information from the definitions in Korean dictionary. For this purpose, first we constructed the part-of-speech tagged corpus and the tree tagged corpus from the definitions in Korean dictionary. And then we automatically extracted from the corpora the frequency of words which are ambiguous in part-of-speech tag and the grammar rules and their probability based on the statistical method. The parser is a kind of the probabilistic chart parser that uses the extracted data. The frequency of words which are ambiguous in part-of-speech tag and the grammar rules and their probability resolve the noun phrase's structural ambiguity during parsing. The parser uses a grammar factoring, Best-First search, and Viterbi search In order to reduce the number of nodes during parsing and to increase the performance. We experiment with grammar rule's probability, left-to-right parsing, and left-first search. By the experiments, when the parser uses grammar rule's probability and left-first search simultaneously, the result of parsing is most accurate and the recall is 51.74% and the precision is 87.47% on raw corpus.

Design of On-Line Natural Language Parser (온라인 방식의 자연언어 해석기 설계)

  • 우요섭;최병욱
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.3
    • /
    • pp.14-23
    • /
    • 1994
  • A natural language processing system usually has the demerit that its processing time is relatively long. If an interactive system makes its user kept waiting long, it can't be said to be practical. In this paper, the on-line natural language parser in which its processing coincides with the sentence's inputting is designed. Since the greater part of morpholgical and syntatic semantic analysis is already performed during the keyboard input, user can get a prompt response. Moreover, the Korean parser is implemented in multitasking environment, and it is compared with an off-line parser. The on-line parser can be considered to be efficient for its real time processing.

  • PDF

Adaptation method of JFlex and BYacc/J for XML Pull Parser (XML Pull Parser를 위한 JFlex와 BYacc/J의 적용방안)

  • 장주현;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.259-261
    • /
    • 2003
  • Xml 파서들의 벤치 마킹 결과에서 기존 파서와는 달리 JFlex와 BYacc/J를 사용한 Piccolo는 다른 파서들에 비해 0.5 ~ 1.5배 향상된 빠른 속도의 파싱 속도를 나타내었다. 하지만 XML Pull 모델의 표준 interface인 XPP(XML Pull Parser)가 제정되고 안정화됨에 따라서 MXP(XPP Version 3.0)[1]는 기존 XML 파서들과 달리 Parser Generator tool을 사용하여 가장 빠른 파싱 속도를 보였던 Piccolo 파서[2]보다도 빠른 파싱 속도를 나타내었고 이는 현 XML파서 중 가장 빠른 파싱 속도로 Pull 모델이 기존의 Object, Push 보다 빠른 모델이라는 점을 입증하였다. 본 논문에서는 Pull Parser를 구현하는데 있어 Piccolo에서 사용한 JFlex와 BYacc/J를 사용함으로 Pull 파서의 속도를 한층 더 높여 Piccolo, MXP 보다 빠른 파싱 속도를 내는 파서를 구현하기 위한 JFlex와 BYacc/J의 적용방안에 대해 연구하였다.

  • PDF

Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser (한국어 구문분석 시스템 BCD-KL-Parser의 개발)

  • Kim, Minho;Kim, Seongtae;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information (스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석)

  • Choi, Yong-Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.6
    • /
    • pp.235-242
    • /
    • 2021
  • In this work, we develop a Korean dependency parser based on a stack-pointer network that consists of a pointer network and an internal stack. The parser has an encoder and decoder and builds a dependency tree for an input sentence in a depth-first manner. The encoder of the parser encodes an input sentence, and the decoder selects a child for the word at the top of the stack at each step. Since the parser has the internal stack where a search path is stored, the parser can utilize information of previously derived subtrees when selecting a child node. Previous studies used only a grandparent and the most recently visited sibling without considering a subtree structure. In this paper, we introduce graph attention networks that can represent a previously derived subtree. Then we modify our parser based on the stack-pointer network to utilize subtree information produced by the graph attention networks. After training the dependency parser using Sejong and Everyone's corpus, we evaluate the parser's performance. Experimental results show that the proposed parser achieves better performance than the previous approaches at sentence-level accuracies when adopting 2-depth graph attention networks.

Correction Method for Korean Dependency Parsing using Projectivity and Re-searching (투사성과 재탐색을 이용한 결정적 한국어 의존구조 분석의 보정기법)

  • Park, Young-Min;Seo, Jung-Yun
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.4
    • /
    • pp.429-447
    • /
    • 2011
  • In this paper, we propose a modified deterministic Korean dependency parser using a projectivity. The modified parser is improved by finding errors, such as cross dependency, from the original parsing results and correcting them according to the projectivity and head-final principles. Our parser also uses parsing history information in addition to rich features, which only a deterministic algorithm can use. Results on the modified parser for ETRI(2005) corpus, that consists of complex sentences, show that our parser outperforms other parsers.

  • PDF

Bracketing Input for Accurate Parsing

  • No, Yong-Kyoon
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2007.11a
    • /
    • pp.358-364
    • /
    • 2007
  • Syntax parsers can benefit from speakers' intuition about constituent structures indicated in the input string in the form of parentheses. Focusing on languages like Korean, whose orthographic convention requires more than one word to be written without spaces, we describe an algorithm for passing the bracketing information across the tagger to the probabilistic CFG parser, together with one for heightening (or penalizing, as the case may be) probabilities of putative constituents as they are suggested by the parser. It is shown that two or three constituents marked in the input suffice to guide the parser to the correct parse as the most likely one, even with sentences that are considered long.

  • PDF

A Design & Implementation of Korean Parser using Subcategorization: I (하위범주화에 의한 한국어 파서의 설계와 구현 : I)

  • Lee, Ho Suk
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.1-4
    • /
    • 2008
  • We present and discuss a Korean language parser based on dependency grammar, subcategorization, and the analysis of viable postfix such as josa and omi. We employ an extended form of BNF(Backus Naur Form) to define the dependency grammar and the form of subcategorization. We present the conceptual form of Korean language parser in a C program style. We discuss the structure of Korean parser currently implemented and show the execution results.

  • PDF

Design of Xml Pull Parser Using JFlex and BYacc/J (JFlex와 BYacc/J를 이용한 XML Pull Parser 설계)

  • 장주현;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.31-33
    • /
    • 2003
  • XML을 파싱하는 기존의 파싱 Model인 Document Object Model은 메모리 내에 트리 구조와 같은 문서의 컨텐츠를 구성하기 때문에 메모리 사용이 많으며 Event 기반의 Push Model은 Consumer의 상태와 관계없이 파싱된 정보를 이벤트 처리 메소드를 이용함으로 처리의 지연, 처리의 지연을 위한 메모리 사용 등의 단점이 있다. 이에 반해 Pull 파싱 Model은 Client가 파싱의 요청을 하는 Model로써 Streaming Data를 파싱 할 시에 적은 지연시간, 메모리의 효율적인 사용 파싱속도가 신속하다는 장점이 있다. 따라서 본 논문에서는 XML 파서 설계에 있어서 Pull 파싱 모델에 파서 Generator tool인 JFlex와 BYacc/J를 사용하여 기존의 Xml Parser보다 파싱 속도를 향상시키는 Pull 파서의 설계 방법을 제안하고자 한다.

  • PDF