• Title/Summary/Keyword: 기계 가독형 전자사전

Search Result 3, Processing Time 0.019 seconds

Describing a MachineReadable Electronic Dictionary using LEXml (LEXml을 이용한 기계가독형 전자사전의 표식)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.103-109
    • /
    • 2006
  • XML(extensible Markup Language)이 1996년 등장한 이후, 기존의 정보를 XML 기반으로 나타내기 위한 연구가 활발하게 이루어지고 있다. 언어자원(language Resource)과 관련된 분야는 80년대부터 그 연구가 있었으나, XML의 등장 이후, 보다 다양하고 특화된 영역의 정보를 구조화하기 위한 연구결과가 최근 소개되기 시작하였다. 본 연구에서는 이러한 분야 중 전자사전을 표식(markup)하는 XML기반 표준언어인 LEXml(Presentation/Representation of Entries in Dictionaries: LEXml)에 대하여 살펴보고, 기존에 XML로 구축된 전자사전을 LEXml로 변환하여, 그 구조의 확장성과 유효성을 검증할 것이다. 기반자료로써 2000년도에 구축된 MultiDICO의 불어 정보를 이용하였다. 이를 위해 MultiDICO의 XML문서 구조와 LEXml 구조 사이의 각 요소(element)별 대응표를 만들었으며, 이를 바탕으로 XSL(Extensible Style sheet Language)를 작성하였다. 본 연구결과 LEXml이 기존에 구축된 전자사전들을 표식하는데 어려움이 없을 뿐만 아니라, 기계가독성을 높일 수 있는 구조적 유연성이 매우 높은 것을 확인할 수 있었다.

  • PDF

Selection of Korean General Vocabulary for Machine Readable Dictionaries (자연언어처리용 전자사전을 위한 한국어 기본어휘 선정)

  • 배희숙;이주호;시정곤;최기선
    • Language and Information
    • /
    • v.7 no.1
    • /
    • pp.41-54
    • /
    • 2003
  • According to Jeong Ho-seong (1999), Koreans use an average of only 20% of the 508,771 entries of the Korean standard unabridged dictionary. To establish MRD for natural language processing, it is necessary to select Korean lexical units that are used frequently and are considered as basic words. In this study, this selection process is done semi-automatically using the KAIST large corpus. Among about 220,000 morphemes extracted from the corpus of 40,000,000 eojeols, 50,637 morphemes (54,797 senses) are selected. In addition, the coverage of these morphemes in various texts is examined with two sub-corpora of different styles. The total coverage is 91.21 % in formal style and 93.24% in informal style. The coverage of 6,130 first degree morphemes is 73.64% and 81.45%, respectively.

  • PDF

Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology (반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축)

  • Yoon, Jeong-Woo;Hwang, Chang-Hoe;Choi, Su-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF