• Title/Summary/Keyword: NLP

Search Result 351, Processing Time 0.035 seconds

Analysis of the Korean Tokenizing Library Module (한글 토크나이징 라이브러리 모듈 분석)

  • Lee, Jae-kyung;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.78-80
    • /
    • 2021
  • Currently, research on natural language processing (NLP) is rapidly evolving. Natural language processing is a technology that allows computers to analyze the meanings of languages used in everyday life, and is used in various fields such as speech recognition, spelling tests, and text classification. Currently, the most commonly used natural language processing library is NLTK based on English, which has a disadvantage in Korean language processing. Therefore, after introducing KonLPy and Soynlp, the Korean Tokenizing libraries, we will analyze morphology analysis and processing techniques, compare and analyze modules with Soynlp that complement KonLPy's shortcomings, and use them as natural language processing models.

  • PDF

A Study On Technical Trend Analysis Related to Semantic Analysis of NLP Through Domestic/Foreign Patent Data (국내외 특허데이터 분석을 통한 자연어처리의 의미분석 관련 기술동향 분석에 대한 연구)

  • Hyun, Young-Geun;Han, Jeong-Hyeon;Chae, Uri;Lee, Gi-Hyun;Lee, Joo-Yeoun
    • Journal of Digital Convergence
    • /
    • v.18 no.1
    • /
    • pp.137-146
    • /
    • 2020
  • NLP means the technology that mechanically analyzes a language spoken by a human and makes it into a form that can be understood by a computer. This is important because it is a core technology for communication between humans and devices, which is the basis of artificial intelligence. In this paper, I analyzed patent information of US and Korea in order to identify technical trends related to NLP, especially semantic analysis. and the purpose of this study is to provide meaningful information for future research on NLP. In conclusion, the number of Korea patents is 7.9% compared to the USA and the different frequencies of the major keywords were found to differ from country to country in technical direction. In addition, the upward or downward keywords are twice as many in the U.S. as in Korea, and reflect the trend of the times relatively more. Based on these results, in future study, I will analysis how upward trending keywords are described in actual patents for concrete technology prediction.

An Algorithm for Predicting the Relationship between Lemmas and Corpus Size

  • Yang, Dan-Hee;Gomez, Pascual Cantos;Song, Man-Suk
    • ETRI Journal
    • /
    • v.22 no.2
    • /
    • pp.20-31
    • /
    • 2000
  • Much research on natural language processing (NLP), computational linguistics and lexicography has relied and depended on linguistic corpora. In recent years, many organizations around the world have been constructing their own large corporal to achieve corpus representativeness and/or linguistic comprehensiveness. However, there is no reliable guideline as to how large machine readable corpus resources should be compiled to develop practical NLP software and/or complete dictionaries for humans and computational use. In order to shed some new light on this issue, we shall reveal the flaws of several previous researches aiming to predict corpus size, especially those using pure regression or curve-fitting methods. To overcome these flaws, we shall contrive a new mathematical tool: a piecewise curve-fitting algorithm, and next, suggest how to determine the tolerance error of the algorithm for good prediction, using a specific corpus. Finally, we shall illustrate experimentally that the algorithm presented is valid, accurate and very reliable. We are confident that this study can contribute to solving some inherent problems of corpus linguistics, such as corpus predictability, compiling methodology, corpus representativeness and linguistic comprehensiveness.

  • PDF

Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information (언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

Double Subject Analysis in Korean (한국어의 이중주어 분석)

  • Kim, Chang-Hyun;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.158-162
    • /
    • 2003
  • 이중주어 문장이란 하나의 용언이 두 개의 주격조사를 취하는 경우를 말한다. 이러한 이중주어 현상은 영어권에서는 없는 현상으로, 한국어 분석 측면에서 어려움을 야기할 뿐 아니라, 자동 번역 측면에서도 반드시 고려되어야 하는 현상이다. 그러나 이중주어의 분석에 대한 기존 연구는 국어학 분야에서만 진행되었을 뿐 자연어 처리분야에서는 다루어진 적이 없다. 본 논문에서는 이중주어 현상에 대한 분석을 통해, 이중주어 현상이 한국어 문장에서 빈번히 발생하는 현상이며, 기존의 ‘명시-격조사-용언’으로 구성되는 공기정보만으로는 이중주어 문장을 올바로 분석할 수 없음을 보인다. 이를 해결하기 위해 본 논문에서는 이중주어의 특성을 파악하고, 이들 특성에 맞게 ‘명사-격조사-용어’ 공기정보뿐 아니라 명사들 간의 공기정보 및 관형형 용언과 명사 공기정보, 그리고 주격조사의 교체를 통한 이중주어 분석 방법을 제안한다.

  • PDF

A New Analytical Method for Location Estimation Using the Directional Data (방향정보를 이용한 위치측정의 분석적 방법)

  • Lee Ho-Joo;Kim Yeong-Dae;Park Cheol-Sun
    • Journal of the Korea Institute of Military Science and Technology
    • /
    • v.7 no.4 s.19
    • /
    • pp.61-69
    • /
    • 2004
  • This paper presents a new analytical method for estimating the location of a target using directional data. Based on a nonlinear programming (NLP) problem formulated for the line method, which is a well known algorithm for two-dimensional location estimation, we present a method to find an optimal solution for the problem. Then we present a two-stage method for better location estimation based on the NLP problem. In addition, another two-stage method is presented for location estimation problems in which different types of observers are used to obtain directional data based on the analysis of the maximum likelihood estimate of the target location. The performance of the suggested method is evaluated through simulation experiments, and results show that the two-stage method is computationally efficient and highly accurate.

Evaluation Method for Korean Morphological Analysis System and it's Application to MATEC99 (한국어 형태소 분석 시스템에 대한 평가 방법 및 적용 사례 분석)

  • Kim, Jin-Dong;Rim, Hae-Chang;Park, Jay-Duke;Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.44-49
    • /
    • 1999
  • 언어계통상 교착어에 속하는 한국어는 형태소 분석 결과가 복잡하게 주어지기 때문에 형태소 분석 시스템에 대한 효과적인 평가가 쉽지 않다. 본 논문에서는 한국어 형태소 분석 시스템에 대한 평가 방법을 제시한다. 또한 이를 MATEC99에 적용한 사례를 분석하여 이에 대한 타당성을 입증하고 보완점을 기술한다.

  • PDF