• Title, Summary, Keyword: 사전처리

Search Result 1,896, Processing Time 0.035 seconds

Preprocessing for Minimum Cost Flow Problems (최소비용문제에서의 사전처리)

  • 엄순근;박찬규;박순달
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • /
    • pp.71-74
    • /
    • 1998
  • 본 연구는 최소비용문제에 적용할 수 있는 사전처리 기법의 이론과 그 구현에 대해서 다룬다. 일반적으로 해법을 적용하여 문제를 풀기 이전에 최적해에서 유통량을 알 수 있는 호나 중복적인 호와 점을 제거하여 문제 크기를 줄이는 과정을 사전처리(preprocessing)라 한다. 또한 문제의 비가능성이나 입력된 문제의 정확성 등을 검사하는 과정도 사전처리에 포함하기도 한다 따라서 사전처리는 문제 축소와 입력된 문제의 정확성 검사 등을 통해 해법의 수행도와 안정성을 높이는 효과를 가져다준다. 본 연구에서는 최소비용문제의 사전처리로 비가능성 판정, 중개지에 대한 사전처리, 병렬호에 대한 사전처리, 호의 유통상한과 유통하한을 이용한 유통량고정에 대한 사전처리, 우회경로에 대한 사전처리 등을 연구하였다. 본 연구에서는 네트워크 단체법 프로그램에 최소비용문제에서의 사전처리기법을 각각 구현하여 이러한 사전처리를 하지 않았을 때와 비교하여 문제의 크기를 줄일 수 있었고 수행시간을 16%정도 줄일 수 있다는 것을 실험적으로 보였다.

  • PDF

A Thesaurus for Korean Language (YDK-Term : 한국어 용언의 다국어 통합정보사전)

  • Choi, Yon-Jun;Hwang, Do-Sam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.321-326
    • /
    • 1998
  • 통합정보사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어 처리 도구와 처리 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존에 출판되어 있는 사전은 자연언어처리 및 이해의 관점에서 개발된 사전이 아니며, 자연언어처리 도구 및 응용시스템에 사용되는 사전은 목적에 따라 각기 다른 체계에 의해 구축되어 있어 이용하는데 있어서 비효율적이다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이며 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 통합정보사전의 개발이 반드시 필요하다. 본 논문에서는 다국어 통합정보사전 구축을 위한 한국어 용언의 통합정보사전을 설계한다. 이를 위해 사전구축 방법론을 정립하고, 정립된 방법론을 바탕으로 하여 통합 정보사전의 개발을 위한 통합정보사전 개발 시스템을 설계하고 구현하였다.

  • PDF

Morphological Processing in an Expanded Dictionary Environment (확장 사전 환경에서의 한국어 형태소 해석과 생성)

  • Cho, Young-Hwan;Cha, Hee-Joon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.355-368
    • /
    • 1993
  • 형태소 처리의 기본 원칙은 사전의 표제어를 형태소 수준으로 함으로써 사전의 크기를 줄이고, 중복되는 정보의 양을 최소화하는 것이다. 본 논문에서는 형태소 처리를 위한 여러 환경 요소들 중에서 특별히 확장된 사전 표제어를 기본으로 하는 환경을 제안한다. 확장 사전 환경은 어휘에 대한 사전 표제어와 사전 정보의 분리를 기본으로 한다. 기본 사전 표제어에 대하여 어휘의 활용형을 사전 작성의 후처리인 사전 표제어에 대한 색인구조 구성시에 자동으로 확장함으로써 용언의 불규칙 활용과 음운 축약 현상에 대처한다. 확장 사전 환경의 장점은 형태소 해석과 생성시에 필요한 불규칙 활용에 대한 처리를 사전 확장 시간으로 앞당기고, 어절의 부분문자열과 사전 표제어간의 직접 대응성을 제공하여 여러 응용에 쉽게 적용이 가능하다는 것이다.

  • PDF

Pre- and Post-Processors of Ensemble Streamflow Prediction System (앙상블 유량예측 시스템의 사전 및 사후처리에 관한 연구)

  • Kang, Tae-Ho;Kim, Young-Oh;Hong, Il-Pyo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • /
    • pp.264-268
    • /
    • 2008
  • 미래 발생 가능한 수문 및 기상현상의 예측과정은 지식의 부족과 자연현상의 다양성으로 인해 불확실성을 포함하게 된다. 하지만 많은 예측들은 아직까지 확정적으로 제공되고 있으며, 결과적으로 예측결과의 불확실성 정도를 제공하지 못하고 있다. 앙상블 유량예측(ESP, Ensemble Streamflow Prediction)은 이러한 불확실성을 고려하여 수자원시스템의 의사결정에 있어 중요한 요소 중 하나인 유량예측을 수행할 수 있는 방법이다. 하지만 ESP의 결과는 기상자료, 유역 초기조건, 수문모형의 매개변수, 단순화된 수문모형에 의해 비교적 큰 불확실성을 포함하게 되며, 따라서 실제적인 현업에서의 사용을 위해서는 불확실성 정도를 줄이기 위한 사전 및 사후처리 과정이 요구된다. 본 연구에서는 국내에서 활용 가능한 기후 예보자료를 사용하여 앙상블 유량예측에 적용할 수 있는 사전처리 방안들을 검토하고, 국내에서 사후처리를 위해 적용되었던 최적선형 보정기법에 더해 다양한 기법들을 강우유출모형인 TANK모형의 모의결과 보정에 적용하였다. 사전 및 사후처리를 적용한 결과 기상자료와 유량예측과정에 존재하는 불확실성을 저감시키는 것이 가능하였다. 특히 사전 및 사후 처리가 동시에 적용되었을 경우 그 향상 정도가 단순히 각각의 방법에 의한 향상 정도를 합한 것보다 높게 나타날 수 있음이 확인되었다. 사전 및 사후처리를 동시에 적용한 경우 이수기에는 RPS(Ranked Probability Score) 평가방법 내에서 54%를, 홍수기에는 8%를 향상시키는 것이 가능하였다.

  • PDF

YDK : A Thesaurus Developing System for Korean Language (한국어 통합정보사전 시스템)

  • Hwang, Do-Sam;Choi, Key-Sun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.9
    • /
    • pp.2885-2893
    • /
    • 2000
  • Dictionaries are indispensable for NLP(natural language processing) systems. Sophisticated algorithms in the NLP systems can be fully appreciated only with matching dictionaries that are built systematically based on computational linguistics. Only few dictionaries are developed for natural language processing. Available dictionaries are far from complete specifications for practical uses. So, it is necessary to develop an integrated information dictionary that includes useful lexical information for processing and understanding natural languages such as morphology and syntactic and semantic information. In this paper, we propose a method to build an integrated dictionary, and introduce a dictionary developing system.

  • PDF

말뭉치에 근거한 한국어 사전 표제어 구성

  • Park, Yeong-Hwan;Yun, Jun-Tae;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.58-65
    • /
    • 1991
  • 사전은 자연어를 처리하는 핵심 부분을 이루고 있다. 그러나 기존의 한국어 사전은 기계적인 처리에 직접 이용하기에는 크게 미흡하다. 특히, 사전의 기본을 이루는 표제어 수록에 관한 연구는 더욱 취약한 형편이다. 본 연구는 새로운 한국어 사전의 표제어률 구성하기 위하여 대형 말뭉치를 수집하였다. 이 말뭉치를 이용하여 기존 사전에서 빠져있는 미등록어들을 찾아내어 수록하고, 말뭉치에 나타난 각 단어의 출현 빈도를 조사하였다. 이 연구를 수행하기 위하여 형태소 분석기, 용례 분석기 등의 필수적인 텍스트 처리 도구들을 개발하였다. 또한, 말뭉치에 나타난 어절 단위의 오류 분포를 조사하여 밝히었다.

  • PDF

A thesaurus development system with an embedded graphic editor (Graph Editor형식의 통합정보사전 개발 시스템)

  • Nam, Dong-Su;Choi, Yong-Jun;Hwang, Do-Sam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.341-344
    • /
    • 2000
  • 통합정보사전은 고도의 언어처리 및 이해를 목적으로 한 것이며, 체계적이고 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 전자사전으로, 이를 개발하는데는 막대한 개발시간과 노력을 필요로 한다. 이러한 특성 때문에 통합정보사전을 구축하기 위해서는 정보를 통합하고 관리하는 사전개발 시스템의 개발이 선행되어야 한다. 현재까지의 사전개발 시스템은 사전 항목을 정의하고, 정의된 항목에 표제어별 정보를 입력하는 시스템으로, 단순한 정렬 및 검색에 의한 표제어 찾기 및 편집을 지원하고 있다. 본 논문에서는 사전의 계층화된 항목정보를 트리 형식으로 나타내어 사전의 개발 및 구축작업을 효율적으로 지원하기 위한 통합정보사전 개발 시스템인 YDK3를 설계하고 구현하였다. 구현한 YDK3는 기존의 각종 사전의 다양한 사전정보를 입력하는 기본적인 기능 외에, 항목정보를 기반으로 한 graph editor형식의 사용자 인터페이스가 제공되어, 사전의 개발, 자료입력 및 검색을 보다 쉽게 할 수 있다는 특징이 있다.

  • PDF

YDK : A Thesaurus Development System for Korean Language (YDK : 한국어 통합정보사전 개발 시스템의 설계 및 구현)

  • 최용준;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.162-164
    • /
    • 1998
  • 본 논문에서는 다국어 통합정보사전 구축을 위한 한국어 용언의 통합정보사전을 구축하기 위해 정립된 사전개발 시스템의 개발 방법론을 바탕으로 한 통합정보사전개발 시스템(YDK:Yongjun Dosam Keysun)을 설계하고 구현한다. 개발한 YDK는 기존의 각종 사전의 다양한 사전정보를 통합할 수 있을 뿐 아니라 여러 자연언어처리 시스템들과의 접속을 통해 언어처리를 위한 사전정보를 손쉽게 통합할 수 있어 고품질의 전자사전을 개발할 수 있다.

  • PDF

A Dictionary Constructing System based on a Web-based Object Model of Distributed Language Resources (웹 기반의 언어자원 객체화에 근거한 사전 개발 시스템)

  • 황도삼
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.1_2
    • /
    • pp.1-9
    • /
    • 2001
  • In this paper. we present a web-based object model of language resources that are distributed in different places in variable forms. Language resources organized as objects distributed over web sites can be easily utilized to produce application systems of natural language processing. So. it renders effective maintenance of overall language processing environment in that upgrading language resources can lead to the mechanical upgrading of application systems. We implemented a dictionary constructing system for Korean Language (YDK2000). This system can integrate various linguistic dictionaries and also allow to construct high quality application specific dictionaries by connecting them to natural language systems on the Internet.

  • PDF

A Concordance Study of the Preprocessing Orders in Microarray Data (마이크로어레이 자료의 사전 처리 순서에 따른 검색의 일치도 분석)

  • Kim, Sang-Cheol;Lee, Jae-Hwi;Kim, Byung-Soo
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.3
    • /
    • pp.585-594
    • /
    • 2009
  • Researchers of microarray experiment transpose processed images of raw data to possible data of statistical analysis: it is preprocessing. Preprocessing of microarray has image filtering, imputation and normalization. There have been studied about several different methods of normalization and imputation, but there was not further study on the order of the procedures. We have no further study about which things put first on our procedure between normalization and imputation. This study is about the identification of differentially expressed genes(DEG) on the order of the preprocessing steps using two-dye cDNA microarray in colon cancer and gastric cancer. That is, we check for compare which combination of imputation and normalization steps can detect the DEG. We used imputation methods(K-nearly neighbor, Baysian principle comparison analysis) and normalization methods(global, within-print tip group, variance stabilization). Therefore, preprocessing steps have 12 methods. We identified concordance measure of DEG using the datasets to which the 12 different preprocessing orders were applied. When we applied preprocessing using variance stabilization of normalization method, there was a little variance in a sensitive way for detecting DEG.