• Title/Summary/Keyword: 구 단위화

Search Result 184, Processing Time 0.036 seconds

A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking (한국어 구 단위화를 위한 규칙 기반 방법과 기억 기반 학습의 결합)

  • 박성배;장병탁
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.3
    • /
    • pp.369-378
    • /
    • 2004
  • In partially free word order languages like Korean and Japanese, the rule-based method is effective for text chunking, and shows the performance as high as machine learning methods even with a few rules due to the well-developed overt Postpositions and endings. However, it has no ability to handle the exceptions of the rules. Exception handling is an important work in natural language processing, and the exceptions can be efficiently processed in memory-based teaming. In this paper, we propose a hybrid of rule-based method and memory-based learning for Korean text chunking. The proposed method is primarily based on the rules, and then the chunks estimated by the rules are verified by memory-based classifier. An evaluation of the proposed method on Korean STEP 2000 corpus yields the improvement in F-score over the rules or various machine teaming methods alone. The final F-score is 94.19, while those of the rules and SVMs, the best machine learning method for this task, are just 91.87 and 92.54 respectively.

A Study on Phonetic Properties of Prosodic Boundaries (운율 경계의 음성적 특질 연구)

  • 한선희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.5
    • /
    • pp.12-21
    • /
    • 1998
  • 이 연구는 몇 가지 음성적 특징들이 한국어 연속 음성에서의 운율단위의 운율 단서 로 사용되어질 수 있음을 보여 준다. 구 단위의 운율 이론 체계에서 한국어의 운율단위를 악센트구와 억양구로 정의한 전선아(1993)의 연구 결과를 연속음성 자료에 도입하면서 운율 경계에서의 음성적 특징들을 살펴보았다. 연구 결과 악센트구와 억양구말에서는 피치 패턴 과 경계성조의 변화 뿐 아니라 단위말 음절의 길이 증가 현상이 두드러짐을 알 수 있었다. 또 악센트구와 억양구초에서는 모음으로 시작하는 음절의 경우, 모음 시작부에서의 성문음 화가 특징으로 나타난다. 운율 경계에서의 이런 음성적 특징들은 운율단위를 구분짓는 단서 로 이용될 수 있으며 또한 한국어 연속음성의 운율적 패턴을 이해할 수 있게 한다.

  • PDF

Maximally Efficient Syntactic Parsing with Minimal Resources (최소자원 최대효과의 구문분석)

  • Shin, Hyo-Pil
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.242-248
    • /
    • 1999
  • 이 논문은 지역적 동사구 분할에 바탕을 두고 서술어가 문말에 위치하는 언어에 특성에서 기인하는 속성을 반영하는 부분적 그러나 빠른 구문분석에 관해 논한다. 즉 완벽성 보다는 신속함 그리고 신뢰에 바탕을 둔 새로운 한국어 구문분석에 대해 논의한다. 기존의 문법이론 대신 한국어의 형태적 통사적 특성에 기인한, 성분들의 분할(partitions)에 의한 단위 (chunks) 분석방법을 제안한다. 근간은 동사구 장벽(VP-barrier) 알고리즘이며, 이 알고리즘은 한 문장안에서의 다양한 동사의 파생접사에 의해 형성되는 관형화, 명사화, 부사화 등의 파생구조와 내포된 동사구(인용문, 종속문 등)에 의해 형성되는 지역적 동사구내에서 그 성분들의 논리적인 분할을 구성하고 다시 그 다음 요소와 체계적으로 결합하는 관계로 확장하여 가능한 구조들을 생성한다. 다시 언어의존적인 발견적 규칙(heuristics)들을 점수화하여 가장 높은 점수의 단위구조를 적격한 구조로 선택한다. 이 방법은 하위범주화 및 의미정보를 사용하지 않는, 빠른 구문분석이 요구되는 시스템을 위해 고안되었으며, 집단적인 노력이 아닌 개인적인 노력 및 최소의 자원으로도 최대의 효과를 얻을 수 있다는데 그 의의가 있다.

  • PDF

Design of Verb-Phrase Patterns for Korean-to-English MT (한영 자동 번역을 위한 동사구 번역패턴의 활용)

  • 양성일;김영길;서영애;김창현;홍문표;최승권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.178-180
    • /
    • 2001
  • 원시언어 문장의 구조 분석을 기반으로 하는 기계번역 시스템에서 원시언어의 최소 의미 단위는 동사를 중심으로 한 단문으로 생각할 수 있다. 단문 단위 대역어를 지정하기 위해서는 동사구 번역패턴의 사용이 요구된다. 본 논문에서는 한국어 단문 내 격 정보와 번역을 위한 의미 제약조건을 기술하여 한영 기계번역 시스템에서 사용하는 동사구 번역패턴을 정의하고, 문장 정규화를 통한 동사구 번역패턴의 활용방법을 제안한다. 동사구 번역패턴은 단문 구조 파악을 위한 제약 조건부와 대역어 선정부로 나뉜다. 제약 조건부는 단문 구조 번역을 위한 최소한의 의미 제약만으로 기술되며, 격조사로 구분되는 격 정보를 갖는다. 이러한 격 정보는 원시언어인 한국어의 단문 분석을 위해 사용되며 분석결과에 대해 단문 단위 대역어를 지정한다. 동사구 번역 패턴은 실제 말뭉치에서의 사용을 반영하기 위해 병렬 말뭉치로부터 구축되며 실험을 통해 예측되는 패턴의 규모를 알아볼 수 있다.

  • PDF

A System for the Decomposition of Text Block into Words (텍스트 영역에 대한 단어 단위 분할 시스템)

  • Jeong, Chang-Boo;Kwag, Hee-Kue;Jeong, Seon-Hwa;Kim, Soo-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

The Verification for Extreme Hydrological Variables of HadGEM3-RA (HadGEM3-RA 자료의 극치수문변수에 대한 검증)

  • Sung, Jang-Hyun;Kang, Hyun-Suk;Park, Su-Hee;Cho, Chun-Ho;Kim, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.122-122
    • /
    • 2011
  • 수자원 분야에서 기후변화 관련 연구는 치수 측면 보다는 이수 측면에서 주로 이뤄지고 있다. 이는 홍수분석을 위한 시간 단위를 충족시켜주는 전지구 대기순환모형(Global Circulation Model: GCM)의 자료가 드물고, 시간 단위의 GCM 자료라 하더라도 극치값(extreme value) 표현에는 한계가 있기 때문이다. 이를 극복하기 위하여 과거 관측자료의 통계적 특성으로 극치자료의 편의(bias)를 보정하고 시간 단위로 분해하기도 한다. 하지만 이런 통계적 상세화(statistical downscaling)는 미래 기후는 과거자료와 통계적 차이가 유의하지 않음을 가정하고 있어, 미래 기후는 현재와 다를 것이라는 공감대에 는 적합하지 않다. 이와 같은 이유로 타당한 극치수문변수 결과를 얻기 위해서는 시간 단위의 고분해능(high resolution) GCM이나 지역기후모델(regional climate model)과 같은 고해상도의 미래 기후변화 자료가 필요하게 된다. 이에 국립기상연구소에서는 영국 기상청의 통합모델(UM)기반의 지역기후모델(HadGEM3)을 사용하여 50 km 및 12.5 km 격자 단위로 역학적 상세화(dynamic downscaling)를 수행하였다. 본 연구에서는 개발된 HadGEM3-RA 결과의 극치수문변수 검증을 위하여 한강유역의 관측 자료와 다양한 방법으로 비교하였다. 두 자료의 극치값을 GEV (Generalized Extreme Value) 분포에 적합(fitting)시켜 비초과확률별 극치사상과, 특정 임계값(threshold value) 이상의 극치사상 발생확률을 비교하였다. 검토 결과, HadGEM3-RA는 통계적 상세화로 구한 극치값 보다는 작았으나 기존의 지역 기후모델에 비하여 현실성 있는 극치값이 계산되었음을 확인하였다.

  • PDF

A Study on the Input Pattern of Neural Network for Prosody Control in a Korean Sentence (문장 단위 운율 제어를 위한 신경망의 입력 패턴에 관한 연구)

  • 민경중
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.105-109
    • /
    • 1998
  • 법칙 합성 시스템은 합성 단위, 합성기, 합성방식 등 여러 가지 다양한 시스템이 있으나 순수한 법칙 합성 시스템이 아니고 기본 합성 단위를 연결하여 합성음을 발생시키는 연결 합성 시스템은 연결 단위사이 그리고 문장 단위에서의 매끄러운 합성 계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연감에 영향을 끼치는 주요 원인중의 하나가 운율 법칙의 부정확한 구현이므로 자연음으로부터 추출한 운율에 관한 법칙을 알고리듬화하는 대신 신경망으로 하여금 이 운율 법칙을 학습하도록 하여 좀더 자연음의 운율에 근접한 운율을 발생시키고자 하였다. 신경망으로 운율을 발생시키기 위해 먼저 운율에 영향을 주는 요소들을 정해 신경망 입력 패턴을 선정해야 한다. 먼저 분절요인에 의한 영햐응ㄹ 고려해주기 위해 전후 3음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다.

  • PDF

Grid Unit Based Analysis of Climate Change Driven Disaster Vulnerability in Urban Area (격자단위 분석기법을 적용한 도시 기후변화 재해취약성분석)

  • Hong, Jeajoo;Lim, HoJong;Ham, YoungHan;Lee, ByoungJae
    • Spatial Information Research
    • /
    • v.23 no.6
    • /
    • pp.67-75
    • /
    • 2015
  • Today, because human settlements are concentrated into urban area, urban planning and management technique considering the complexity, diversity, and advanced situations of urban living space is being requested. Especially, to effectively respond to large and diverse climate change driven disaster, it is necessary to develop urban planning technique including land use, infrastructure planning based on disaster vulnerability analysis. However, because current urban climate change disaster vulnerability analysis system(UC-VAS) is using census output area as spatial analysis unit, it is difficult to utilize the analysis results for specific urban planning. Instead, this study applies the grid manner to two study areas. The analysis results show that it can generate more detailed results and it can be used for detailed zoning decision by comparing with areal photos. Furthermore, by describing the limitation of the grid manner and providing professional way to secure additional scientific character and objectivity of the future urban climate change disaster vulnerability analysis system, it is expected that this study contributes to the effectiveness of system management.

A Complex Sampling Design for the Estimation of Korean Livestock Production Cost (축산물생산비조사를 위한 복합표본설계)

  • Kim, Soo-Taek;Kim, Young-Won
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.4
    • /
    • pp.675-694
    • /
    • 2008
  • We propose a new sampling design for the Korean Livestock Production Cost Survey. In this sampling design, the survey population is derived from the 2005’s agricultural census of Korea. And coefficient of variation(CV) is estimated from the current livestock production cost survey data, and the estimated CV’s are used to find the optimal sample size which satisfies the predetermined precision of estimation. In order to save the enumeration cost, the agriculture enumeration districts are used as a primary sampling unit(psu). Final sample is selected by double sampling. Also, we propose the estimator which is able to reflect the change of the population of livestock production households.