• Title/Summary/Keyword: 사전 처리 단계

Search Result 257, Processing Time 0.022 seconds

Phase-based Model Using Web Documents for Korean Unknown Word Recognition (웹문서를 이용한 단계별 한국어 미등록어 인식 모델)

  • Park, So-Young
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.9
    • /
    • pp.1898-1904
    • /
    • 2009
  • Recently, real documents such as newspapers as well as blogs include newly coined words such as "Wikipedia". However, most previous information processing technologies cannot deal with these newly coined words because they construct their dictionaries based on materials acquired during system development. In this paper, we propose a model to automatically recognize Korean unknown words excluded from the previously constructed dictionary. The proposed model consists of an unknown noun recognition phase based on full text analysis, an unknown verb recognition phase based on web document frequency, and an unknown noun recognition phase based on web document frequency. The proposed model can recognize accurately the unknown words occurred once and again in a document by the full text analysis. Also, the proposed model can recognize broadly the unknown words occurred once in the document by using web documents. Besides, the proposed model fan recognize both a Korean unknown verb, which syllables can be changed from its base form by inflection, and a Korean unknown noun, which syllables are not changed in any eojeol. Experimental results shows that the proposed model improves precision 1.01% and recall 8.50% as compared with a previous model.

Music Retrieval Using the Geometric Hashing Technique (기하학적 해싱 기법을 이용한 음악 검색)

  • Jung, Hyosook;Park, Seongbin
    • The Journal of Korean Association of Computer Education
    • /
    • v.8 no.5
    • /
    • pp.109-118
    • /
    • 2005
  • In this paper, we present a music retrieval system that compares the geometric structure of a melody specified by a user with those in a music database. The system finds matches between a query melody and melodies in the database by analyzing both structural and contextual features. The retrieval method is based on the geometric hashing algorithm which consists of two steps; the preprocessing step and the recognition step. During the preprocessing step, we divide a melody into several fragments and analyze the pitch and duration of each note of the fragments to find a structural feature. To find a contextual feature, we find a main chord for each fragment. During the recognition step, we divide the query melody specified by a user into several fragments and search through all fragments in the database that are structurally and contextually similar to the melody. A vote is cast for each of the fragments and the music whose total votes are the maximum is the music that contains a matching melody against the query melody. Using our approach, we can find similar melodies in a music database quickly. We can also apply the method to detect plagiarism in music.

  • PDF

Keyword Spotting Algorithm within a Continuous Syllable Sentence for the Post-Processing of Speech Recognition (음성 인식 후처리를 위한 연속 음절 문장의 키워드 추출 알고리즘)

  • Cho, Shi-Won;Lee, Dong-Wook
    • Proceedings of the KIEE Conference
    • /
    • 2008.04a
    • /
    • pp.170-171
    • /
    • 2008
  • 연속적인 음성 인식 결과는 띄어쓰기를 하지 않은 연속 음절 문장들로 이루어져 있다. 본 논문은 음성 인식 후처리 단계에서 연속 음절 문장을 조사/어미 사전을 이용한 어절 생성 과정과 형태소 분석기를 이용하여 어절을 생성한 후 키워드를 추출한다. 실험 결과, 어절 생성기만 적용한 방식보다 제안된 알고리즘의 인식률이 향상되는 것을 확인하였다.

  • PDF

Learning Text Chunking Using Maximum Entropy Models (최대 엔트로피 모델을 이용한 텍스트 단위화 학습)

  • Park, Seong-Bae;Zhang, Byoung-Tak
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF

Ontology based Guided Navigation Aid System for preparatory trip on cyber space (사전답사를 위한 온톨로지 기반의 Guided Navigation Aid System)

  • Hur, Seung-Ho;Kim, Hak-Keun;Lim, Soon-Bum;Choy, Yoon-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.617-620
    • /
    • 2003
  • 3D 가상환경 개발 초기 단계에서부터 효과적인 Navigation을 위해서 Navigation Aid에 대한 연구가 꾸준히 진행되어왔으나 환경 구조의 중요 지점만을 정리한 요약 형태의 정보를 제공하는 방법이 주를 이루고 있어서, Navigation 대상 환경에 익숙지 않은 사용자에게 환경구조를 이해하게 하는 인지적 부담을 주고 있다. 본 논문에서는 사용자의 navigation을 위한 인지적 부담을 최소화할 수 있도록 토픽맵을 적용하여 투어코스를 자동생성 하는 시스템을 제안한다. 본 Navigation Aid 시스템은 가상환경 구조를 기억하거나 시스템 조작을 위한 일상적인 문제점에서 벗어나 본래의 목적에 집중할 수 있을 것이다. 가상환경에서의 Navigation 경험을 통해 현실세계에 존재하는 환경을 사전방문 하거나 효과적인 투어코스를 선정하는데 도움을 줄 수 있을 것으로 기대된다.

  • PDF

Intelligent Join Technique Selection Between Heterogeneous NoSQL Databases in Big Data Envionment (빅데이터 환경에서 이기종 NoSQL 데이터베이스 간의 지능적 조인 기법 선택)

  • Kang, Joo-Young;Kim, Gun-Woo;Park, Kyung-Wook;Lee, Dong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.591-594
    • /
    • 2016
  • 최근 빅데이터 시대의 도래로 대량의 데이터에 대한 처리 및 분석 요구가 증가되면서 빅데이터를 저장하기 위해 개발된 NoSQL 데이터베이스 내의 조인 연산 필요성이 증대되고 있다. 빅데이터 환경에서는 다중 저장소 지속성의 개념에 따라 여러 NoSQL 데이터베이스를 동시 복합적으로 사용해야 하므로 이기종 NoSQL 데이터베이스간의 조인 연산이 중요시 되고 있다. 하지만 NoSQL 데이터베이스에서는 데이터 처리 과정에서 발생하는 오버헤드로 인해 조인 연산을 지원하지 않거나 조인 연산 시 성능저하가 발생한다. 이러한 조인 연산에 대한 오버헤드를 줄이기 위해 애플리케이션 단에서 맵리듀스 프레임워크를 활용한 다양한 조인 전략 연구들이 제시되었지만 단일 NoSQL 데이터베이스를 위한 방법이며 조인에 참여하는 데이터의 특성 및 연관성을 사전에 파악하고 있어야하는 한계점이 존재한다. 본 논문은 조인 연산에 참여하는 데이터에 대한 사전 정보 없이 빅데이터 환경에서 이기종 NoSQL 데이터베이스간의 조인 연산을 지원하기 위해 데이터 집합 분석, 질의 재배치, 조인 전략 자동 선정, 조인 결과가 저장될 데이터베이스 자동 선택 단계를 통한 지능적 조인 처리 기법을 제시한다.

English Sentence Critique Using Extended Verb Pattern (확장된 동사형을 이용한 영어문장 검사기)

  • Cha, Eui-Young;Kim, Young-Taek
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.491-501
    • /
    • 1992
  • 변환 방식의 기계 번역에서 가장 중요한 부분은 변환 단계이며 여기서 변환사전이 매우 중요한 역활을 담당한다. 그러므로 인간이나 기계 번역기에 의해 생성되는 영어 문장은 이들이 가지고 있는 동사 사전의 내용과 효율적인 생성 알고리즘에 의해서 문장의 수준이나 정확성이 결정된다. 이렇게 생성된 문장을 검사하는 기존의 영어 문법 검사기들은 영어권의 사람들을 위주로 만들어졌기 때문에 문법적인 중요한 규정들을 포함하지 않고 있어서 비영어권의 사용자가 이용하기에는 부적절하다. 본 논문에서는 인간이 번역하였거나 기계 번역기에 의해 생성된 문장을 검사하고 교정할 수 있도록, 확장된 동사형을 기반으로 한 동사 사전을 제안하고 이를 이용한 영어 문장 검사기를 구현한다.

  • PDF

Automatic Construction of a Transliteration Dictionary from Bilingual Corpus (이중언어 코퍼스로부터 외래어 표기 사전의 자동구축)

  • Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.142-149
    • /
    • 1999
  • 외국문명의 영향으로 많은 외래어가 한국어 문서 내에서 사용되고 있으며, 이러한 단어는 주로 전문용어, 고유명사, 신조어 등으로 사전에 등록되지 않는 것이 많다. 본 논문에서는 이중언어 코퍼스로부터 자동으로 외래어 사전을 추출해 내는 확률적 정렬 방법과 실험결과를 소개한다. 확률적 정렬 방법은 통계적 음차 표기 모델에서 사용된 방법을 변형하여 적용한 것이며, 문서단위로 정렬된 두 종류의 영-한 이중언어 코퍼스에 대해 실험하여 재현률과 정확률을 측정하였다 성능은 전처리단계인 한국어 미등록어 추정에 영향을 많이 받았는데, 미등록어 추정을 대략하였을 경우, 재현률은 평균 58%였고, 정확률은 평균74%이었으며, 수동으로 미등록어 명사를 분리했을 경우, 재현률 평균86%, 정확률 평균91%로 외래어와 대응되는 원어를 추출해 냈다.

  • PDF

Similar Verb Words Extraction based on their Case Frame Structure (격틀 구조에 기반한 유사 동사 추출)

  • Cho, Junghyun;Jung, Hyunki;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.219-224
    • /
    • 2009
  • 한국어 Propbank를 구축하기 위해서는 유사 동사를 군집화하고 군집에 포함되는 동사들의 구문 및 의미 특성을 모아놓은 정보가 필요하다. 본 연구에서는 이러한 군집화의 초기 단계로써 개별 동사들의 격틀 구조에 기반하여 동사간의 유사도를 추정하여 유사 동사를 추출하고자 하였다. 본 연구는 개별 동사의 격틀 정보를 추출하기 위하여 세종 계획의 용언 사전과 KAIST 언어자원의 동사 격틀 사전을 활용하였다. 또한 격틀을 세분화하여 보다 상세한 격틀 정보를 생성하기 위하여 격틀이 가지고 있는 논항의 특성을 활용하였다. 동사의 유사도를 측정하기 위하여 개별 동사들은 벡터로 표현하였고, 벡터의 원소는 해당 동사가 다른 동사와 세분화된 격틀을 공유하는 정도로 하였다. 실험에서는 두 용언 사전에서 개별적으로 위의 과정을 진행하여 각 동사와 유사한 동사들을 추출하였다.

  • PDF

The Processing of Spatial Joins using a Bit-map Approximation (비트맵 근사 표현을 이용한 효율적인 공간 조인)

  • 홍남희;김희수
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.2
    • /
    • pp.157-164
    • /
    • 2001
  • This paper studies on the processing of spatial joins. The spatial join operation is divided into filters and refinement steps in general. The processing of spatial joins can be greatly improved by the use of filters that reduce the polygons in order to find the intersecting ones. As a result, three possible sets of answers are identified: the positive one, the negative one and the inconclusive one. To identify all the interesting pairs of polygons with inconclusive answers, it is necessary to have access to the representation of polygons so that an exact geometry test can take place. We introduce a bit-map approximation technique to drastically reduce the computation required by the refinement step during refinement processing. Bit-map representation are used for the description of the internal, the external and the boundary regions of the polygon objects. The proposed scheme increases the chance of trivial acceptance and rejection of data objects, and reduces unnecessary disk accesses in query processing. It has been shown that the reference to the object data file can be cut down by as much as 60%.

  • PDF