• Title/Summary/Keyword: 말뭉치 생성

Search Result 139, Processing Time 0.026 seconds

Term Extraction and Ranking for Building Term Dictionary (전문용어사전 구축을 위한 전문용어 추출 및 순위화)

  • Koo, Hee-Kwan;Jung, Han-Min;Lee, Byeong-Hee;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.745-748
    • /
    • 2005
  • 전문용어는 특정 분야의 전문가 사이에서 통용되는 표현 매체이며, 일반용어에 비해 생성과 소멸의 주기가 짧은 특징을 가지고 있다. 이런 특징 때문에 일반용어 사전구축과 달리 전문용어 사전을 구축하기 위해서는 신속한 대응전략이 필요하다. 이를 위해 본 논문에서는 전문용어 사전 구축을 위한 다음과 같은 두 단계의 과정을 제안한다. 우선 형태소 후처리와 결합규칙을 이용하여 1,200만 어절의 신문 말뭉치로부터 단일어 10만과 복합어 30만의 용어후보를 추출하고, 고빈도 용어 후보 6만개를 선별해 용어지배지수(Term Dominance Value)라는 개념을 도입하여 전문용어를 선정한다. 실험을 통해 용어지배지수 순위와 누적빈도순위 및 최근연도 순위를 비교한 결과 본 논문에서 제안한 용어지배지수가 전문용어 활용도를 나타내는 훌륭한 지표역할을 할 수 있음을 확인할 수 있었다.

  • PDF

Classification of Korean Parts-of-Speech for Korean-English Machine Translation (한.영 기계번역을 위한 한국어 품사 분류)

  • 송재관;박찬곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.165-167
    • /
    • 1998
  • 본 논문에서는 한.영 기계번역을 위한 한국어 품사 분류를 한다. 한국어 표준문법에서 제시되는 품사 분류 기준은 의미, 기능, 형식의 세 가지 기준을 적용하고 있으며, 자연언어처리에서도 같은 분류 기준을 바탕으로 하고 있다. 품사 분류에 여러 가지 기준을 적용하는 것은 문법구조 이해 및 품사 분류를 어렵게 한다. 또한 한.영 기계번역시 품사의 불일치로 전처리가 필요하다. 이러한 문제를 해결하기 위하여 본 논문에서는 하나의 기준을 적용하여 품사 분류를 한다. 방법으로 한국어 표준문법에 의하여 말뭉치에 태깅하고 문제점을 찾아내며, 새로운 기준에 의하여 품사 분류를 한다. 본 논문에서 분류된 품사는 한국어 문장에서 통사적 역할이 동일하고, 영에서의 사전 품사와 동일하다. 또한 품사 분류의 모호성을 제거하고, 한국어의 문장 구조를 명확히 표현하며, 한.영 기계번역시 패턴 매칭에 의한 목적언어 생성이 가능하다.

  • PDF

Korean BaseNP Identification using the variation of context length and position (문맥 윈도우의 크기와 위치 변화를 이용한 한국어 기반 명사구 인식)

  • 전수영;강인호;김길창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.454-456
    • /
    • 2002
  • 한국어의 비재귀 명사구 즉 기반 명사구(basehp)를 인식하는 알고리즘을 제시한다. 본 논문에서는 한개의 주어진 학습 알고리즘에 대해 문맥 윈도우의 크기와 문맥 윈도우의 위치를 달리해 가면서 학습시킨다 이러한 방법을 통해 서로 다른 정보를 바탕으로 한 기반 명사구 인식을 수행할 수 있으며, 그 결과서로 다른 여러 개의 결과들을 생성할 수 있다. 본 논문에에서는 이렇게 얻어진 여러 개의 인식 결과들을 적절한 방법으로 결합하여 한국어에서 91% 이상의 높은 기반명사구 인식 정확도를 얻어낼 수 있다. 15만 단어 규모의 국어정보베이스의 말뭉치를 사용했으며 , 학습 알고리즘으로는 메모리 기반 학습 알고리즘 (memory-based learning)을 이용하여 실험하였다.

  • PDF

Term Clustering and Interleaving for Parallel Information Retrieval (색인어 군집화를 이용한 효율적인 병렬정보검색시스템)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.401-409
    • /
    • 2002
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

  • PDF

Korean Structural Disambiguation using Adverb Information (부사 정보를 이용한 한국어 구조 중의성 해소)

  • Shin, Seung-Eun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.110-115
    • /
    • 2000
  • 자연 언어 처리의 구문 분석에서는 중의성 있는 결과가 많이 생성된다. 이러한 중의성을 해소하는데 어휘정보가 유용하다는 것은 잘 알려져 있으며, 이러한 어휘정보와 이를 이용한 중의성 해소에 관한 연구가 많이 이루어지고 있다. 본 논문은 한국어의 구문 구조 분석 시 부사에 의해 발생되는 중의성을 해소하기 위해 수식어 사전을 이용하여 구문 분석에서의 구조 중의성을 해소하였다. 수식어 사전의 어휘정보와 대상 말뭉치를 통해 각각의 부사에 대한 문법을 구성하고, 이를 이용하여 한국어 구문구조 분석에서 부사에 의해 발생되는 중의성을 줄일 수 있다.

  • PDF

Non-autoregressive Multi Decoders for Korean Morphological Analysis (비자동회귀 다중 디코더 기반 한국어 형태소 분석)

  • Seongmin Cho;Hyun-Je Song
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.418-423
    • /
    • 2022
  • 한국어 형태소 분석은 자연어 처리의 기초가 되는 태스크이므로 빠르게 결과를 출력해야 한다. 기존연구는 자동회귀 모델을 한국어 형태소 분석에 적용하여 좋은 성능을 기록하였다. 하지만 자동회귀 모델은 느리다는 단점이 있고, 이 문제를 극복하기 위해 비자동회귀 모델을 사용할 수 있다. 비자동회귀 모델을 한국어 형태소 분석에 적용하면 조화롭지 않은 시퀀스 문제와 토큰 반복 문제가 발생한다. 본 논문에서는 두 문제를 해결하기 위하여 다중 디코더 기반의 한국어 형태소 분석을 제안한다. 조화롭지 않은 시퀀스는 다중 디코더를 적용함으로써, 토큰 반복 문제는 두 개의 디코더에 서로 어텐션을 적용하여 문제를 완화할 수 있다. 본 논문에서 제안한 모델은 세종 형태소 분석 말뭉치를 대상으로 좋은 성능을 확보하면서 빠르게 결과를 생성할 수 있음을 실험적으로 보였다.

  • PDF

ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval (다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT)

  • Jonghwi Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation (감정점수의 전파를 통한 한국어 감정사전 생성)

  • Park, Ho-Min;Kim, Chang-Hyun;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.2
    • /
    • pp.53-60
    • /
    • 2020
  • Sentiment analysis is the automated process of understanding attitudes and opinions about a given topic from written or spoken text. One of the sentiment analysis approaches is a dictionary-based approach, in which a sentiment dictionary plays an much important role. In this paper, we propose a method to automatically generate Korean sentiment lexicon from the well-known English sentiment lexicon called VADER (Valence Aware Dictionary and sEntiment Reasoner). The proposed method consists of three steps. The first step is to build a Korean-English bilingual lexicon using a Korean-English parallel corpus. The bilingual lexicon is a set of pairs between VADER sentiment words and Korean morphemes as candidates of Korean sentiment words. The second step is to construct a bilingual words graph using the bilingual lexicon. The third step is to run the label propagation algorithm throughout the bilingual graph. Finally a new Korean sentiment lexicon is generated by repeatedly applying the propagation algorithm until the values of all vertices converge. Empirically, the dictionary-based sentiment classifier using the Korean sentiment lexicon outperforms machine learning-based approaches on the KMU sentiment corpus and the Naver sentiment corpus. In the future, we will apply the proposed approach to generate multilingual sentiment lexica.

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF