• 제목/요약/키워드: 어휘사전

검색결과 376건 처리시간 0.023초

대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구 (A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition)

  • 강병옥
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

아동문헌의 구문분석을 위한 모아쓰기식 어휘사전 구축에 대한 연구 (A study on construction of lexicon based on assorted writing style for syntax analysis of children literature)

  • 안지은;이태영;남궁황
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.189-192
    • /
    • 2001
  • 모아쓰기식 어휘사전은 풀어쓰기에 비해 용언어간의 크기가 늘어나고 용언어미도 많이 증대된다. 본 논문에서는 초등학생을 위한 홈페이지에서 사용되는 어휘가 상대적으로 적기 때문에 용언어간과 어미, 명사와 조사를 조화시켜 간단한 모아쓰기식 기계사전을 제시하였다.

  • PDF

백과사전 질의응답 시스템을 위한 어휘개념망 구축 (Constructing Korean Lexical Concept Network for Encyclopedia Question-Answering System)

  • 최미란;오효정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.99-105
    • /
    • 2004
  • 백과사전 질의응답 시스템은 사용자의 자연어 질문과 검색 대상 문서인 백과사전 내용의 의미를 파악하기 위한 고정밀 자연어 처리 기술이 요구된다. 이러한 고정밀 자연어 처리 기술을 위한 중요한 언어자원을 제공하기 위하여 한국어 명사와 동사로 구성되는 대규모 어휘개념망을 구축하였다. 한국어 어휘개념망은 명사와 동사의 상하위 관계를 주요 계층구조로 하여 다양한 한국어 어휘 기초 자료를 바탕으로 구축되었다. 구축된 규모는 일반명사 약 6만 어휘와 동사 약 2만 어휘를 포함한다. 이 논문에서는 어휘개념망을 구축하기 위한 방법과 과정을 소개하고 지금까지 구축된 어휘개념망의 특성에 대해 기술하며, 백과사전 질의응답 시스템에서 어떻게 활용되는지 시스템 구성요소의 예를 들어서 설명한다. 또한 현재 구축된 어휘개념망의 성능 평가를 위해 일반 코퍼스에 대한 커버리지 측정 결과를 기술한다.

  • PDF

그래프 기반 준지도 학습 방법을 이용한 특정분야 감성사전 구축 (The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method)

  • 김정호;오연주;채수환
    • 감성과학
    • /
    • 제18권1호
    • /
    • pp.103-110
    • /
    • 2015
  • 감성어휘는 텍스트로 감성을 표현하거나, 반대로 텍스트로부터 감성을 인식하기 위한 특징으로써 감성분류 연구에 필수요소이다. 본 연구는 감성어휘의 집합인 감성사전을 자동으로 구축하는 그래프 기반 준지도 학습 방법을 제안한다. 특히 감성어휘가 사용되어지는 분야에 따라 그 감성이 변하는 중의성 문제를 고려하여 분야 별 감성사전을 구축하고자 한다. 제안하는 방법은 어휘와 어휘들 간의 밀접도를 토대로 그래프를 구성하고, 사전에 학습 된 일부 소량의 감성어휘들의 감성을 구성된 그래프 전체에 전파하는 방식으로 모든 어휘의 감성을 추론한다. 감성어휘는 대표적으로 감성단어와 감성구문이 있으며, 본 연구에서는 이들 각각에 대한 그래프를 구성하고 감성을 추론하여 전체 감성사전을 구축하였다. 제안하는 방법의 성능을 검증하기 위해 영화평 분야의 감성사전을 구축하고, 이를 이용한 영화평 감성분류 실험을 수행하였다. 그 결과 기존 범용 감성사전의 어휘들을 이용한 감성분류보다 더 높은 분류 성능을 확인하였다.

moHANA: 다차원 해석 사전을 기반으로 한 한국어 형태소 분석기 (moHANA: Morphological Hangul Analyzer using Multi-Dimensional Analysis Dictionary)

  • 서승현;강인호;김재동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-106
    • /
    • 2007
  • 본 연구는 국어의 모든 언어적 특성을 기술하고 이를 실제 형태소 분석에 적용할 수 있도록 다차원 해석 사전을 이용하는 형태소 분석 시스템인 moHANA(Morphological Hangul Analyzer)에 관한 연구이다. moHANA의 해석 사전은 태그정보 사전, 어휘 사전 그리고 문법 사전으로 구성된다. 태그정보 사전은 기존 형태소 해석기의 일차원적인 품사 정보와 달리 어류 태그정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5 차원 벡터 정보로 작성된다. 어휘 사전은 어휘와 그 어휘가 가질 수 있는 태그정보를 우선 순위에 기반하여 순서열로 가지며, 문법 사전은 특수 문법 연산자를 이용하여 태그정보 사전에 정의된 각각의 태그가 연결 가능한지 여부를 규정하는 문법이 구축되어 있다. 형태소가 가지는 태그정보를 다차원으로 정의하고 이에 따른 문법 규칙의 표현을 통해 보다 자세한 형태소 분석 및 새로운 형태소 태그의 삽입과 삭제의 용이함을 얻을 수 있다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

언어사전의 명사항목 구성을 위한 통사 어휘 정보 (Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens)

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

한국어 사전과 동족보어 구문

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 1990
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 동사항목 기술에서 고려되어야 할 통사.어휘 정보의 한 가지로 동족보어 구문의 문제를 다룬다. 한국어 동족보이 구문의 언어학적 분석을 바탕으로, (ㄱ) 기간 한국어 사전에서의 처리 현황을 검토하고; (ㄴ) 사전적 정보로서의 동족보어 구문의 속성을 좀 더 따져보며; (ㄷ) 동족보이 구문의 통사. 어휘 속성을 사전에 체계적으로 기록해야할 근거나, 이와 관련된 구체적 사전 기술의 방안을 제시해 본다.

  • PDF

재난안전 용어사전 구축을 위한 미디어별 어휘 사용 양상 비교 (Comparing the Usages of Vocabulary by Medias for Disaster Safety Terminology Construction)

  • 이정은;김태영;오효정
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권6호
    • /
    • pp.229-238
    • /
    • 2018
  • 재난사건의 신속한 대응은 다양한 분야의 재난안전 유관기관들이 유기적으로 관계함으로써 가능하며, 이 때 사용되는 재난용어의 표준화는 필수적이다. 따라서 재난안전 분야의 전문 용어사전 구축은 각 유관기관 간의 의사소통 및 국민에게 명확한 정보 전달을 위해 수반되는 핵심 요소이다. 더불어 효율적인 용어사전 구축을 위해서는 구축 대상 용어의 우선순위 선정이 필요하다. 본 연구에서는 구체적인 용어사전 구축방향의 설정을 위하여 용어 사용 주체로 대표되는 미디어를 각각 용어사전, 뉴스미디어, 소셜미디어로 선정하고 어휘의 사용 양상을 비교하였다. 이를 위해 각 미디어에서 수집된 어휘 자원을 바탕으로 미디어별 동시 출현 양상 및 빈도 가중치 분석을 통하여 어휘의 분포를 시각화하였다. 분석 결과를 통해 어휘의 사용 양상에 따라 용어사전의 구축대상이 될 수 있는 어휘의 유형을 4가지로 분류하고, 구축대상 기준별 용어사전 구축의 우선순위 방향성을 제안하였다.