• 제목/요약/키워드: 음절수

검색결과 314건 처리시간 0.02초

띄어쓰기 비종속 품사 태깅 시스템 개발 (Development of POS Tagging System Independent to Word Spacing)

  • 이경일;안태성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 입력된 한국어 문자열로부터 형태소를 분석하고, 품사를 태깅하는 방법에 있어 개선된 통계적 모델을 제안하고, 이에 기반한 띄어쓰기 비종속 형태소 분석 및 태깅 시스템의 개발과 성능 평가에 대한 결과를 소개하고 있다. 제안된 통계 기반품사 태깅 시스템은 입력된 문자열로부터 음절의 띄어쓰기 확률값을 계산하여 유사어절을 생성하고, 유사어절 단위로 사용자 띄어쓰기와 상관없이 형태소 후보 리스트를 생성하며, 인접한 후보 형태소들의 접속 확률 계산에 있어 어절 간 접속 확률과 어절 내 접속 확률을 모두 사용함으로, 최적의 형태소 리스트를 결정하는 모델을 사용하고 있다. 특히, 형태소들의 접속 확률 계산 시 어절 간 접속 확률과 어절 내 접속 확률의 결합 비율이 음절의 띄어쓰기 확률 값과 사용자의 띄어쓰기 여부에 따라 자동으로 조절되는 특징을 가지고 있으며, 이를 통해 극단적으로 띄어 쓰거나 붙여 쓴 문장에 대해서도 평균 90%수준의 품사 태깅 성능을 달성할 수 있었다.

  • PDF

색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델 (Generative Chatting Model based on Index-Term Encoding and Syllable Decoding)

  • 김진태;김시형;김학수;이연수;최맹식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

Articulation과 Syllables를 이용한 보컬즉흥연주 표현에 관한 연구 (The Study on Expressive Methods for Vocal Improvistion using Articulation and Syllables)

  • 방현승
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 2부
    • /
    • pp.694-697
    • /
    • 2011
  • 재즈음악의 즉흥연주(Improvisation)는, 재즈음악의 발생과 함께 발전되어 온 연주 형태의 하나이며, 재즈음악을 대표하는 상징적인 요소라고 할 수 있다. 대부분의 사람들에게 즉흥연주는 재즈의 가장 중요한 요소로써 여겨지고 있다. 재즈 음악인들은 종종 '재즈'와 '즉흥연주'를 같은 의미를 가진 동일 어처럼 사용하기도 한다. 한편, 재즈보컬리스트들은 기악연주자와는 달리, 즉흥연주를 하지 않아도 된다는 인식이 있는 것은 사실이다. 그러나 그 중요성에 차이가 있을 뿐, 보컬즉흥연주 역시 재즈보컬들의 특성을 다른 장르의 보컬들과 구분하는 상징적이고 핵심적인 요소임에는 틀림없다. 컬리스트의 경우, 음악이론 외에, 즉흥연주의 선율을 가창하기 위하여 필요한 또 하나의 요소가 있는데, 이는 즉흥연주의 악구를 표현하는 수단인 스캣음절이다. 본 논문에서는 즉흥연주 선율표현에 많이 사용되는 음표들과 연주기법들을 중심으로 스캣음절사용에 대하여 연구해 보고자 한다.

  • PDF

컴퓨터형 한글 서체 개발을 위한 자소 결합 알고리즘 연구 (A study on the combination algorithm of Korean alphabet to develope the Hangul fonts for computers)

  • 김윤식;엄정국;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-344
    • /
    • 1998
  • 컴퓨터 상에서 모든 한글 음절을 구현하고자 하면 현대한글 11,172음절의 완성형 코드나 조합형 코드를 사용해야 하는데 조합형의 경우 글자의 미려도가 떨어지는 문제성이 발생되므로 자소 벌수를 늘려 그 문제점을 보완하려는 연구가 진행되어 왔다. 이는 메모리 및 코드처리상 비효율적인 요소가 많으므로 본 논문에서는 자소는 초 중 종성 각각 6벌씩만 제작한 후 자소의 어울림에 따라 자소의 이동과 변형으로 그 미려도를 추구할 수 있는 방안을 제시하고자 한다.

  • PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

한국어 다(多)음절 단어재인에서의 어휘접근단위 (Unit of Lexical Access in Korean Polysyllabic Word Recognition)

  • 임형욱;임희석;권유안;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.229-231
    • /
    • 2004
  • 본 연구는 다(多)음절 한국어 단어재인에서의 어휘접근단위(unit of lexical access)를 알아보고자 했다. 이를 위해 Taft(1987)가 영어 어휘접근단위를 알아보고자 했을 때 사용한 실험 패러다임을 이용하였다. 실험 결과 반응시간에서는 조건간 통계적으로 유의미한 차이를 보이지 않았지만, BOSS 조건의 반응시간이 짧은 경향성을 보였고, 반응률에 있어서도 BOSS를 지지하는 결과를 보여주었다. 물론, 반응 오류가 많은 등 Taft(1987)의 패러다임을 한국어에 적용하기에 부적절했던 점이 있었지만, 적어도 다음절 단어 어휘접근 시 BOSS가 역할을 하고 있다는 것은 알아 볼 수 있었다.

  • PDF

복합명사의 역방향 분해 알고리즘 (A Reverse Segmentation Algorithm of Compound Nouns)

  • 이현민;박혁로
    • 정보처리학회논문지B
    • /
    • 제8B권4호
    • /
    • pp.357-364
    • /
    • 2001
  • 본 논문에서는 단위명사 사전과 접사 사전을 이용하여 한국어 복합명사를 분해하는 새로운 알고리즘을 제안한다. 한국어 복합명사는 그 구조에 있어서 중심어가 뒤에 나타난다는 점에 착안하여 본 논문에서 제안한 분해 알고리즘은 복합명사를 끝음절에서 첫음절 방향 즉 역방향으로 분해를 시도한다. ETRI의 태깅된 코퍼스로부터 추출한 복합명사 3,230개에 대해 실험한 결과 약 96.6%의 분해 정확도를 얻었다. 미등록어를 포함한 복합명사의 경우는 77.5%의 분해 정확도를 나타냈다. 실험에 사용된 데이터중의 미등록어는 대부분 접사를 포함한 파행어로서, 제안한 복합명사 분해 알고리즘은 접사가 부착된 미등록어 분석에 있어서 보다 높은 분석 정확도를 나타냄을 알 수 있었다.

  • PDF

음절 특성을 이용한 한국어 불규칙 활용 어절의 형태소 분석 방법 (Analysis of Korean Irregular Verbs Using Syllable Characteristics)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.385-394
    • /
    • 1993
  • 한국어 형태소 분석 시스템은 형태소를 분리하거나 원형을 복원하는 후보 생성 과정에서 많은 후보를 생성하고 이에 대한 사전의 검색이 요구되는 부담이 있다. 특히, 불규칙 활용 어절을 분석하려면 불규칙 활용 어절뿐만 아니라 체언 어절이나 불규칙 활용이 일어나지 않은 모든 어절에 대해서도 불규칙 어절일 가능성을 검사하고, 원형을 복원하기 위해 원형의 후보들을 역으로 추정한 후에, 각 후보에 대해 사전을 검색하는 과정을 거치게 된다. 이 때 불규칙 활용 가능성으로 인한 후보들의 과다한 생성은 사전 검색 횟수의 증가를 유발하여 시스템의 성능을 저하시키는 요인이 되어 왔다. 본 논문에서는 한글의 음절 특성을 이용하여 불규칙 활용이 일어난 후보 어절의 수를 줄임으로써 사전의 검색 횟수를 적게 하고 형태소 분석 시스템의 성능을 향상시키는 방법을 제안한다.

  • PDF

한국어 트위터의 감정 분석 도구 (A Sentiment Analysis Tool for Korean Twitter)

  • 서형원;전길호;최명길;남유림;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-97
    • /
    • 2011
  • 본 논문은 자동으로 한글 트위터 메시지(트윗: tweet)에 포함된 감정을 분석하는 방법에 대하여 기술한다. 제안된 시스템에 의하여 수집된 트윗들은 어떤 질의에 대해 긍정 혹은 부정으로 분류된다. 이것은 일반적으로 어떤 상품을 구매하기 원하는 고객이나, 상품에 대한 고객들의 평가를 수집하기 원하는 기업에게 유용하다. 영문 트윗에 대한 연구는 이미 활발하게 진행되고 있지만 한글 트윗, 특히 감정 분류에 대한 연구는 아직 공개된 것이 없다. 수집된 트윗들은 기계 학습(Naive Bayes, Maximum Entropy, 그리고 SVM)을 이용하여 분류하였고 한글 특성에 따라 자질 선택의 기본 단위를 2음절과 3음절로 나누어 실험하였다. 기존의 영어에 대한 연구는 80% 이상의 정확도를 가지는 반면에, 본 실험에서는 60% 정도의 정확도를 얻을 수 있었다.

  • PDF

어절 생성 사전을 이용한 한국어 철자 교정 (Spelling Correction in Korean Using the `Eojeol` generation Dictionary)

  • 이영신;박영자;송만석
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF