• 제목/요약/키워드: Hangul Input Method

검색결과 45건 처리시간 0.021초

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류 (Document Classification using Recurrent Neural Network with Word Sense and Contexts)

  • 주종민;김남훈;양형정;박혁로
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권7호
    • /
    • pp.259-266
    • /
    • 2018
  • 본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

모바일 한자 학습 애니메이션 생성 (Animation Generation for Chinese Character Learning on Mobile Devices)

  • 구상옥;장현규;정순기
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권12호
    • /
    • pp.894-906
    • /
    • 2006
  • 모바일 기기의 성능 및 화면, 무선 네트워크의 속도 등의 제약으로 모바일 컨텐츠 개발에는 많은 어려움이 있다. 단순히 유선 웹상에서 기존에 서비스 되던 컨텐츠의 가시적인 축소만으로는 양질의 컨텐츠 제작이 어렵다. 빠르게 변화하는 모바일 컨텐츠 시장에 적응하기 위해서는 컨텐츠 특성에 최적화된 데이타 표현 기법 및 저작 도구의 개발이 이루어져야 한다. 본 논문에서는 모바일 기기 상에서의 한자 학습을 위한 적은 용량의 모바일 컨텐츠 및 저작 도구를 개발하였다. 본 연구에서 개발한 모바일 컨텐츠는 단순히 한자 이미지와 설명 정보를 보여주는 것이 아니라, 한자 획순으로 붓으로 쓰는 것과 같은 애니메이션 효과를 줄 수 있다. 또한 저작 도구는 사용자가 그래픽이나 한자, 모바일 프로그래밍에 관한 전문가가 아니더라도 쉽고 빠르게 컨텐츠를 생성할 수 있는 개발 환경을 제공한다. 본 논문은 트루타입 폰트로부터 글자 모양을 획득하여, 간단한 사용자 입력으로 획 분할 및 획 순서 정보를 얻고, 자동으로 획의 방향을 추출, 각 획마다 붓으로 쓰는 효과의 애니메이션을 생성한다. 다음으로 모바일 기기에서의 효율적인 글자 애니메이션을 위해 애니메이션 데이타를 압축한다. 본 논문은 한자뿐 아니라, 한글 또는 다른 형태의 그래픽에도 이용될 수 있으며, 향후 획 분할 및 획 순서 결정을 자동화하는 방법을 연구하고자 한다.

처방명 연계를 위한 유니코드 한자 기반의 한글-한자 매핑정보 구축에 관한 연구 (A study on Mapping the Unicode based Hangul-Hanja for prescription names in Korean Medicine)

  • 전병욱;김안나;김지영;오용택;김철;송미영;장현철
    • 한국한의학연구원논문집
    • /
    • 제18권3호
    • /
    • pp.133-139
    • /
    • 2012
  • Objective : UMLS is 'Ontology' which establishes the database for medical terminology by gathering various medical vocabularies representing same fundamental concepts. Method : Although Chinese character are represented in the Chinese part of Korean Unicode system in a computer, writing of Chinese characters is vary depending on Chinese input systems and Chinese writers' levels of knowledge. As the result of this, representation of Chinese writing in a computer will be considerably different from an old Chinese document. Therefore, a meaningful relationship between digital Chinese terminology and translated Korean is necessary in order to build Ontology for Chinese medical terms from Oriental medical prescription in a computer system. Result : This research will present 1:1 mapping information among the Chinese characters used in the Oriental medical prescription with analysis of 'same character different sound' and 'same meaning different shape' in Chinese part of Unicode systems. Conclusions : Furthermore, the research will provide top-down menu of relationship between Chinese term and Korean term in medical prescription with assumption of that the Oriental medical prescription has its own unique meaning.

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

Hough Transform과 부분 그래프 패턴을 이용한 한글 인식에 관한 연구 (A Study on the Hangul Recognition Using Hough Transform and Subgraph Pattern)

  • 구하성;박길철
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.185-196
    • /
    • 1999
  • 본 논문에서는 부분 그래프 패턴과 신경망을 이용한 새로운 한글 오프라인 인식 시스템을 제안하였다. 문자를 입력으로 받아 세선화를 행한 후 위치에 관한 잡음 제거 기능을 갖는 균형화를 수행하고 인식단의 첫번째 단계에서 순환 성분을 추출하고 인식한다. 부블럭 HT 공간에서 끝점, 굴곡점, 분기점의 특징점을 추출하고 추출된 특징점 사이의 관계를 조사하여 부분 그래프 패턴을 구성한다. 종모음이 올 수 있는 구역을 할당하고 종모음 후보점을 추출하여 미리 조사된 부분 그래프 패턴 사전과 비교하여 종모음을 추출한다. 같은 방법으로 횡모음을 추출한 후 간단한 구조 해석적 방법으로 모음을 인식한다. 본 논문의 성능비교를 위하여 실험은 활자체의 경우 가장 많이 쓰이는 명조체와 고딕체 그리고 필기체를 대상으로 한다. 고딕체의 경우 인식율 98.9%, 명조체의 경우 인식율 98.2%, 필기체의 경우 92.5% 이었다. 다중 자형 인식을 위하여 필기체와 활자체의 구분 없이 구한 전체 시스템의 인식율은 94.8% 이었다.

  • PDF