• 제목/요약/키워드: 음절 제약

검색결과 8건 처리시간 0.017초

메모리 제약적 기기를 위한 음절 패턴 기반 띄어쓰기 시스템 (A Word Spacing System based on Syllable Patterns for Memory-constrained Devices)

  • 김신일;양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.653-658
    • /
    • 2010
  • 본 논문에서는 메모리 제약적인 기기에 적합한 한국어 띄어쓰기 시스템을 제안한다. 본 연구에서는 최신 선행 연구들에 비해 성능의 저하가 없게 하면서 동시에 메모리 사용량을 탁월하게 줄이는 데에 초점을 맞추었다. 규칙 정보는 전혀 사용하지 않고, 은닉 마르코프 모델(Hidden Markov Model)의 이론에 근거하여 확률 정보를 적용하였으며, 두 가지의 자질을 사용하는데, 1) 첫 번째 자질은 각 음절이 개별적으로 가지는 띄어쓰기 패턴 자질이며, 2) 두 번째 자질은 두 음절 패턴 자질 사이의 전이 확률 값 정보이다. 실험 결과에서, 첫 번째 자질만 사용한 경우 모바일에 적용하기 위해 제안된 다른 연구보다 약 53% 정도 적게 메모리를 사용하면서 약 91% 정도의 정밀도를 보였다. 두 가지 자질을 모두 사용한 경우 음절바이그램을 사용한 다른 연구와 비교하여 약 76% 정도 메모리를 적게 사용하면서 약 94%가 넘는 우수한 성능을 나타내었다.

훈민정음 표현을 위한 최적 폰트 설계 (An Optimized Font Design for Hunminjeongeum Representation)

  • 김경욱;변정용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.53-57
    • /
    • 2008
  • 1987년 정보교환용 부호가 완성음절형 부호계로 개정되면서 한글 음절 표현은 극히 제한되어 컴퓨터상에서 한글의 표현은 제약을 받게 되었다. 1446년 훈민정음이 공포된 후로 목판, 활자시대를 지나서 타자기를 만나면서 한자와 다른 길을 걸어왔다. 특히 컴퓨터시대가 되면서 한글은 타자 이상의 적합성을 가지고 있지만 훈민정음 창제원리에 대한 이해부족으로 음절문자로 분류하여 완성음절형 부호를 지원하게 됨에 따라서 많은 문제를 야기하고 있다. 국제표준인 유니코드에는 세가지 종류의 부호가 반영되어 있는데 음절문자 중심의 부호화이므로 훈민정음의 특성을 해치는 일이며 또한 한글의 과학성을 부정하는 일이기도 하다. 본 논문은 훈민정음 창제원리에 입각하지 않음으로 생긴 문제에 대한 근본적인 해결책으로 훈민정음을 표현하는 최적 폰트 설계 방안을 검토하고 현행의 한글부코드표준의 개선 방향을 제시하고자 한다.

  • PDF

LyriKOR: 음절을 맞춘 영한 노래 가사 번역 모델 (LyriKOR: English to Korean Song Translation with Syllabic Alignment)

  • 조혜진;홍은빈;오지민;박정환;이병준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.510-516
    • /
    • 2023
  • 세계화가 진행됨에 따라 다양한 문화의 음악을 즐기는 사람들이 늘어나고, 해외 팬들이 외국 노래를 이해하고 따라 부를 수 있는 접근성을 확보하는 것이 중요해졌다. 이를 위해 본 논문에서는 노래 가사 데이터에 특화된 영어-한국어 번역 모델 리리코(LyriKOR)를 제시한다. 리리코는 영어 노래를 한국어로 번역하여 그 의미를 담아낼 뿐만 아니라, 번역 결과물이 원곡의 선율과 리듬에 어느 정도 부합하도록 하여 한국어로 바로 따라 부를 수 있도록 하는 것을 목표로 한다. 이를 위해 번역과 음절 조정의 두 단계(two-stage)를 거쳐 제한된 데이터로 음절 정렬된 번역 모델을 훈련하는 새로운 방법을 소개한다. 모델 코드는 여기에서 볼 수 있다.

  • PDF

한글 문자의 음소 및 음절 문자 특성의 구현 방안 (An Implementation Method for The Phonemic and Syllabic Character Attributes of Hangul Character)

  • 변정용;강진곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.288-294
    • /
    • 1994
  • 훈민정음 해례에 따르면 한글문자는 음소 및 음절 문자 특성을 가지고 있다. 이러한 특성들을 컴퓨터 시스템에서 구현함에 있어서 야기되어 왔던 각종 문제를 분석한 다음 이들 문제들에 대하여 한글문자의 특성을 제약함이 없이 컴퓨터에 대한 기술을 개발함으로써 해결책을 모색한다. 본 논문은 훈민정음 해례에서 밝힌 한글 문자의 음소 및 음절 문자 특성에 따라서 기존의 코드 체계를 평가하며, 그리고 이들에 대한 구현 방안을 제시하고자 한다. 또한 이러한 특성을 반영한 한글 입출력들인 '셔블'을 개발하고 이에 대한 검증을 시도하였다.

  • PDF

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

한국 한자음의 빈도 관련 정보 및 음절 구조 제약 (Frequency Related Information and Syllable Structure Constraints on Sino-Korean)

  • 신지영
    • 말소리와 음성과학
    • /
    • 제1권2호
    • /
    • pp.129-140
    • /
    • 2009
  • The purpose of the present study is to investigate frequency related information and syllable structure constraints on Sino-Korean. Previous studies on Sino-Korean have mostly investigated the historical change of sounds and reviewed archaic features of Chinese language in Sino-Korean. Unfortunately, there is little study on the sounds of contemporary Sino-Korean in terms of syllable structure constraints. For the purpose of the present study, sounds of 7,742 Chinese characters used in Sino-Korean (7,795 syllables) were investigated and syllable matrices made based on the results of frequency related information. As a result, 483 syllable types were observed and the most frequently observed syllables were as follows: /ku/ (103) > /ki/ (100) > /ju/ (87) > /pi/ (86). Only 16 out of 19 consonants are used for Sino-Korean. /$t^{\ast}$/ and /$p^{\ast}$/ are never used in Sino-Korean and /kh, $s^{\ast}$, $k^{\ast}$/ occur only a few times (3, 2, 1 respectively). /k/ (17.5%) shows the highest frequency and /n, ${\eta}$, 1, tc, m/ occupied the next rankings. Among 20 vowel types, /a/ showed the highest frequency and /o, u, i, $j{\Lambda}$, ${\Lambda}$/ occupied the next rankings. Based on the syllable matrices, gaps were observed and classified into accidental or systematic ones. Onset and nucleus, nucleus and coda, onset and coda, and other syllable structure constraints of Sino-Korean were listed.

  • PDF

모바일 환경을 고려한 규칙기반 음성인식 오류교정 (Rule-based Speech Recognition Error Correction for Mobile Environment)

  • 김진형;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.25-33
    • /
    • 2012
  • 본 논문에서는 모바일 환경에서 음성인식한 결과에 포함된 오류를 교정하는 규칙기반 접근방법을 제안한다. 제안하는 방법은 처리시간이나 메모리에 제약을 받는 모바일 환경을 고려하여 다음과 같이 구성된다. 오류 교정 속도를 최소화하기 위해서, 음절 해체 및 조합 과정이나 형태소 분석 등의 처리를 줄이고, 최장일치 규칙 선택기준을 바탕으로 오류 발생 추정 지점에서 교정 후보도 하나만 생성한다. 제안하는 방법은 메모리를 효율적으로 사용하기 위해서, 어절사전이나 형태소분석기를 사용하지 않고, 규칙도 유형별로 따로 구분하지 않고 통합하여 저장한다. 제안하는 방법은 모델의 수정 및 유지보수가 용이하도록, 오류교정규칙을 학습말뭉치에서 자동으로 추출하여 구축한다. 실험결과 제안하는 방법은 음성인식 결과에 대하여 정확률을 5.27% 정도 재현율을 5.60% 정도 개선하였다.

문자열 부분검색을 위한 색인기법의 설계 및 성능평가 (Design and Performance Evaluation of an Indexing Method for Partial String Searches)

  • 강승헌;유재수
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1458-1467
    • /
    • 1999
  • 신장해슁이나 B+-트리와 같은 기존의 색인구조들은 문자열의 부분검색을 지원하지 못하거나 부분검색에 제약점을 가지고 있다. 최근 웹 환경에서 동작하는 정보검색 엔진들이 사용하는 역파일의 빠른 검색성능을 가지면서 문자열 부분검색을 효율적으로 지원하는 색인기법을 제안한다. 제안된 색인기법은 기본적으로 역파일 구조이며, 2음절 단위의 패턴으로 색인을 구성함으로써 문자열 부분검색을 지원한다. 제안된 색인기법의 특성을 분석하기 위해 제안된 방법의 성능을 다양한 환경에서 실험을 통하여 비교하고 분석한다. 또한 성능평가를 위해 기존의 역파일 기법, 요약 파일 기법들과 제안하는 색인기법의 분석적 모델을 검색시간과 저장공간 측면에서 세시하고, 그 모델을 기반으로 그들의 성능을 비교한다. 분석적 비교모델을 통한 성능비교 결과, 제안된 부분검색을 위한 색인기법은 저장공간의 오버헤드는 크지만 기존 요약 파일 기법에 비해 검색성능을 상당히 향상시킨다.

  • PDF