• 제목/요약/키워드: 초성/중성/종성

검색결과 55건 처리시간 0.023초

6-유형 별로 적응적 계층 구조를 갖는 인쇄 한글 인식 (Printed Hangul Recognition with Adaptive Hierarchical Structures Depending on 6-Types)

  • 함대성;이득용;최경웅;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제10권1호
    • /
    • pp.10-18
    • /
    • 2010
  • 한글 인식은 부류 수가 많다는 특성을 가지며 이 특성으로 인해 6-유형으로 사전 분류하는 것이 일반적이다. 사전 분류 후 각 유형들은 초성, 중성, 종성으로 분리하여 인식할 수 있다. 초성, 중성, 종성 각각은 부류의 수는 적지만 'ㅔ', 'ㅖ', 과 같이 서로간의 유사도가 높아 오 인식 되는 경우가 종종 발생한다. 따라서 본 논문에서는 6-유형 각각에 대해 다단계 트리 구조를 가진 계층적 인식 방법을 제안 하였다. 또한 초성, 중성, 종성의 서로 간의 간섭을 줄이기 위해, 초성과 종성의 인식 결과를 중성 분류기의 특징으로 사용하였다. PHD08 데이터베이스의 테스트 집합에 대해 98.96%의 정확률을 보였다.

한국어 단어 산출에서 음절 내 부호화 II (Within-syllabic Encoding in Korean Word Production II)

  • 구민모;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-76
    • /
    • 2009
  • 본 논문에서는 한국어 단어를 산출하는 과정에서 음절 내 부호화 과정을 규명하기 위해 2개의 단어번역과제 실험을 수행하였다. 한국어 산출에서 종성점화효과를 검증한 실험 1에서 종성 반복 조건과 통제조건 간에 단어번역시간에서 차이를 보이지 않았다. 반면에 실험 2에서는 11ms의 부적인 중성점화효과를 보였다. 구민모와 남기춘(2009)과 본 연구의 결과를 종합하면, 다음과 같은 결론에 도달한다: (1) 한국어 산출 어휘집에서 음절은 "음절체+종성"의 위계적인 내적 구조로 표상된다. (2) 음절 내 부호화는 음절체와 종성이 계열적인 순서로 진행된다. (3) 음절체를 구성하는 초성과 중성이 계열적인 순서로 음절구조에 삽입된다.

  • PDF

통합 사용자 인터페이스에 관한 연구 : 인공 신경망 모델을 이용한 한글 필기체 On-line 인식 (A Study on the Intelligent Man-Machine Interface System: On-Line Recognition of Hand-writing Hangul using Artificial Neural Net Models)

  • 최정훈;권희용;황희융
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.126-131
    • /
    • 1989
  • 본 논문에서는 Error Back Propagation 학습을 이용해 한글 문자를 On-Line 인식하는 시스템을 제안한다. Pointing device의 궤적을 추적해 입력 패턴의 특징(feature)을 추출해 신경 회로망 입력으로 준다. 이때 사용하는 특징은 기본 획 (stroke)의 종류 및 획간의 상대적 위치 관계이다. 학습과정에서는 자소의 정의를 읽어 초성, 중성, 종성에 대해 각 획수마다 정의된 신경회로망의 weight를 조정한다. 인식 과정에서는 초성, 중성, 종성의 순으로 에러가 최소인 획수의 신경회로망 출력을 택하여 2 바이트 조합형 코드로 완성한다. 이로써 Intelligent Man-Machine Interface 시스템중 위치 및 크기에 무관한 전필 입력 시스템을 구현한다.

  • PDF

한국어 자소 음가 분류에 관한 연구 (A Study on the Korean Grapheme Phonetic Value Classification)

  • 유승덕;김학진;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.89-92
    • /
    • 2001
  • 본 논문에서는 한국어 대용량 음성인식 시스템의 기초가 되는 자소(grapheme)가 지니는 음가를 분류하였다. 한국어 자소를 음성-음운학적으로 조음 위치와 방법에 따라 분류하여, 그 음가 분석에 관한 연구와 함께 한국어 음성인식에서 앞으로 많이 논의될 청음음성학(auditory phonetics)에 대하여 연구하였다. 한국어는 발음상의 구조와 특성에 따라 음소 분리가 가능하여 초성, 중성, 종성 자소로 나눌 수 있다. 본 논문에서 초성은 자음음소 18개, 중성은 모음 음소(단모음, 이중모음) 17개, 그리고 'ㅅ' 추가 8종성체계의 자음음소로 하였다. 청음음성학적 PLU(Phoneme Like Unit)의 구분 근거는 우리가 맞춤법 표기에서 주로 많이 틀리는 자소(특히, 모음)는 그 음가가 유사한 것으로 판단을 하였으며, 그 유사음소를 기반으로 작성한 PLU는 자음에 'ㅅ' 종성을 추가하였고, 모음에 (ㅔ, ㅐ)를 하나로, (ㅒ, ㅖ)를 하나로, 그리고 모음(ㅚ, ㅙ, ㅞ)를 하나의 자소로 분류하였다. 혀의 위치와 조음 방법과 위치에 따라 분류한 자음과 모음의 자소를 HTK를 이용하여 HMM(Hidden Markov Model)의 자소 Clustering하여 그것의 음가를 찾는 결정트리를 검색하여 고립어인식과 핵심어 검출 시스템에 적용 실험한 결과 시스템의 성능이 향상되었다.

  • PDF

연산자 LIKE의 새로운 한글 탐색 패턴 (A New Korean Search Pattern of the Operator LIKE)

  • 박성철;노은향;박영철;박종철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.244-260
    • /
    • 2007
  • 데이타베이스 언어인 SQL의 연산자 LIKE는 문자열을 탐색하기 위한 연산자로서 문자열 양식을 설정함으로써 그에 부합하는 칼럼값들을 식별할 수 있게 한다. 표음문자인 한글의 각 음절은 초성과 중성으로 구성되거나 초성, 중성, 그리고 종성으로 구성된다. 본 논문은 연산자 LIKE의 한글 음절의 탐색 양식으로서 한글 음절로 표현되는 기존 양식에 추가하여 한글의 초성과 중성에 기반한 새로운 양식을 제안한다. 제안하는 한글 탐색 양식은 특정 초성을 가지는 한글 음절들, 특정 중성을 가지는 한글 음절들, 또는 특정 초성과 중성을 가지는 한글 음절들을 탐색할 수 있게 한다. 제안하는 한글 탐색 양식을 SQL의 기존 연산자들로 표현하는 것은 실질적으로 많은 불편을 수반하며 DBMS의 문자 집합에 따라 응용 프로그램의 호환성 문제를 초래할 수 있다. 본 논문은 제안하는 한글 탐색 양식을 고려한 연산자 LIKE의 수행 알고리즘을 한글과 한자에 대한 정보 교환용 부호계의 국가 표준인 KS X 1001로 표현된 문자들을 기반으로 제시한다.

LN2440SBC 시스템을 위한 한글 포팅 및 출력 방식 비교 (Hangul Porting and Display Method Comparison for an LN2440SBC System)

  • 김병국;박근덕;오삼권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.635-638
    • /
    • 2009
  • 컴퓨터 디스플레이를 위한 한글 표현 방법에는 한글 음절의 초성, 중성, 종성 각각에 코드를 부여하고, 이를 조합하여 1 음절을 2 바이트로 처리하는 표준 조합형 코드와 각 음절마다 2 바이트 코드를 부여하는 표준 완성형 코드, 그리고 모든 국가의 언어를 표현하기 위한 만국 공통의 문자부호 체계인 유니코드 방식이 있다. 일반적으로 임베디드 시스템은 PC에 비해 상대적으로 속도가 느리고 저장공간 또한 제한되어 있으나 그 용도에 따라 PC에 필적하는 성능을 가지는 경우도 있다. 따라서 화면에 한글을 출력할 경우, 임베디드 시스템의 자원 환경에 맞는 적합한 방식을 채택해야 한다. 본 논문은 시랩시스(CLabSys)사의 3.5" TFT LCD 키트인 LP35가 부착된 LN2440SBC 임베디드 보드(S3C2440A CPU, 400MHz)의 TFT LCD 드라이버 제작을 위한 초기화 방법과 픽셀 디스플레이 함수를 소개한다. 또한 픽셀 디스플레이 함수와 비트맵 폰트를 사용하여 표준 조합형, 표준 완성형, 유니코드 방식의 3가지 방식에 대한 한글 출력 처리 속도와 필요 메모리 용량을 비교한다. 시험 결과에 따르면, 표준 조합형은 적은 메모리 공간을 차지하지만 초성, 중성, 종성을 조합하는데 시간이 소요되고, 완성형은 조합형에 비해 출력 처리 속도는 빠르나 모든 음절의 저장을 위해 비트맵 폰트의 용량이 크며, 유니코드는 비트맵 폰트의 용량은 가장 크지만, 국가 간 언어의 호환성을 보장하고 출력 속도 또한 세 가지 방식 중 가장 빠른 것으로 나타났다.

한글 낱말의 처리 단위 (The Processing Unit in Korean Words)

  • 이준석;김경린
    • 인지과학
    • /
    • 제1권2호
    • /
    • pp.221-239
    • /
    • 1989
  • 한글 낱말의 처리단의를 검증하기 위해 3개의 실험을 실시 하였다.예비 실험과 실험1은 한음절 글자, 실험 2는 2음절 이상 글자에서의 처리단위를 밝혀보고자 하였다.예비실험에서,자음유형효과는 통계적으로 유의미하지 않았으나 낱말 위치 효과는 유의미했다.Newman-Keuls 검증결과 초성조건과 중성조건간 차이는 유의미하지 않았으나 중성조건과 중성조건간의 차이는 유의미했다.실험 1에서는 낱자수가 증가함에 따라 반응시간도 증가했다.낱말 위치 효과는 예비실험과 동일했다.실험 2에서는 종성유무와는 관계없이 음절이 증가함에 따라 반응시간이 증가했다.본 연구의 시사점은 다음과 같다:(1)한 음절의 글자에서는 초성과 종성으로만 구성된 음절을 단위로 정보처리가 이루어지나 (2) 두 음절이상의 글자에서는 종성이 포함된 음절을 단위로 정보처리가 이루어진다.

한국어의 정보이론적 연구 방향 (On Information Theoretical Research of the Korean Language)

  • 이재홍;이재학
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.367-375
    • /
    • 1992
  • 한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due

  • PDF

Sub-word 단위 HMM을 이용한 한국어 대용량 어휘 인식 (Large Vocabulary Speech Recognition Using Sub-word Unit HMM)

  • 김홍수;이상운;이건웅;홍재근
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.167-170
    • /
    • 2000
  • 일반적인 한국어 대용량 어휘인식에 사용되는 triphone 모델은 한국어의 특성을 잘 표현한다는 장점이 있으나 인식시간이 길어지게 된다. 이러한 triphone 모델의 단점을 극복하기 위해 음절단위 HMM 모델을 사용하는 방법이 있는데 이 모델은 인식시간을 줄일 수 있으나 triphone 모델에 비해서 인식률이 낮다. 본 논문에서는 음성 인식시간을 단축시키고 조음현상을 고려하기 위하여 초성과 종성 자음은 각각의 biphones으로 나타내고 중성 모음은 1개의 monophone으로 나타내는 모델을 제안하였다. PBW445 음성 데이터베이스에 대한 실험결과, 제안한 인식모델이 triphone 모델에 가까운 인식률을 나타내었으며, 인식시간을 크게 단축하였다.

  • PDF