• 제목/요약/키워드: 자소분석

검색결과 41건 처리시간 0.025초

한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기 (Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

후천성 한글 난독증에서의 단서 주기 효과 (The effect of eueing technique in acquired Hangul dyslexia)

  • 조경덕;이광오
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.292-296
    • /
    • 2000
  • 뇌손상에 기인하는 한글 난독증의 어휘처리 양상을 분석하여 한글정보처리의 특성을 알아보고자 하였다. 피험자 PSK의 한글 어휘처리에서 특히 주목되는 점은 단어의 음독은 가능하나, 비단어의 음독은 불가능하였다는 것이다. PSK의 한글 어휘처리는, 자소-음소변환(grapheme-phoneme conversion)경로가 선택적으로 손상되어, 심성어휘집(mental lexicon)의 발음정보를 이용하는 직접경로에 의해서 이루어진다고 판단된다. 읽기(reading)와 그림명명(picture naming)에서 나타난 오류들에 대하여, 음운적 단서(phonological cueing)를 제시하였다. 그 결과, 읽기 수행에서는 단서 주기 효과가 나타나지 않았으나 그림명명에서는 수행상의 향상이 나타났다. 또한, 1음절어의 읽기 수행에서는 규칙효과가 나타나지 않았으나 2음절어의 읽기 수행에서는 빈도와 규칙성의 상호작용이 나타났다. 이것은, PSK의 1음절어와 2음절어에 대한 읽기 수행이 상이한 경로에서 이루어질 가능성을 시사한다.

  • PDF

깻잎에 있어 Ca, Mg의 존재형태와 수확후의 변화 (Chemical Forms of Ca, Mg Compounds Occuring in Perilla Leaves and Their Changes after Harvest)

  • 최영희
    • 동아시아식생활학회지
    • /
    • 제11권4호
    • /
    • pp.274-280
    • /
    • 2001
  • 깻잎에 있어 칼슘의 생리작용을 밝히기 위하여 조직 중의 칼슘의 존재형태에 대하여 조사하였다. 즉 조직 중의 칼슘을 물(F-I), IN 소금(F-II), 2% 초산(F-III), 그리고 5% 염산(F-IV)의 각 용매를 이용하여 차례로 추출하여 각 분획의 칼슘과 마그네슘 함량을 측정하였다. 아울러 이 중 칼슘 분획이 저장기간과 저장온도에 따라 어떻게 변동하는가를 검토 하였으며 그 결과는 다음과 같다. 1. 엽령에 따른 칼슘의 존재형태를 분석한 결과 모든 엽령에서 F-I (28.41~39.52%)과 F-II(34.44~47.39%) 비율이 높았으며 F-IV는 15.6~21.57%로 수산칼슘으로의 존재가 많지 않았다. 마그네슘의 존재형태는 F-I과 F-II가 90% 이상을 차지하였으며 F-IV는 4%에 불과하였다. 2. 깻잎의 F-IV 칼슘비율을 시금치 및 차조기의 그것과 비교한 결과 깻잎은 16.75, 시금치는 42.4, 자소는 22.26%가 수산칼슘 형태로 존재하여 깻잎에서의 비율이 가장 낮음이 확인되었다. 마그네슘의 존재형태는 칼슘과는 다르게 시금치에서 수산과 결합한 비율이 가장 낮았으며 수용성 분획인 F-I칼슘이 90.6%를 차지하였으며 깻잎과 자소는 각각 62.89, 16.8%로 조사되었다. 3. 수확 후 7일간 5$^{\circ}C$와 2$0^{\circ}C$에서 저장하면서 비타민 C와 F-IV 칼슘의 변화추이를 분석한 결과 비타민 C는 저장 1일 째는 감소가 완만하나 4일째에 급격히 감소를 보였다. F-IV 칼슘의 경우는 저장 1일 째 완만한 증가를 보이다가 역시 4일째 급격한 증가를 보였다. 이로써 비타민 C가 감소할수록 수산칼슘의 비율이 증가한다는 사실이 입증되었다. 이러한 경향은 5$^{\circ}C$보다는 2$0^{\circ}C$에서 더욱 두드러지게 나타났다.

  • PDF

오프라인 필기체 한글 자소 인식에 있어서 특징성능의 비교 (Comparison of Feature Performance in Off-line Hanwritten Korean Alphabet Recognition)

  • 고태석;김종렬;정규식
    • 인지과학
    • /
    • 제7권1호
    • /
    • pp.57-74
    • /
    • 1996
  • 본 논문에서는 근래의 필기체 한글인식에서 상요되고 있는 특징들의 인식 성능을 비교한다.본 연구는 인식률 뿐만 아니라 인식시스템의 효율성을 향상시키기 위한 특징 선택의 기반을 마련함에 그 목적이 있다.특징성능 비교를 위해 그 특징들의 특성들을 분석하였고,그 특성에 따라 특징들을 전역적 특징(영상변환,통계적 특징,지역/위상적 특징의 3가지 종류로 분류하였다.각 종류별로 한글 자소 특징을 나타내는데 적합한 특징들을 4-5가지씩 선정하였고,인식실험을 한글의 초성자음,횡모음,종모음별로 수행하였다. 실험에 사용된 인식기로는 오류역전파 알고리즘으로 학습된 은닉층이 하나인 다층 퍼셉트론이 사용되었다.실험에 사용된 학습 및 시험용 데이타는 PE92중 30벌이다.실험결과를 보면,1)지역/위상적 특징들이 다른 종류의 특징들보다 인식 성능이 우수하였으며,2) 통계적 특징 중에서는 망 특징과 투영특징이,전역적인 특징들 중에서는 왈쉬특징과 DCT특징이,지역/위상적 특징에서는 윤곽선 위상변화 특징과 오목성 특징이 각각 성능이 우수하였다.

  • PDF

2차원 디지털 필터링에 의한 한글 자모의 인식 알고리즘 (A Recognition Algorithm of Hangeul Alphabet Using 2-D Digital filtering)

  • 오길남;신성호;진용옥
    • 대한전자공학회논문지
    • /
    • 제21권3호
    • /
    • pp.55-59
    • /
    • 1984
  • 본 연구는 2차원 디지탈 필터링을 이용한 한글 인식 방법에 관한 것이다. 한글의 실용문자 1,659자의 표준 인쇄체를 초성, 중성, 종성의 위치별로 분석하여 총 170가지의 자모로 분류하고 이들 각 자모에 대한 2차원 디지탈 필터링된 모형을 얻어냈다. 이것을 바탕으로 하여 한글 조합문자에 중첩의 원리를 적용하여 자소를 분해. 인식하는 알고리즘을 제시하였다. 모의 시험의 결과. 인쇄체의 경우 100%의 인식률을 얻었다.

  • PDF

언어 모델 다중 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Joint Learning with Language Model)

  • 김병재;박찬민;최윤영;권명준;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-337
    • /
    • 2017
  • 본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.

  • PDF

중첩윤곽 형상에 의한 한글패턴의 정점검출 (A Vertex-Detecting of Hanguel Patterns Using Nested Contour Shape)

  • 고찬;이대영
    • 한국통신학회논문지
    • /
    • 제15권2호
    • /
    • pp.112-123
    • /
    • 1990
  • 본 논문은 한글 문자인식을 위하여 중첩형상데이타에 의한 한글 패턴의 굴곡 특징점과 정점검출에 관하여 논한 것이다. 입력된 2진 문자패턴을 거리변환법에 의한 중첩데이타로 변환하고, 데이터의 특성분석에 의한 변환값의 새로운 파일로 구성하였다. 이 두 데이터 파일로 한글 인식에 유용한 정점들을 검출하는 알고리즘을 제안하였다. 이 알고리즘에서는 오인식의 원인이 되는 돌기부분의 제거, 자소 접촉 부분의 분리, 굴곡 특징 변환값에 따른 코드를 부여하도록 하였따. 여기서의 출력은 한글 문자인식에 활용될 수 있는 형태로 하였다.

  • PDF

한글 외곽선 폰트의 자소 분할 (Hangul Component Decomposition in Outline Fonts)

  • 구상옥;정순기
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제17권4호
    • /
    • pp.11-21
    • /
    • 2011
  • 본 논문은 한글 외곽선 폰트를 입력으로 글자의 초성, 중성, 종성 요소(컴포넌트)를 통계적-구조적 정보를 이용하여 분할하는 방법을 제안한다. 한 폰트 내에서 한글 컴포넌트는 통계적으로 일정한 위치에 나타나며, 각 컴포넌트를 이루는 획 간의 관계는 그 컴포넌트의 구조적 특징을 나타낸다. 우리는 먼저 각 컴포넌트의 위치를 저장하는 컴포넌트 히스토그램을 생성하여 컴포넌트 위치에 관한 통계 정보를 저장하였다. 그리고 글자의 구조적 정보를 반영하기 위해 픽셀의 방향성 확률을 기반으로 픽셀클러스터를 만들고, 클러스터의 위치, 방향 및 크기, 클러스터간 인접성 정보를 이용하여 후보 획을 추출하였다. 마지막으로 릴렉세이션 레이블링을 통해 후보 획 집합과 미리 정의된 글자 모델 간의 가장 적합한 구조적 매치를 구하였다. 본 논문에서 제안한 컴포넌트 분할방법은 한글 폰트의 조형적 특징에 관한 연구 및 이를 활용한 폰트분류 빛 폰트검색에 활용될 수 있다.

휴대형 정보기기의 한글 및 영숫자 필기 입력 방안 (The input method of the Hangul and Alphanumeric characters for the PDAs)

  • 홍성민;국일호;조원경
    • 전자공학회논문지T
    • /
    • 제35T권3호
    • /
    • pp.53-60
    • /
    • 1998
  • 본 논문에서는 키보드를 사용하지 않는 PDA 등 휴대형 컴퓨터에서 입력의 수단으로 사용하는 온-라인 문자 인식기를 위한 문자 필기글꼴을 제안하였다. 제안된 필기글꼴은 키보드를 통하여 입력 가능한 수준의 한글 자소와 영숫자이며, 필기글꼴의 정의를 위하여 한글의 풀어쓰기 글꼴과 영문자의 PDA용 필기 패턴인 그래피티 문자를 분석하여, 한글과 영숫자 입력 모드 전환이나 필기 영역의 구분 없이 연속 필기하여도 인식 가능하도록 중복되는 글꼴을 갖지 않도록 하면서 최대한 원형을 유지하도록 하였다. 본 논문에서 제안한 필기글꼴의 타당성을 고찰하기 위하여 그래피티 문자를 알고 있는 PDA 사용자 그룹과 일반인들을 대상으로 인지도와 만족도를 조사하였다. 두 피실험 그룹의 영숫자 및 한글의 자음의 인지도 및 만족도는 98% 이상이었고 한글 모음의 경우 95% 이상의 긍정적인 반응을 얻었다.

  • PDF

음향 데이터로부터 얻은 확장된 음소 단위를 이용한 한국어 자유발화 음성인식기의 성능 (Performance of Korean spontaneous speech recognizers based on an extended phone set derived from acoustic data)

  • 방정욱;김상훈;권오욱
    • 말소리와 음성과학
    • /
    • 제11권3호
    • /
    • pp.39-47
    • /
    • 2019
  • 본 논문에서는 대량의 음성 데이터를 이용하여 기존의 음소 세트를 확장하여 자유발화 음성인식기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 먼저 방송 데이터에서 가변 길이의 음소 세그먼트를 추출한 다음 LSTM 구조를 기반으로 고정 길이의 잠복벡터를 얻는다. 그런 다음, k-means 군집화 알고리즘을 사용하여 음향적으로 유사한 세그먼트를 군집시키고, Davies-Bouldin 지수가 가장 낮은 군집 수를 선택하여 새로운 음소 세트를 구축한다. 이후, 음성인식기의 발음사전은 가장 높은 조건부 확률을 가지는 각 단어의 발음 시퀀스를 선택함으로써 업데이트된다. 새로운 음소 세트의 음향적 특성을 분석하기 위하여, 확장된 음소 세트의 스펙트럼 패턴과 세그먼트 지속 시간을 시각화하여 비교한다. 제안된 단위는 자유발화뿐만 아니라, 낭독체 음성인식 작업에서 음소 단위 및 자소 단위보다 더 우수한 성능을 보였다.