• 제목/요약/키워드: 음절수

검색결과 314건 처리시간 0.047초

신경회로망을 이용한 연속음성중 키워드(keyword)인식에 관한 연구

  • 최관선;한민홍
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 1993년도 춘계공동학술대회 발표논문 및 초록집; 계명대학교, 대구; 30 Apr.-1 May 1993
    • /
    • pp.275-281
    • /
    • 1993
  • 본 발표에서는 신경회로망을 이용하여 연속음성중에서 키워드를 인식하는 방법을 설명한다. 연속음성에서 파형소편 및 음절을 식별하는 휴리스틱 알고리즘을 개발하였고, 연속음성을 음절단위로 파형소편 스펙트럼분석(선형예측법)으로 특성치를 추출하였다. 음절의 특성치는 코호넨 신경회로망을 통하여 학습을 시켰으며, 연속음성중 키워드인식은 먼저 음절을 인식하여 단어를 찾고, 인식된 단어가 키워드와 일치하는가를 확인한다. 본 연구의 의의는 파형소편 및 음절식별 알고리즘을 통하여, 크기불변성(Scaling invariance), 시간불변성(Time warping 및 Time-shift invariance), 중복성제거의 문제점을 해결하였고, 신경회로망의 학습을 통하여 화자독립적인 연속음성인식시스템 구축의 기반을 확립한데 있다. 본 음성인식모델은 학교구내 전화번호 안내시스템으로 활용단계에 있으며 전화번호뿐만아니라 주소안내시스템으로도 활용될 예정이다. 또한 자동차 운전보조시스템 및 주행안내시스템의 음성명령에 응용될 수 있는데, 예로 음성명령은 "핸들 좌로 20도", "시청까지 주행", "시청 지도안내"등이 될 수 있다. 현재 자동차 운전보조시스템은 컴퓨터 화면상 모의동작시스템으로 운영되고 있다. 본 음성인식모델은 화자종속시 90%이상, 화자독립시 70%의 인식결과를 보였다.시 90%이상, 화자독립시 70%의 인식결과를 보였다.

  • PDF

확장된 음절 bigram을 이용한 자동 띄어쓰기 시스템 (Word Segmentation System Using Extended Syllable bigram)

  • 임동희;전영진;김형준;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-193
    • /
    • 2005
  • 본 논문은 통계 기반 방법인 음절 bigram을 이용한 자동 띄어쓰기를 기본 방법으로 하고 경우의 수를 세분화한 확장된 음절 bigram을 이용한 공백 확률, 띄어쓰기 통계를 바탕으로 최종 띄어쓰기 임계치 차등 적용, 에러 사전 적용 3가지 방법을 추가로 사용하는 경우 기본적인 방법만을 쓴 경우보다 띄어쓰기 정확도가 향상된다는 것을 확인하였다. 그리고 해당 음절에 대한 bigram이 없는 경우 확장된 음절 unigram을 통해 근사적으로 계산해 데이터부족 문제를 개선하였다. 한국어 말뭉치와 중국어 말뭉치에 대한 실험을 통해 본 논문에서 제안하는 방법이 한국어 자동 띄어쓰기뿐만 아니라 중국어 단어 분리에 적용할 수 있다는 것도 확인하였다.

  • PDF

명조체와 샘물체 단어모양이 한글인식에 미치는 효과 (The effect of Meungzo and Saemmul fonts on Hangul recognition)

  • 김호영;정찬섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.259-267
    • /
    • 1992
  • 단어모양이 한글 시각정보처리에 미치는 효과를 알아보기 위해 명조체와 샘물체로 된 한음절 글자, 두음절 단어, 세음절 단어의 정확인식율을 비교하였다. 명조체는 자모의 모양과 크기가 글자의 고정된 사각틀에 맞게 변형되므로 단어모양이 글자의 자모조합 유형과 음절길이에 따라 크게 달라지지 않는다. 이에 반해 샘물체는 자모조합 유형에 따라 글자의 사각틀이 변형되므로 부가적인 단어변별 정보가 단어모양에 포함되며, 음절길이가 증가할 때 단어모양 정보가 명조체에 비해 더욱 두드러진다. 이처럼 서로 구별될 수 있는 명조체와 샘물체 단어의 시각적 구조는 각각 다른 근거에서 한글인식에 영향을 미칠 수 있을 것으로 예상된다. 연구결과, 명조체의 정확인식율이 샘물체보다 높았으며, 음절길이가 증가할 때 명조체와 샘물체에 상관없이 정확인식율이 향상되었다. 본 실험의 결과는 단어의 외곽모양 변이가 영어의 경우보다 한글 시각정보처리에서 상대적으로 덜 중요하다는 것을 시사한다.

  • PDF

한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구 (A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value)

  • 이상범;박성현
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.99-106
    • /
    • 2004
  • 음절 복원은 음성 인식 장치에서 인식된 음가열을 발성 이전의 표기 형태로 복원하는 과정이다. 본 논문에서는 음절 복원 과정을 위하여 표준 발음법을 기반으로 음절 복원 규칙을 작성하였다. 음절 복원 규칙을 이용하여 표기 후보 집합의 생성 방법을 연구하였다. 또한 생성된 표기후보의 수를 감소시키기 위하여, 비 표기 음절을 포함한 표기 후보 감소, 비 어휘 음절을 포함한 표기 후보 감소, 비어간 음절을 포함한 표기 후보 감소의 3단계 감소 과정을 제안하였다. 제안된 방법을 통하여 실험한 결과 평균 74%의 표기 후보 감소율을 나타내었다.

미등록 이름 명사 인식 밑 성별 구분 (Unregistered Human Names Recognition and Sex Distinction)

  • 강유환;고병일;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.919-921
    • /
    • 2004
  • 본 논문은 사람 이름의 특성을 이용한 이름 인식과 이름의 성별 구분 방법에 대해 제안한다 사랑 이름을 묻는 질의문은 질의-응답 시스템에서 자주 나타난다. 모든 사람 이름을 사전에 등록하는 것은 어렵다. 경우에 따라서는 남녀 이름을 구분할 필요가 있다. 한국 사람 이름의 특성은 주로 3음절로 이루어져 있고. 성씨로 사용되는 음절의 수가 제한적이라는 것이다. 또한 이름에는 한자 독음이 많이 쓰이고, 남자 이름으로 자주 쓰이는 음절과 절자 이름으로 자주 쓰이는 음절이 있다. 이러한 특성을 이용하여 사람 이름 인식과 성별 구분을 수행한다. 일반 웹 문서에서의 실험 결과, 이름 인식의 정확률은 94%를 보였고, 남녀 이름 구분의 정확률은 98%를 보였다.

  • PDF

ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링 (Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA)

  • 도수종;박천음;이청재;한규열;이미례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2020
  • 음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

  • PDF

안경원 상호 분류에 따른 선호도에 관한 연구 - 20~30대 대학생을 중심으로 - (A Study of Awareness Level Based on the Classification in Optical Shop Name - Foucused on University Students in Their Twenties and Thirties -)

  • 이옥진;정세훈
    • 한국안광학회지
    • /
    • 제20권4호
    • /
    • pp.425-435
    • /
    • 2015
  • 목적: 본 연구는 현재 사용 중인 안경원 상호를 분석하고, 그 중 소비자에게 선호도가 높은 상호를 알아보고자 하였다. 방법: 전국 351개의 안경원 상호를 추출하여 빈도분석을 하였으며, 서울, 경기 지역의 20~30대 296명을 대상으로 안경원 상호 선호도에 관한 설문조사를 실시하여 통계분석을 하였다. 결과: 안경원 상호는 영문상호(54.4%)를 더 많이 사용하였고, 2음절(30.5%)과 3음절(32.5%)을 많이 사용한 것으로 조사되었으며, 4음절 이상의 경우 "아이(26.0%)"와 "안경(24.3%)"이 상호에 많이 포함되어 있었다. 상호의 인지도(선호도) 조사에서는 한글상호(63.0%)인 경우와 1음절(34.5%), 5음절(20.9%)이 가장 높은 것으로 나타났다. 결론: 안경원 상호는 한글을 사용하고 1~3음절 또는 안경관련 전공용어가 포함된 상호를 사용하는 것이 고객의 선호도를 높일 수 있다.

음절 기반의 CNN를 이용한 개체명 인식 (Named Entity Recognition using CNN for Korean syllabic character.)

  • 박혜웅;송영숙
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.330-332
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

  • PDF

음절 기반의 CNN를 이용한 개체명 인식 (Named Entity Recognition using CNN for Korean syllabic character.)

  • 박혜웅;송영숙
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.330-332
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

  • PDF

훈민정음 원리에 기반한 자소형 최적 폰트 개발 (A Development of Optimized Jaso-Type Font based on Hunminjeongeum Principle)

  • 변정용;김경욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.690-693
    • /
    • 2007
  • 훈민정음 창제당시의 모든 한글 음절을 모두 표현함에 있어서 현재의 컴퓨터 환경은 표현방법과 폰트의 부족으로 입력 및 출력을 완전하게 할 수 없다. 본 연구에서는 훈민정음해례에서 정의한 약 399억 음절을 컴퓨터 위에서 표현할 수 있는 폰트를 제작함에 있어서 글꼴 설계의 경제적이고 효율적인 방법을 개발하는 데 초점을 둔다. 그렇게 하려면 완성형이 아닌 조합형 글꼴 설계가 요구되며, 자소들을 복자모를 뺀 오직 낱자소만으로 제작함으로써, 음절구성 형태에 따른 낱자소 8개 형식과 세 가지 타입으로 설계한다. 즉, 컴퓨터상에서는 모든 한글이 낱자소만 이용하여 풀어쓰기 형태로 입력되며, 화면에 출력할 때는 풀어쓰기 형태의 자소들을 모아쓰기로 표현하여 낱자소를 초성, 중성, 종성만으로 둘 또는 세 글자 복자모로 확장하여 표현한다. 그러므로 최소한의 폰트모양을 이용하여 훈민정음 창제 당시의 모든 한글 399억 음절을 컴퓨터에 표현할 수 있도록 한다.

  • PDF