• 제목/요약/키워드: 어절

검색결과 471건 처리시간 0.026초

한국어 형태소 분석을 위한 음절 단위 확률 모델 (Syllable-based Probabilistic Models for Korean Morphological Analysis)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.642-651
    • /
    • 2014
  • 본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

벡터 양자화를 이용한 한국어 억양 곡선 생성 (Generation of Korean Intonation using Vector Quantization)

  • 안혜선;김형순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-212
    • /
    • 2001
  • 본 논문에서는 text-to-speech 시스템에서 사용할 억양 모델을 위해 벡터 양자화(vector quantization) 방식을 이용한다. 어절 경계강도(break index)는 세단계로 분류하였고, CART(Classification And Regression Tree)를 사용하여 어절 경계강도의 예측 규칙을 생성하였다. 예측된 어절 경계강도를 바탕으로 운율구를 예측하였으며 운율구는 다섯 개의 억양 패턴으로 분류하였다. 하나의 운율구는 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞, 뒤 기울기를 추출하여 네 개의 파라미터로 단순화하였다. 운율구에 대해서 먼저 운율구가 문장의 끝일 경우와 아닐 경우로 분류하고, 억양 패턴 다섯 개로 분류하여. 모두 10개의 운율구 set으로 나누었다. 그리고 네 개의 파라미터를 가지고 있는 운율구의 억양 패턴을 벡터 양자화 방식을 이용하여 분류(clusteing)하였다 운율의 변화가 두드러지는 조사와 어미는 12 point의 기본주파수 값을 추출하고 벡터 양자화하였다. 운율구와 조사 어미의 codebook index는 문장에 대한 특징 변수 값을 추출하고 CART를 사용하여 예측하였다. 합성할 때에는 입력 tort에 대해서 운율구의 억양 파라미터를 추정한 다음, 조사와 어미의 12 point 기본주파수 값을 추정하여 전체 억양 곡선을 생성하였고 본 연구실에서 제작한 음성합성기를 통해 합성하였다.

  • PDF

Trainable TTS System을 위한 음운 지속시간 모델링 (An Analysis on the Phoneme Duration Modeling For the Trainable TTS System)

  • 서지인;이양희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.109-112
    • /
    • 2001
  • 본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.

  • PDF

HMM을 이용한 한국어 품사 및 동형이의어 태깅 시스템 (Korean POS and Homonym Tagging System using HMM)

  • 김동명;배영준;옥철영;최호섭;김창환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.12-16
    • /
    • 2008
  • 기존의 자연언어처리 연구 중 품사 태깅과 동형이의어 태깅은 별개의 문제로 취급되었다. 그로 인해 두 문제를 해결하기 위한 모델 역시 서로 다른 모델을 사용하였다. 이에 본 논문은 품사 태깅 문제와 동형이의어 태깅 문제는 모두 문맥의 정보에 의존함에 착안하여 은닉마르코프모델을 이용하여 두 가지 문제를 해결하는 시스템을 구현하였다. 제안한 시스템은 품사 및 동형이의어 태깅된 세종 말뭉치 1100만여 어절에 대해 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 사전을 구축하였다. 구현된 시스템의 성능 확인을 위해 비학습 말뭉치 261,360 어절에 대해 실험하였고, 실험결과 품사 태깅 99.74%, 동형이의어 태깅 97.41%, 품사 및 동형이의어 태깅 97.78%의 정확률을 보였다.

  • PDF

최대 엔트로피 모텔 기반 품사 태거의 성능 향상 기법 (Techniques for improving performance of POS tagger based on Maximum Entropy Model)

  • 조민희;김명선;박재한;박의규;나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.73-81
    • /
    • 2004
  • 한국어에서의 품사 결정 문제는 형태론적 중의성 문제도 있지만, 영어에는 발생하지 않는 동품사 중의성 문제로 더 까다롭다. 이러한 문제들은 어휘 문맥을 고려하지 않고서는 해결하기 어렵다. 통계 자료 부족 문제에 쉽게 대처하는 모델이 필요하며 문맥에 따른 품사를 결정하고자 할 때 서로 다른 형태의 여러 가지 어휘 문맥 정보를 반영할 수 있는 모델이 필요하다. 본 논문에서는 이런 점에 가장 적합한 최대 엔트로피(maximum entropy : ME) 모델을 품사태깅 작업에 이용하는 문제에 대해 다룬다. 어휘 문맥 정보를 이용하기 위한 자질함수가 매우 많아지는 문제에 대처하기 위해 필요에 따라 어휘 문맥 정보를 사전화 한다. 본 시스템의 특징으로는 어절 단위 품사 태깅을 위한 처리 기법. 어절의 형태소 분석열에 대한 어절 내부 확률 계산. ME 모델의 정규화 과정 생략에 의한 성능 향상, 디코딩 경로의 확장과 같은 점들이 있다. 실험을 통하여 본 연구의 기법이 높은 성능의 시스템을 달성할 수 있음을 알게 되었다.

  • PDF

의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링 (Korean Dependency Relation Labeling Using Bidirectional LSTM CRFs Based on the Dependency Path and the Dependency Relation Label Distribution of Syllables)

  • 안재현;이호경;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2016
  • 본 논문은 문장에서의 어절 간 의존관계가 성립될 때 의존소와 지배소가 어떠한 관계를 가지는지 의존 관계명을 부착하는 모델을 제안한다. 국내에서 한국어 의존구문분석에 관한 연구가 활발히 진행되고 있지만 의존 관계만을 결과로 제시하고 의존 관계명을 제공하지 않는 경우가 많았다. 따라서 본 논문에서는 의존 경로(Dependency Path)와 음절의 의존 관계명 분포를 반영하는 음절 임베딩를 이용한 의존 관계명 부착 모델을 제안한다. 문장에서 나올 수 있는 최적의 입력 열인 의존 경로(Dependency Path)를 순차 레이블링에서 좋은 성능을 나타내고 있는 bidirectional LSTM-CRFs의 입력 값으로 사용하여 의존 관계명을 결정한다. 제안된 기법은 자질에 대한 많은 노력 없이 의존 경로에 따라 어절 및 음절 단어표상(word embedding)만을 사용하여 순차적으로 의존 관계명을 부착한다. 의존 경로를 사용하지 않고 전체 문장의 어절 순서를 바탕으로 자질을 추출하여 CRFs로 분석한 기존 모델보다 의존 경로를 사용했을 때 4.1%p의 성능향상을 얻었으며, 의존 관계명 분포를 반영하는 음절 임베딩을 사용한 bidirectional LSTM-CRFs는 의존 관계명 부착에 최고의 성능인 96.01%(5.21%p 개선)를 내었다.

  • PDF

한글 파닉스 교육을 위한 초등 1-2학년 교과서 어휘 자소분석 (Textbook vocabulary analysis for Korean phonics program of 1st and 2nd graders)

  • 이다은;김혜지;신가영;설아영;배소영;김미배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.226-230
    • /
    • 2016
  • 본 연구는 초등 저학년 읽기부진아동을 위한 한글 파닉스 교육의 기반을 확립하고자 1-2학년 교과서 고빈도 어절 531개를 기반으로 자소 및 음운규칙을 분석하였다. 연구결과, 자소-음소 일치 어절을 기반으로 하였을 때 초성에서 50번 이상 나타난 자소는 /ㄱ/, /ㄹ/, /ㄴ/, /ㅅ/, /ㅎ/, /ㅈ/이다. 중성에서 50번 이상 나타난 자소는 /ㅏ/, /ㅣ/, /ㅗ/, /ㅡ/, /ㅜ/이다. 종성에서 50번 이상 나타난 자소는 /ㄹ/, /ㄴ/, /ㅇ/이다. 자소와 음소가 불일치 된 어절을 기반으로 하였을 때 가장 많이 출현하는 음운규칙은 연음화 규칙이었다. 본 연구결과를 바탕으로 교과서를 기반으로 한 한글 파닉스 교육에 유용하게 사용될 수 있을 것이다.

  • PDF

다단계 구단위화를 이용한 고속 한국어 의존구조 분석 (High Speed Korean Dependency Analysis Using Cascaded Chunking)

  • 오진영;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.103-111
    • /
    • 2010
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 CRFs(Conditional Random Fields)를 이용하여 최적의 결과를 얻는다. 58,175문장 세종 구문 코퍼스로 10-fold Cross Validation(평균 10.97어절)으로 실험한 결과 평균 86.01%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

한국어 성조 이벤트와 음향적 길이 (Correlation between tonal events and their acoustic duration)

  • 이숙향
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.383-386
    • /
    • 1998
  • 한국어의 운율구조는 발화문장(utterance), 억양구(intonational phrase), 악센트구(accentual phrase), 음운적 어절(phonological word), 음절(syllable) 순의 계층적 구조를 가지고 있다. 본 연구에서는 운율구조의 각 층에서 성조 이벤트가 얹혀지는 음절이나 또는 각 층의 운율단위말의 음절의 음향적 길이를 측정함으로써 첫째, 운율단위말의 음절의 음향적 길이 또한 계층적 순위를 보이는지 둘째, 성조 이벤트(tonal event)와 음향적 길이 사이에 높은 상관관계를 보이는지 보고자 한다. 즉, 두 가지 측면에서 길이비교가 수행되었는데 하나는 언어 보편적 현상으로 알려진 구말 장음화 현상으로써 각 층 운율적 단위의 마지막 음절의 모음 길이 비교이며 다른 하나는 억양구초 고성조가 실현되는 음절의 모음과 어절 내 모음, 그리고 고성조가 실현되는 억양구말 음절의 모음간의 길이 비교이다. 남녀 각각 200문장의 각 분절음과 운율분석을 한 후 길이에 대한 일원분산분석 실시 결과 억양구말은 악센트구말 보다 길었으나 악센트구말은 어절말과 차이를 보이지 않거나 남자 화자의 경우 오히려 짧게 나타났다. 그리고 남자화자의 경우 악센트구초 고성자가 얹혀지는 음절의 길이는 어절 내 어절말 음절을 제외한 그 외 음절과 화자에 따라 큰 차이를 보이지 않거나 그보다 조금 짧게 실현되는 것으로 나타났다. 위의 결과는 첫째, 단위말 음절 모음의 장음화는 운율적 구조의 층위에 일대일 대응을 보이지 않는 것으로 해석되며 둘째, 성조 이벤트와 그것이 실현되는 분절음의 음향적 길이와는 큰 상관관계를 보이지 않는 것으로 해석될 수 있겠다. 그러나 이러한 일반화에 대한 충분한 근거 제공을 위해서는 해당음절의 모음 길이 뿐만 아니라 초성자음의 길이간의 비교와 음절자체의 길이 비교 또한 필요한 것이며 모음길이에 대한 선행자음의 분절음적 영향 고려가 수반되어야 할 것으로 보인다. 다음 내용을 정리해 보고자 한다.리해 보고자 한다.rc$ 구입할 때 중점적으로 살펴보는 사항은 신선도와 순수재래종 여부, 위생상태였다. 한편 소비자가 언제나 구입할 수 없다는 의견이 85.2%나 되어 원활한 공급과 시장조성이 아직 정착되지 않고 있었다. $\bigcirc$ 현재 유통되고 있는 재래종닭은 소비자 대부분이 잡종으로 인식하고 있었으며, 재래종과 일반육계와의 구별은 깃털색, 피부색, 정강이색등 외관상으로 구별하고 있었다. 체중에 대한 반응은 너무 작다는 의견이었고, 식품으로의 인식도는 비교적 고급식품으로 인식하고 있다. $\bigcirc$ 재래종닭고기의 브랜드화에 대한 견해는 젊고 소득이 높은 계층에서 브랜드화의 필요성을 강조하고 있다. $\bigcirc$ 재래종달걀의 소비형태는 대부분의 소비자가 좋아하였으나 아직 먹어보지 못한 응답자가 많았다. 재래종달걀의 맛에 대해서는 고소하고 독특하여 차별성을 느끼고 있었다. $\bigcirc$ 재래종달걀의 구입장소는 계란판매점(축협.농협), 슈퍼, 백화점, 재래닭 사육 농장등 다양하였으며 포장단위는 10개를 가장 선호하였고, 포장재료는 종이, 플라스틱, 짚의 순으로 좋아하였다. $\bigcirc$ 달걀의 가격은 200원정도를 적정하다고 하였으며, 크기는 (평균 52g)는 가장 적당하다고 인식하고 있으며, 난각색은 대부분의 응답자가 갈색을 선호하였다. $\bigcirc$ 재래종달걀의 구입시 애로사항은 믿을수 없고, 구입장소를 몰라서, 값이 싸다 등이었고, 앞으로 신뢰할 수 있고 위생적인 생산 및 유통체계가 확립될 경우 더 많이 소비하겠다는 의견이었다. $\bigcirc$ 재래닭 판매업소(식당)의 판매형태는 66.7%인 대부분의 업소가 잡종과 개량종 유색닭을 판매하고 있었으며, 1개 업소에서 1일 판

  • PDF

외국어로서의 영어 구문 중의성 해결 과정 (Processing of the Syntactic Ambiguity Resolution in English as a Foreign Language)

  • 정유진;이윤형;황유미;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.261-266
    • /
    • 2000
  • 글을 이해하기 위해서는 어휘와 어휘간의 연결 및 전체 구조를 아는 것이 필요하다. 이는 비단 한국어뿐만 아니라 영어나 기타 다른 외국어에서도 마찬가지일 것이다. 본고는 두 가지를 고찰하기 위해 진행되었는데 우선 외국어로서 영어를 처리하는데 발생하는 구문적 중의성을 해결하는데 Garden Path Sentence(GPS), Late Closure(LC), PP의 세 문형에 따라 어떻게 해결하는지 알아보기 위한 것이다. 그리고 각 문형의 중의적 어절에서의 반응과 애매성 해소 어절에서의 반응에 따라 sysntactic module이 작용하는 것인지 알아보고자 한다. 예를 들어 "The boat floated down the streams sank"란 Garden Path 문장이 제시된 경우에 독자는 "sank"란 어휘가 제시되기 전까지 "floated"를 동사로 생각하게 되나 다음에 본동사인 "sank"가 제시될 경우 문장의 해석에 혼란을 갖게 될 것이다. 예문에서 "floated"가 문장에서 어떤 역할을 하는지 결정하는 것은 "sank"를 보고서야 가능하다. 이런 구문적 중의성을 해결하는 방식을 알아보기 위해 어절 단위로 제시된 자극을 읽는 자기 조절 읽기 과제(self-paced reading task)를 사용하였다. 각 어절을 읽는데 걸리는 시간을 측정한 실험 결과 GPS, PP, LC 모두 중의성을 지닌 영역이 중의성을 해소한 후와 각각 유형적으로 큰 차이가 없는 것으로 나타났다. 다만 GPS, CGPS, PP와 CPP는 어절 후반으로 갈수록 반응시간이 짧아졌다. 이는 우리나라 사람의 경우 외국어인 영어의 구문 중의성 해소는 구문 분석 단원(syntactic module)에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.많았다(P<0.05).조군인 Group 1에서보다 높은 수준으로 발현되었다. 하지만 $12.5{\;}\mu\textrm{g}/ml$의 T. denticola sonicated 추출물로 전처리한 Group 3에서는 IL-2와 IL-4의 수준이 유의성있게 억제되어 발현되었다 (p < 0.05). 이러한 결과를 통하여 T. denticola에서 추출된 면역억제 단백질이 Th1과 Th2의 cytokine 분비 기능을 억제하는 것으로 확인 되었으며 이 기전이 감염 근관에서 발견되는 T. denticola의 치수 및 치근단 질환에 대한 병인기전과 관련이 있는 것으로 사료된다.을 보였다. 본 실험 결과, $Depulpin^{\circledR}은{\;}Tempcanal^{\circledR}와{\;}Vitapex^{\circledR}$에 비해 높은 세포 독성을 보여주공 있으나, 좀 더 많은 임상적 검증이 필요할 것으로 사료된다.중요한 역할을 하는 것으로 추론할 수 있다.근관벽을 처리하는 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에 증착된 막의 업자 크기가 작을 수록 클 것으로 여겨진다. 그리고 환경의 의미의 차이에 따라 경관의 미학적 평가가 달라진 것으로 나타났다.corner$적 의도에 의한 경관구성의 일면을 확인할수 있지만 엄밀히 생각하여 보면 이러한 예의 경우도 최락의 총체적인 외형은 마찬가지로 $\ulcorner$순응$\lrcorner$의 범위를 벗어나지 않는다. 그렇기 때문에도 $\ulcorner$순응$\lrcorner$$\ulcorner$표현$\lrcorner$의 성격과 형태를 외형상으로 더욱이 공간상에서는 뚜렷하게 경계

  • PDF