• 제목/요약/키워드: 어절

검색결과 471건 처리시간 0.023초

부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법 (A High-Speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words)

  • 양승현;김영섬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권3호
    • /
    • pp.290-301
    • /
    • 2000
  • 일반적으로 형태소 분석 방법은 실행시에 매 어절마다 코드 변환, 형태소 분리, 원형 복원 규칙 적용을 통한 분석 후보 생성, 사전 탐색을 통한 분석 후보의 여과 등의 절차를 거쳐 형태소 분석을 수행하기 때문에 실행 효율의 관점에서 효율적이지 못하다. 이러한 문제점을 완화시키기 위해 도입된 어절단위 기분석 사전에 의한 분석은 실행시 처리에 소요되는 계산 부하를 크게 줄일 수는 있지만 어절의 수가 사실상 무한하므로 사전의 크기 문제 때문에 완전한 처리 방법이 될 수 없다는 단점이 있다. 본 논문에서는 이상과 같은 문제점을 해결하기 위해 두가지 대비되는 방법론을 결합하여 부분 어절별로 기분석 결과를 구축하여 형태소를 분석하는 방법에 대해 기술하고 있다. 이 방법에 의하면, 형태소 분리, 원형 복원 등 형태소 분석에 필요한 계산의 대부분을 실행시에 행하지 않고 기분석 결과의 구축 시에 행함으로써 실행시 계산 부하를 크게 줄일 수 있고 불필요한 중간 결과가 생성되지 않아 사전 탐색 횟수가 크게 절감되는 효과가 있으므로, 실행 효율을 크게 개선할 수 있다. 아울러 음소별 연산을 하지 않으므로 코드 변환 등에 소요되는 계산량도 전혀 필요치 않다는 특징도 있다.

  • PDF

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

한국어의 어순 구조를 고려한 Two-Path 언어모델링 (Two-Path Language Modeling Considering Word Order Structure of Korean)

  • 신중휘;박재현;이정태;임해창
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.435-442
    • /
    • 2008
  • n-gram 모델은 영어와 같이 어순이 문법적으로 제약을 받는 언어에 적합하다. 그러나 어순이 비교적 자유로운 한국어에는 적합하지 않다. 기존 연구는 어절 간 어순의 고려가 어려운 한국어의 특성을 반영한 twoply HMM을 제안했으나, 인접 어절 간 어순 구조를 반영하지 못하였다. 본 논문에서는 용언형태소 사이에 나타나는 인접 어절 간에 어순 특성을 반영하기 위해 두 어절을 결합하는 세그먼트 단위를 정의하고, 제안한 세그먼트 단위에서 문맥에 따라 확률을 달리 추정하는 two-path 언어모델을 제안한다. 그 결과 기존 한국어 언어모델에 비해 제안하는 two-path 언어모델은 기존 연구보다 25.68% 혼잡도를 줄였으며, 어절 간에 결합이 일어나는 경계인 용언형태소에서는 94.03%의 혼잡도를 줄였다.

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

음절단위 bigram정보를 이용한 한국어 단어인식모델 (A Statistical Model for Korean Text Segmentation Using Syllable-Level Bigrams)

  • 신중호;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-260
    • /
    • 1997
  • 일반적으로 한국어는 띄어쓰기 단위인 어절이 형태소 분석의 입력 단위로 쓰이고 있다. 그러나 실제 영역(real domain)에서 사용되는 텍스트에서는 띄어쓰기 오류와 같은 비문법적인 형태도 빈번히 쓰이고 있다. 따라서 형태소 분석 과정에 선행하여 적합한 형태소 분석의 단위를 인식하는 과정이 이루어져야 한다. 본 연구에서는 한국어의 음절 특성을 이용한 형태소분석을 위한 어절 인식 방법을 제안한다. 제안하는 방법은 사전에 기반하지 않고 원형코퍼스(raw corpus)로부터의 필요한 음절 정보 및 어휘정보를 추출하는 방법을 취하므로 오류가 포함된 문장에 대하여 견고한 분석이 가능하고 많은 시간과 노력이 요구되는 사전구축 및 관리 작업을 필요로 하지 않는다는 장점이 있다. 한국어 어절 인식을 위하여 본 논문에서는 세가지 확률 모텔과 동적 프로그래밍에 기반한 인식 알고리즘을 제안한다. 제안하는 모델들을 띄어쓰기 오류문제와 한국어 복합명사 분석 문제에 적용하여 실험한 결과 82-85%정도의 인식 정확도를 보였다.

  • PDF

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

엔트로피 지도 CRF를 이용한 한국어 어절 구문태그 예측 (Eojeol Syntactic Tag Prediction of Korean Text using Entropy Guided CRF)

  • 오진영;차정원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권5호
    • /
    • pp.395-399
    • /
    • 2009
  • 본 연구에서는 의사결정나무와 Conditional Random Fields(CRFs)를 이용하여 한국어 어절 구문태그를 예측하는 시스템에 대해서 설명한다. 기계학습에서 자질의 선택은 작성자의 직관에 의해서 주로 이루어지는데 이는 작성자의 지식에 의존한다. 본 연구에서는 의사결정나무를 사용하여 보다 체계적으로 조합이 이루어지도록 하였다. 또한 오류 분석을 통하여 최적의 자질이 무엇인지를 파악하여 최고의 성능을 보이도록 하였다. 실험을 통하여 본 논문에서 제안한 방법이 성능향상에 도움이 된다는 것을 확인할 수 있어 앞으로 구문 분석에 많은 도움이 될 것이라고 확신한다.

Bidirectional LSTM을 이용한 전이기반 한국어 의존 구문분석 (Transition-Based Korean Dependency Parsing using Bidirectional LSTM)

  • 하태빈;이태현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.527-529
    • /
    • 2018
  • 초기 자연언어처리에 FNN(Feedforward Neural Network)을 적용한 연구들에 비해 LSTM(Long Short-Term Memory)은 현재 시점의 정보뿐만 아니라 이전 시점의 정보를 담고 있어 문장을 이루는 어절들, 어절을 이루는 형태소 등 순차적인(sequential) 데이터를 처리하는데 좋은 성능을 보인다. 본 논문에서는 스택과 버퍼에 있는 어절을 양방향 LSTM encoding을 이용한 representation으로 표현하여 전이기반 의존구문분석에 적용하여 현재 UAS 89.4%의 정확도를 보였고, 자질 추가 및 정제작업을 통해 성능이 개선될 것으로 보인다.

  • PDF

스택-포인터 네트워크와 어절 정보를 이용한 한국어 의존 구문 파서 (Korean Dependency Parser using Stack-Pointer Network and Information of Word Units)

  • 최용석;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-18
    • /
    • 2018
  • 구문 분석은 문장의 구조를 이해하며 의미의 중의성을 해결하는 것이다. 일반적으로 한국어는 어순 배열의 자유도가 높고 문장 성분의 생략이 빈번한 특성이 있기 때문에 의존 구문 분석이 주된 연구 대상이 되어 왔다. 스택-포인터 네트워크 모델은 의존 구문 파서에 맞게 포인터 네트워크 모델을 확장한 것이다. 스택-포인터 네트워크는 각 단어에서 의존소를 찾는 하향식 방식의 모델로 기존 모델의 장점을 유지하면서 각 단계에서 파생된 트리 정보도 사용한다. 본 연구에서는 스택-포인터 네트워크 모델을 한국어에 적용해보고 이와 함께 어절 정보를 반영하는 방법을 제안한다. 모델의 실험 결과는 세종 구문 구조를 중심어 후위(head-final)를 엄격히 준수하여 의존 구문 구조로 변환한 것을 기준으로 UAS 92.65%의 정확도를 얻었다.

  • PDF

한국어 악센트구초 고성조와 음절 길이 (Relationship between accetual-phrase-initial high tone and its syllable duration in Korean)

  • 이숙향
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.184-187
    • /
    • 1998
  • 한국어의 계층적 운율구조와 음향적 길이간의 관계를 규명하고자 한다. 운율구조 계층간 비교에서 첫째, 운율단위말 음절간, 모음 길이 및 음절 길이 비교분석이 수행되었으며 둘째, 특히 본 연구의 중점적 연구대상으로서 악센트구초 고성조가 실현되는 음절과 다른 성조 이벤트가 실현되는 음절간 모음 및 음절 길이 비교 분석이 수행되었다. 일반적으로 상위 계층의 운율단위말 음절의 모음 및 음절 길이가 하위 계층에서보다 길었으나, 악센트구말 음절의 음절 길이는 어절말 음절 길이보다 짧게 나타나 계층성에서 운율 단위말 음절의 모음 또는 음절 길이는 어절말 음절 길이보다 짧게 나타나 계층성에서 운율 단위말 음절의 모음 또는 음절길이는 운율구조와 일대일 대응관계를 갖고 있지 않은 것으로 나타났다. 그리고 악센트구초 음절은 모음 길이 비교 분석에서는 가장 짧은 것으로 나타났으나 음절 길이 비교 분석에서는 피험자에 따라 악센트구말 길이와 같거나 또는 더 길게, 그리고 심지어는 어절말 길이보다 길게 나타남으로써, 첫째, 악센트 구초 고성조 음절의 초성자음으로 강자음이 많이 나타남을 간접적으로 추론할 수 있었으며, 둘째, F0 값만 상승하는 것이 아니라 길이 또한 길게 나타나 운율적으로 강한 자리임을 보여주었다.

  • PDF