• 제목/요약/키워드: 단어 오류

검색결과 213건 처리시간 0.029초

Word2Vec 모델을 활용한 한국어 문장 생성 (Generating Korean Sentences Using Word2Vec)

  • 남현규;이영석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

Word2Vec 모델을 활용한 한국어 문장 생성 (Generating Korean Sentences Using Word2Vec)

  • 남현규;이영석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

원-패스 전략을 사용하는 미분절어를 위한 다중-경로 LR 파싱 (Multi-path LR parsing for nonsegmental words using one-pass strategy)

  • 이기오;이응석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.146-154
    • /
    • 1994
  • 한국어는 단어들 사이에 공백이 없는 미분절어이기 때문에, 한국어를 분석하기 위해서는 단어의 경계를 식별하는 분절이 선행되어야 한다. 분절은 쉽지 않은 과정이고 잘못된 분절은 구문분석, 의미 분석 단계에서 심각한 오류를 유발하기 때문에 형태소 분석의 중요한 작업중의 하나가 되어왔다. 기존의 한국어 분석 시스템들은 분절의 어려움으로 인하여 입력 문자열의 끝까지 읽은 후, 우에서 좌로 분석하는 two-pass 전략이나 단어들 사이에 공백을 삽입하여 처리하는 방법을 사용하였다. 또한 이 시스템들은 형태소 분석이 완결된 후, 파서에게 결과를 전달하는 순차적인 전략을 사용하였다. 본 논문은 영어의 분석과 같이 형태소 분석 동안에 파싱을 할 수 있는 one-pass 전략을 사용하여 한국어를 효율적으로 처리하는 모델을 제안한다. 이를 위해 형태소 분석 방법으로써 확장된 최장일치법을 제시하며, 위 방법에서 생성되는 문제점인 다중-범주 구를 처리하기 위하여 다중-경로 LR 파싱을 제시한다.

  • PDF

구문형태소를 이용한 색인어 추출 (Index Extraction Using Syntactic Morpheme)

  • 황이규;이근용;김남수;이용석
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

한국어 다(多)음절 단어재인에서의 어휘접근단위 (Unit of Lexical Access in Korean Polysyllabic Word Recognition)

  • 임형욱;임희석;권유안;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.229-231
    • /
    • 2004
  • 본 연구는 다(多)음절 한국어 단어재인에서의 어휘접근단위(unit of lexical access)를 알아보고자 했다. 이를 위해 Taft(1987)가 영어 어휘접근단위를 알아보고자 했을 때 사용한 실험 패러다임을 이용하였다. 실험 결과 반응시간에서는 조건간 통계적으로 유의미한 차이를 보이지 않았지만, BOSS 조건의 반응시간이 짧은 경향성을 보였고, 반응률에 있어서도 BOSS를 지지하는 결과를 보여주었다. 물론, 반응 오류가 많은 등 Taft(1987)의 패러다임을 한국어에 적용하기에 부적절했던 점이 있었지만, 적어도 다음절 단어 어휘접근 시 BOSS가 역할을 하고 있다는 것은 알아 볼 수 있었다.

  • PDF

구문형태소를 이용한 색인어 추출 (Index Extraction Using Syntactic Morpheme)

  • 황이규;이근용;김남수;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

연결 성분 간 간격 측정에 의한 필기체 수표 금액 문장에서의 단어 추출 (Word Separation in Handwritten Legal Amounts on Bank Check by Measuring Gap Distance Between Connected Components)

  • 김인철
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.57-62
    • /
    • 2004
  • 본 논문에서는 연결 성분간의 공간적 간격에 기반하여 수표 영상 내의 필기체 문장 금액에서 단어를 효율적으로 추출하기 위한 방법을 제안한다. 인접한 연결 성분간의 거리측정을 위한 기존의 방식들은 과대추정 또는 과소추정 문제로 인한 단어 분리 오류를 초래할 수 있으나 본 논문에서는 이러한 문제를 줄이기 위해 각 측정 방식들을 수정 보완하였다. 또한 본 논문에서는 서로 다른 형태의 세 가지 거리 측정법들을 효과적으로 결합하여 각 개별 측정법이 가지는 단점을 상호 보완하고 전체 단어 추출 성능을 좀더 향상시킬 수 있는 4-클래스 군집화에 기반한 결합 방법을 새로이 제안하였다. 분장 금액에 대한 단어 추출 실험 결과로부터 수정된 각 거리 측정법이 대응되는 기존의 측정법에 비해 2-3% 정도 향상된 단어 분리율을 보임을 확인하였다. 또한 제안된 4-클래스 군집화에 기반한 결합 방식은 각 측정 방식에서 개별적으로 발생하는 에러뿐만 아니라 두 개의 방식에서 동시에 나타나는 에러도 효율적으로 감소시킴으로서 전체 단어 분리 성능을 향상 시킬수 있었다.

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

영작문 자동 채점 시스템에서의 중복 보고 오류 제거를 통한 성능 향상 (Accuracy Improvement of an Automated Scoring System through Removing Duplicately Reported Errors)

  • 이현아;김지은;이공주
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.173-180
    • /
    • 2009
  • 영어 작문 자동 채점 시스템은 수험자가 작성한 영작문을 사람의 개입 없이 시스템이 처리하여 점수나 피드백을 줄 수 있는 시스템이다. 본 논문에서 개발한 영작문 자동 채점 시스템은 단어 단계, 구문 단계, 의미 단계의 세 단계 처리 과정을 통해서 오류를 탐지하고 탐지된 오류 개수를 기반으로 채점 점수를 결정한다. 이와 같이 독립적인 세 단계의 처리 과정에서 오류를 탐지하므로 동일한 오류 현상에 대해 서로 다른 단계에서 서로 다른 이름으로 오류를 탐지하는 경우가 발생할 수 있다. 이는 결과적으로 전체 시스템의 채점 점수의 정확도를 저하시키는 원인이 된다. 본 논문에서는 동일한 오류 현상에 대해 서로 다른 단계에서 탐지된 오류 쌍을 '중복 보고 오류'라고 정의한다. 본 논문에서는 중복 보고 오류를 찾는 방법을 제안하고 중복 보고 오류 제거를 통해 영작문 자동 채점 시스템의 채점 점수를 향상시킬 수 있음을 보인다.

필기체 수표 금액 문장에서의 단어 분리를 위한 공간적 간격 추정 (Spatial Gap Estimation for Word Separation in Handwritten Legal Amounts on BAnk Check)

  • 김인철;김경민
    • 한국정보통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.1096-1101
    • /
    • 2005
  • 본 논문에서는 수표 영상 내의 필기체 문장 금액을 개별 단어로 분리하기 위해 연결 성분 간의 공간적 간격을 효과적으로 측정하는 방법을 제안하였다. 기존의 간격 측정 방법들은 과대추정 또는 과소추정과 같은 문제를 내포하고 있어 무제약적 필기 스타일에 의한 문자의 왜곡과 필기 공간의 제약으로 인한 연결 성분 간 중첩 및 접촉, 그리고 단어 간 또는 문자 간 간격의 불규칙성이 심하게 나타나는 문장 금액에 적용하는데 많은 어려움을 가진다. 본 논문에서는 기존의 측정 방식들을 수정 보완하여 측정 과정에서의 오류를 줄임으로써 단어 분리 성능을 향상시키고자 하였다. 단어 분리 실험 결과로부터 수정된 각 거리 측정법이 대응되는 기존의 측정법에 비해 $2-3\%$ 정도 향상된 단어 분리 성능을 보임을 확인하였다.