• 제목/요약/키워드: 문맥정보

검색결과 660건 처리시간 0.03초

XML기반의 대화 메시지 설계 (Design of XML-based Conversational Messages)

  • 김경덕
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.574-576
    • /
    • 2002
  • 본 논문에서는 실시간 대화 행위에서 XML기반 메시지를 이용하여 대화 행위의 체계적 표현을 위한 XML기반 대화 메시지를 설계한다. 설계되는 XML기반 메시지는 대화 문맥의 구분과 문맥 흐름의 표현과 메시지의 다양한 스타일을 지원한다. 또한, 메시지가 XML을 기반으로 작성됨으로써 태그의 확장에 따라 다양한 대화를 효율적으로 표현하는 환경을 지원할 수 있다. 제안하는 XML기반 대화 메시지는 실시간 대화 행위를 위한 대화 메시지의 프로토타입이다. 응용 분양로는 헙업 작업에서 정보의 전달 및 공유, 온라인 게임에서 메시지의 시각적 효과의 지원, 모바일 메신저에서 미디어의 전송 및 표현 방법의 지원, 커뮤니티에서 사회적 행위의 지원 등이다

  • PDF

한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템 (Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature)

  • 황영숙;박봉래;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 1997
  • 지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

  • PDF

문맥 및 사용 패턴 정보를 이용한 음성인식의 성능 개선 (Performance Improvement of Speech Recognition Using Context and Usage Pattern Information)

  • 송원문;김명원
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.553-560
    • /
    • 2006
  • 최근 음성인식에서는 잡음환경에서 좀 더 신뢰성 있는 결과를 얻기 위해 인식 결과 도출 단계에서 여러 가지 정보의 내용들을 융합하거나 이전 인식 결과의 후처리를 통하여 성능을 향상시키는 방법들이 연구되고 있다. 본 논문에서는 잡음 환경에서의 인식률 하락을 보완하기 위해 개인 모바일 기기를 위한 음성 명령어 인식에서 사용자의 사용패턴과 문맥 정보를 사용하는 방법을 제안한다. 기본 인식 결과를 보정하기 위해서 현재 명령어를 발화하기 이전에 사용자가 사용한 순차적 명령어 패턴을 사용하였다. 또한 문맥 정보를 위해서는 사용중인 기기의 현재 기능과 발화된 명령어간의 연관성을 사용하였다. 실험을 통해 제안한 방법이 기본 인식 시스템에서 발생한 오인식의 약 50%를 수정하였음을 보였으며 이로써 제안한 방법의 타당성을 검증하였다.

용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구 (A Study on Improving the Performance of Document Classification Using the Context of Terms)

  • 송성전;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.205-224
    • /
    • 2012
  • 자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

분류 오류 최소화를 위한 클러스터링 기법 (A New Clustering Method for Minimum Classification Error)

  • 허경용;김성훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.1-8
    • /
    • 2014
  • 클러스터링은 대표적인 비교사 학습 방법의 하나로 균일한 특성을 가지는 데이터를 군집으로 묶기 위해 사용된다. 균일한 특성을 가지는 데이터 부분집합을 문맥으로 정의하고 문맥 내에서 국부적으로 분류를 행하는 융합 방법이 사용되고 있지만 클러스터링은 비교사 학습 방법이라는 한계로 인해 클러스터링 결과로 만들어지는 문맥이 분류에 있어 최선임을 보장하기 어렵다. 이 논문에서는 생성된 클러스터를 문맥으로 가정하고 각 문맥에서 분류를 시행하는 경우 최소의 오류를 보일 수 있는, 분류를 고려한 클러스터링 기법을 제안한다. 제안하는 방법은 선형 판별 분석에서와 유사하게 클러스터 내 동일한 클래스에 속하는 데이터 쌍은 작은 거리 값을, 서로 다른 클래스에 속하는 데이터 쌍은 큰 거리 값을 가지도록 하기 위한 제약 조건을 적용하여 분류 오류를 줄이도록 하였다. 제안한 방법의 실효성은 실험 결과를 통해 확인할 수 있다.

BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템 (Korean Contextual Information Extraction System using BERT and Knowledge Graph)

  • 유소엽;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.123-131
    • /
    • 2020
  • 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서 좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의 한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

한국어 소음속말인지에 나타나는 예측성 효과 (Predictability effects on speech perception in noise (SPIN) in Korean)

  • 이선영
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.129-157
    • /
    • 2016
  • 본 연구는 한국어의 소음속말인지(Speech perception in noise, SPIN)에 대하여 알아 보았다. 영어의 SPIN 테스트와 비슷한 형식을 채택하여 새로운 한국어 SPIN 테스트를 개발하였다. 예측성 효과와 소음효과, 이 둘의 상호작용에 대하여 알아봄으로써 기존의 영어에 기반을 둔 연구에서 발견한 것들을 재확인하고자 하였다. 새로운 한국어 SPIN 테스트를 사용하여 14명의 성인 한국인을 대상으로 한 실험 결과는 이전 연구들이 발견한 사항들을 다시 한 번 입증하였다. 첫째, 참여자들의 대체적인 SPIN 수행능력은 상대적으로 고소음 보다 저소음환경에서 더 나았다. 둘째, 문맥상 비교적 예측하기 쉬운 단어들이 예측하기 어려운 단어들보다 특히 고소음 환경에서 더 정확히 인지되었다. 이러한 결과는 청자들이 두 가지 종류의 정보, 즉 음성적 정보와 문맥적 정보를 말인지에 적극적으로 사용한다는 것을 의미하는 것으로 해석할 수 있다. 소음으로 인해서 말소리의 음성적인 특징이 약해졌을 때 청자들은 말소리를 처리하기 위해서 언어적 문맥정보를 적극적으로 이용하는 것이다. 본 연구에서 발견한 것들은 영어의 SPIN 테스트에 기반을 둔 기존 연구들에서 발견한 것과 일치한다. 게다가, 표적어의 빈도 효과에 대한 가능성을 발견하였는데, 이는 한국어의 이 분야에 대한 더 다양하고 활발한 연구가 있어야 함을 시사한다.

  • PDF

은닉 마르코프 모델을 이용한 두단계 한국어 품사 태깅 (Two-Level Part-of-Speech Tagging for Korean Text Using Hidden Markov Model)

  • 이상주;임희석;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.305-312
    • /
    • 1994
  • 품사 태깅은 코퍼스에 정확한 품사 정보를 첨가하는 작업이다. 많은 단어는 하나 이상의 품사를 갖는 중의성이 있으며, 품사 태깅은 지역적 문맥을 이용하여 품사 중의성을 해결한다. 한국어에서 품사 중의성은 다양한 원인에 의해서 발생한다. 일반적으로 동형 이품사 형태소에 의해 발생되는 품사 중의성은 문맥 확률과 어휘 확률에 의해 해결될 수 있지만, 이형 동품사 형태소에 의해 발생되는 품사 중의성은 상호 정보나 의미 정보가 있어야만 해결될 수 있다. 그리나, 기존의 한국어 품사 태깅 방법은 문맥 확률과 어휘 확률만을 이용하여 모든 품사 중의성을 해결하려 하였다. 본 논문은 어절 태깅 단계에서는 중의성을 최소화하고, 형태소 태깅 단계에서는 최소화된 중의성 중에서 하나를 결정하는 두단계 태깅 방법을 제시한다. 제안된 어절 태깅 방법은 단순화된 어절 태그를 이용하므로 품사 집합에 독립적이면, 대량의 어절을 소량의 의사 부류에 사상하므로 통계 정보의 양이 적다. 또한, 은닉 마르코프 모델을 이용하므로 태깅되지 않은 원시 코퍼스로부터 학습이 가능하며, 적은 수의 파라메터와 Viterbi 알고리즘을 이용하므로 태깅 속도가 효율적이다.

  • PDF

함수 요약을 이용한 모듈단위 포인터분석 (A Modular Pointer Analysis using Function Summaries)

  • 박상운;강현구;한태숙
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.636-652
    • /
    • 2008
  • 본 논문에서는 업데이트 기록에 기반한 모듈단위 포인터 분석 알고리즘을 제안한다. 여기서 모듈이란 상호 재귀적인 함수들의 집합을 의미하며, 모듈단위 분석이란 한 모듈을 분석 시에 다른 모듈의 소스코드가 필요하지 않는 분석을 의미한다. 일반적으로 이러한 형태의 분석은 분석 대상 모듈의 호출 문맥을 알 수 없는 상태에서 분석을 수행하여야 하기 때문에, 프로그램의 흐름 또는 호출 문맥에 관련하여 분석의 정확도를 잃을 수 있다. 본 논문에서는 업데이트 기록이라 이름지어진 모듈단위 분석 공간을 고안하여, 프로그램 문맥과 흐름에 민감한 정확도를 가지는 모듈단위 포인터 분석 방법을 제안한다. 업데이트 기록은 함수의 호출 문맥에 독립적으로 메모리 상태를 요약할 수 있을 뿐만 아니라, 메모리 반응이 일어난 순서에 관한 정보를 유지할 수 있다. 업데이트 기록의 이러한 특성은 모듈단위 분석을 정형화하는데 효과적으로 사용되었을 뿐만 아니라, 분석의 정확도를 높이기 위해 죽은 메모리 반응 또는 관련된 별칭 문맥을 구분하는 데에도 효과적으로 사용될 수 있었다.

어절 N-gram을 이용한 문맥의존 철자오류 교정 (Context-sensitive Spelling Error Correction using Eojeol N-gram)

  • 김민호;권혁철;최성기
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1081-1089
    • /
    • 2014
  • 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉘며, 이중 통계적 오류 교정 방법을 중심으로 연구가 진행되었다. 통계적 오류 방법은 문맥의존 철자오류 문제를 어의 중의성 해소 문제로 간주한 방법으로서, 교정 대상 어휘와 대치 후보 어휘로 이루어진 교정 어휘 쌍을 문맥에 따라 분류하는 방법이다. 본 논문에서는 본 연구진의 기존 연구 결과인 교정 어휘 쌍을 이용한 확률 모델의 성능 향상을 위해 어절 n-gram 모델을 기존 모델에 결합하는 방법을 제안한다. 본 논문에서 제안하는 결합 모델은 각 모델을 통해 계산된 문장의 확률을 보간(interpolation)하는 방법과 각각의 모델을 차례대로 적용하는 방법이다. 본 논문에서 제안한 두 가지 결합 모델 모두 기존 모델이나 어절 n-gram만 이용한 모델보다 높은 정확도와 재현율을 보인다.