• 제목/요약/키워드: 한글 입력방식

검색결과 119건 처리시간 0.024초

내부 및 외부 확률을 이용한 의존문법의 비통제 학습 (An unsupervised learning of dependency grammar Using inside-outside probability)

  • 장두성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-137
    • /
    • 2000
  • 구문태그가 부착되지 않은 코퍼스를 사용하여 문법규칙의 확률을 훈련하는 비통제 학습(unsupervised learning) 방법의 대표적인 것이 CNF(Chomsky Normal Form)의 CFG(Context Free Grammar)를 입력으로 하는 inside-outside 알고리즘이다. 본 연구에서는 의존문법을 CNF로 변환하는 기법에 대해 논하고 의존문법을 위해 변형된 inside-outside 알고리즘을 논한다. 또한 이 알고리즘을 사용하여 실제 훈련한 결과를 보이고, 의존규칙과 구문구조 확률을 같이 사용하는 hybrid방식 구문분석기에 적용한 결과를 보인다.

  • PDF

Backward LSTM CRF를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling using Backward LSTM CRF)

  • 배장성;이창기;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.194-197
    • /
    • 2015
  • Long Short-term Memory Network(LSTM) 기반 Recurrent Neural Network(RNN)는 순차 데이터를 모델링 할 수 있는 딥 러닝 모델이다. 기존 RNN의 그래디언트 소멸 문제(vanishing gradient problem)를 해결한 LSTM RNN은 멀리 떨어져 있는 이전의 입력 정보를 볼 수 있다는 장점이 있어 음성 인식 및 필기체 인식 등의 분야에서 좋은 성능을 보이고 있다. 또한 LSTM RNN 모델에 의존성(전이 확률)을 추가한 LSTM CRF모델이 자연어처리의 한 분야인 개체명 인식에서 우수한 성능을 보이고 있다. 본 논문에서는 한국어 문장의 지배소가 문장 후위에 나타나는 점에 착안하여 Backward 방식의 LSTM CRF 모델을 제안하고 이를 한국어 의미역 결정에 적용하여 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.

  • PDF

통신어를 위한 채팅로봇 설계 (Design of Chatterbot for Internet Slangs)

  • 전길호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-157
    • /
    • 2010
  • 채팅로봇이란 인간과 기계가 서로 대화를 하는 컴퓨터 프로그램이다. 그 목표는 나와 대화를 하고 있는 상대방이 실제 인간인 것처럼 생각하도록 하는 것이다. 오늘날도 이 목표를 달성하기 위해 많은 연구자들이 노력하고 있으며, ELIZA, Julia, ALICE, 심심이 등 많은 채팅로봇이 개발되어 일반 사용자들에게 서비스를 제공하고 있다. 하지만 현재까지 개발된 많은 종류의 채팅로봇은 대부분 단순 패턴매칭 방식을 사용하고 있으며 이는 기존에 정의된 적절한 응답을 출력하는 것에 불과하다. 본 논문에서는 인터넷을 통해서 채팅할 때 사용하는 여러 형태의 통신어를 처리할 수 있는 방법을 제시하고 입력된 문장에 대해 형태소 분석과 품사부착을 통해 문장의 구조를 파악하고 분석된 구조를 토대로 모호한 문장의 패턴을 인식하여 인식률을 높이는 형태이다. 채팅로봇은 인터넷 업계에서 단순한 대화상대뿐만 아니라 특정 주제를 가진 홈페이지 또는 각종 쇼핑몰에서 다방면으로 그 활용도가 높기 때문에 성능이 높은 채팅로봇을 제작하여 사용한다면 사용자의 편의를 향상시키는 데에 큰 도움이 될 것으로 기대된다.

  • PDF

이종의 말뭉치를 활용한 자기 지도 문장 임베딩 학습 방법 (Self-supervised Learning Method using Heterogeneous Mass Corpus for Sentence Embedding Model)

  • 김성주;서수빈;박진성;박성현;전동현;김선훈;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-36
    • /
    • 2020
  • 문장의 의미를 잘 임베딩하는 문장 인코더를 만들기 위해 비지도 학습과 지도 학습 기반의 여러 방법이 연구되고 있다. 지도 학습 방식은 충분한 양의 정답을 구축하는데 어려움이 있다는 한계가 있다. 반면 지금까지의 비지도 학습은 단일 형식의 말뭉치에 한정해서 입력된 현재 문장의 다음 문장을 생성 또는 예측하는 형식으로 문제를 정의하였다. 본 논문에서는 위키피디아, 뉴스, 지식 백과 등 문서 형태의 말뭉치에 더해 지식인이나 검색 클릭 로그와 같은 구성이 다양한 이종의 대량 말뭉치를 활용하는 자기 지도 학습 방법을 제안한다. 각 형태의 말뭉치에 적합한 자기 지도 학습 문제를 설계하고 학습한 경우 KorSTS 데이셋의 비지도 모델 성능 평가에서 기준 모델 대비 7점 가량의 성능 향상이 있었다.

  • PDF

정보 검색용 다중 스레드 한국어 형태소 해석기 (A Korean Morphological Analyzer Supports Multi-Threads)

  • 최유경;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-47
    • /
    • 2001
  • 본 논문에서는 한국어 형태소 해석기에 다중 스레드 기법을 도입하여 다중 처리가 가능하도륵 하였다. 기존의 여러 형태소 해석기들은 언어 분석에만 관심이 있었기 때문에 다량의 문서를 동시에 처리하는 기능을 고려하지 않았다. 그러나 형태소 해석기가 정보 검색 시스템 분야에서 사용되기 시작하면서, 다수의 사용자가 대량의 문서를 처리해야 하는 필요성이 생겼다. 스레드 간에는 메모리 영역과 같은 자원을 공유한다. 이러한 특징 때문에 자칫하면 예상치 못한 결과가 야기될 수 있다. 따라서, 다중 스레드 기법을 사용하기 위해서는 스레드의 특징을 고려한 조치가 필요하다 기존의 한국어 형태소 해석기의 소스 코드를 분석하여 자주 사용되는 전역 변수는 하나의 구조체로 구성하였다. 그리고 이러한 전역 변수와 크기가 큰 지역 변수를 사용할 때 메모리를 동적으로 할당하였다. 또한, 파일에서 입력값을 읽어오거나 파일에 결과값을 쓰는 등 여러 스레드가 접근할 때 값이 변경될 위험이 있는 부분은 조건 변수를 이용하여 동기화 시켰다. 구현된 시스템의 검증을 위하여, 단일 스레드 방식으로 순차적인 처리를 하는 원래의 형태소 해석기와 비교 실험을 실시하였다. 35Kbyte 문서 30개를 처리하는 경우, 다중 처리가 가능한 형태소 해석기가 단일 스레드 방식의 형태소 해석기보다 처리속도가 약 12% 향상되었다.

  • PDF

벡터 양자화를 이용한 한국어 억양 곡선 생성 (Generation of Korean Intonation using Vector Quantization)

  • 안혜선;김형순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-212
    • /
    • 2001
  • 본 논문에서는 text-to-speech 시스템에서 사용할 억양 모델을 위해 벡터 양자화(vector quantization) 방식을 이용한다. 어절 경계강도(break index)는 세단계로 분류하였고, CART(Classification And Regression Tree)를 사용하여 어절 경계강도의 예측 규칙을 생성하였다. 예측된 어절 경계강도를 바탕으로 운율구를 예측하였으며 운율구는 다섯 개의 억양 패턴으로 분류하였다. 하나의 운율구는 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞, 뒤 기울기를 추출하여 네 개의 파라미터로 단순화하였다. 운율구에 대해서 먼저 운율구가 문장의 끝일 경우와 아닐 경우로 분류하고, 억양 패턴 다섯 개로 분류하여. 모두 10개의 운율구 set으로 나누었다. 그리고 네 개의 파라미터를 가지고 있는 운율구의 억양 패턴을 벡터 양자화 방식을 이용하여 분류(clusteing)하였다 운율의 변화가 두드러지는 조사와 어미는 12 point의 기본주파수 값을 추출하고 벡터 양자화하였다. 운율구와 조사 어미의 codebook index는 문장에 대한 특징 변수 값을 추출하고 CART를 사용하여 예측하였다. 합성할 때에는 입력 tort에 대해서 운율구의 억양 파라미터를 추정한 다음, 조사와 어미의 12 point 기본주파수 값을 추정하여 전체 억양 곡선을 생성하였고 본 연구실에서 제작한 음성합성기를 통해 합성하였다.

  • PDF

학습형 사용자 프로파일 기반 추천 앱 '눈치코칭_음식' 개발 (An Android App Development - 'NoonchiCoaching_Food' which has function of recommendation based on learned user-profile)

  • 이정훈;이창우;강현규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-238
    • /
    • 2016
  • 본 논문은 사기업들의 개방 데이터를 바탕으로 사용자의 과거 행동과 주변 상황정보를 토대로 사용자의 음식 기호를 맞추는 앱 어플리케이션 '눈치코칭_음식'의 설계 및 구현에 대하여 서술한다. '눈치코칭_음식'은 사용자가 쉽게 음식점을 추천 받을 수 있도록 만들어진 앱 어플리케이션으로 기존의 필터링 방식으로 사용자가 검색하는 방식의 유사한 어플리케이션들과 달리 사용자의 주변 상황과 사용자의 행동패턴 분석을 통해 문제해결에 대한 도움을 줌으로써 시간 절약을 할 수 있다. 사용자의 별도의 입력을 받지 않고 앱에서의 간단한 클릭과 나의 음식 저장과 같은 기능을 활용할 때의 주변 위치나 날씨와 같은 상황정보를 함께 저장한 후 다음 앱 사용 시기의 상황정보와 비교하여 기존 데이터를 바탕으로 사용자에게 다시금 피드백 되는 앱이다. 사용자의 행동패턴에 따라 알림 기능을 활용하기 위해서 사용자 식사 시간 설정 기능을 통해 매일 식사하는 시간에 알림 설정을 할 수 있도록 만들었다. 또한 사용자의 편의성을 위해서 음식선택 시간의 평균을 내서 해당 설정 식사시간을 추적할 수 있도록 구성하였다.

  • PDF

번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법 (An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph)

  • 김은경;최동현;고은비;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

국어 로마자 표기 자동 변환 시스템 설계 및 구현 (The design and implementation of automatic translation system for hangul's romanization)

  • 김홍섭
    • 한국컴퓨터정보학회지
    • /
    • 제2권1호
    • /
    • pp.45-54
    • /
    • 1995
  • 본 연구는 ASCII 코드중에서 잘 쓰이지 않는 코드를 반달점(ˇ)으로 할당, 글꼴을 제작하여, 사용자가 국어 로마자 표기법 기본원칙을 모르더라도 한글단어, 문장, 문서를 문자열(string)로 입력받아 알고리즘화된 음운법칙을 적용하여 소리글자로 자동 변환 후 현행 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 설계하였으며, 예외어 처리, 화면색상 및 풀다운 팝업 메뉴 방식을 지원, 마우스 활용 방식을 채택, 사용자 편리성을 제공하였으며, 다양한 서체, 글꼴 확대 및 축소, 이단ㆍ혼합 인쇄기능 등을 고려 C언어를 이용하여 구현하였다.

  • PDF

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF