• 제목/요약/키워드: Lexical processing

검색결과 144건 처리시간 0.019초

정규문법과 동등한 일반화된 이진 이차 재귀 신경망 (Generalized Binary Second-order Recurrent Neural Networks Equivalent to Regular Grammars)

  • 정순호
    • 지능정보연구
    • /
    • 제12권1호
    • /
    • pp.107-123
    • /
    • 2006
  • 이 논문은 정규문법과 동등한 의미를 가지는 일반적인 이진 이차 재귀 신경망(Generalized Binary Second-order Recurrent Neural Networks: GBSRNN)의 구조 및 학습 방법을 제안하며 이를 이용하여 정규언어를 인식하는 어휘분석기 구현을 소개한다. GSBRNN는 성분들의 이진값 표현으로 정규문법과 동치인 모든 표현에 대하여 하드웨어로 표현할 수 있는 방법을 제공하며 정규 문법과의 구조적 관련성을 보여준다. 정규문법에서 심볼들의 개수 m, 비단말 심볼의 개수 p, 단말 심볼의 개수 q, k인 문자열이 입력된다고 할 때, GBSRNN의 크기는 $O(m(p+q)^2)$ 이고 병렬처리 시간은 O(k)이며 순차처리 시간은 $O(k(p+q)^2)$이다.

  • PDF

한국어 모바일 대화형 에이전트 시스템 (A Korean Mobile Conversational Agent System)

  • 홍금원;이연수;김민정;이승욱;이주영;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.263-271
    • /
    • 2008
  • 본 논문에서는 한국어 정보처리 기술을 사용한 모바일 환경의 대화형 에이전트 시스템에 대해 논한다. 대화형 에이전트 시스템 구축의 목적은 인간 사용자와 시스템 에이전트간의 자연어 인터페이스를 제공하여 보다 편리한 상호작용을 가능하게 하는 데 있다. 모바일 환경의 대화형 에이전트를 구축하기 위해서는 구어체 발화에 특화된 다양한 언어 처리 및 언어 이해 요소들이 필요하다. 본 시스템은 입력 문장의 오류처리, 형태소 분석 및 품사 태깅, 양태 분석, 논항 인식 및 의미프레임 생성, 그리고 유사 발화 검색 및 응답 생성으로 구성된다. 주어진 사용자 발화에 적절한 응답을 생성하기 위해서 본 시스템은 사용자 발화와 예제 발화 간의 어휘적, 통사/구문적, 의미적 유사도 정보를 활용하여 예제기반 응답 검색을 수행한다.

  • PDF

어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상 (Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier)

  • 최원종;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF

TTS 적용을 위한 음성합성엔진 (Speech syntheis engine for TTS)

  • 이희만;김지영
    • 한국통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1443-1453
    • /
    • 1998
  • 본 논문은 컴퓨터에 입력된 문자정보를 음성정보로 변환하기 위한 음성합성엔진에 관한 것이며, 특히 명료성의 향상을 위해 파형처리 음성합성방식을 이용한다. 음성합성엔진은 컴맨드 스트림의 제어에 따라 자연성의 향상을 위한 피치조절, 길이 및 에너지 등을 제어하며 음성합성단위로서 반음절을 사용한다. 엔진에서 사용 가능한 컴맨드를 프로그램하여 음성합성엔진에 입력함으로서 음성을 합성하는 빙식은 구문분석, 어휘분석 등의 하이레벨과 파형의 편집 가공 등의 로우레벨을 완전 분리하므로 시스템의 융통성과 확장성을 높인다. 또한 TTS시스템의 적용에 있어 각 모듈을 객체/컴포넌트(Object/Component)로 각 모듈이 상호 독립적으로 작동되도록 하여 쉽게 대체가 가능하다. 하이 레벨과 로우 레벨을 분리하는 소프트웨어 아키택처는 음성합성 연구에 있어 각각 여러 분야별로 독립적으로 연구수행이 가능하여 연구의 효율성을 높이며 여러 소프트웨어의 조합사용(Mix-and-Match)이 가능하여 확장성과 이식성을 향상시킨다.

  • PDF

한국어 어휘의미망 "KorLex 1.5"의 구축 (Construction of Korean Wordnet "KorLex 1.5")

  • 윤애선;황순희;이은령;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.92-108
    • /
    • 2009
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목받고 다양한 방식으로 활용되고 있다. 이 논문은 PWN을 참조 모텔로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex는 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

후기 한국어-영어 이중언어화자의 자소-음소 변환 규칙에 따른 영어 규칙성 효과 (Grapheme-to-Phoneme Conversion Regularity Effects among Late Korean-English Bilinguals)

  • 김다희;백연지;류재희;남기춘
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.323-355
    • /
    • 2015
  • 후기 한국어-영어 이중언어화자의 자소-음소 변환규칙(grapheme to phoneme conversion rule, GPC 규칙)에 따른 영어 규칙성 효과(regularity effect)가 단어수준과 하위단어수준에서 나타나는지 알아보기 위해 단어명명과제, 각운판단과제, 음소제거과제를 진행하였다. 전체 단어수준(whole word level)에서의 규칙 양상을 살펴보기 위해, [1] 영어단어명명과제(English word naming task)를 사용하였고, 단어 단위보다 하위 단계에서의 규칙성 효과를 알아보기 위해 [2] 라임판단 과제(rhyme judgement task)와 음소수준(phoneme level)에서의 과제인 [3] 음소탈락과제(phoneme deletion task)를 사용하였다. 실험 참가자들은 세 종류의 과제를 모두 수행하였고, 총 43명의 후기 이중언어화자가 실험에 참가하였다. 실험결과, 세 과제 모두에서 규칙성 효과가 나타나 한국어-영어 이중언어화자가 영어(L2) 단어 처리 시 GPC 규칙을 적극적으로 활용하고 있다는 사실을 확인하였다. 사후분석으로써 세 과제 사이의 상관분석을 진행한 결과, 단어명명과제와 라임판단과제 간 상관이 가장 높게 나타났다. 비록 영어 모국어 화자의 이전 연구결과와는 달리 라임판단과제와 단어읽기과제 간 상관이 높게 나타났지만, 이는 실험 참가자의 L2 능숙도가 모국어화자만큼 높지 않았기 때문인 것으로 보인다. 본 연구는 후기 한국어-영어 이중언어화자가 영어 GPC 규칙을 사용하여 영어단어읽기 처리를 하고 있음을 확인하였다.

치매환자 담화분석의 최근 연구동향 : 과제, 전사 및 측정요인 (Recent Research Trends in Dementia Discourse : Tasks, Transcription and Measures)

  • 김보선;김향희
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.351-363
    • /
    • 2015
  • 담화분석은 치매환자의 발화특성을 알아보거나, 환자군을 변별하는 데 있어서 그 효용성이 입증되었다. 그러나 기존의 담화연구들에서 활용된 과제, 전사법, 측정요인들이 서로 상이하므로, 체계적이고 일관적인 분석이 이루어지지 않아 해석을 도출하는데 어려움이 있다. 본 연구는 치매환자의 담화과제, 전사법, 측정요인들을 조사하여 향후 담화분석에 도움이 되고자 하는 목적으로 수행되었다. 이에, 스코퍼스(Scopus) 데이터베이스를 통해 2005년부터 2014년도까지 치매 환자의 담화를 분석한 연구들이 조사되었다. 그 결과, 첫째, 치매환자를 대상으로 가장 많이 쓰인 담화과제는 '주제에 대해 이야기하기'이었다. 둘째, 전사과정에서 일관된 전사규약(transcription conventions)을 적용하는 경우, 좀 더 신뢰성 있는 전사자료를 얻을 수 있었다. 셋째, 담화측정요인들은 담화처리모델에 따라 통일성, 응집성, 생산성, 명제 통사 사전분석, 유창성의 영역들로 범주화되며, 각 범주는 담화처리단계(즉, 개념형성단계, 명제처리단계, 자연언어단계)에 속하였다. 결론적으로, 향후의 담화연구는 치매유형 및 특징에 따라 담화과제를 선정하고, 분석의 신뢰성을 위해 일관된 전사규약을 적용해야 할 것이다. 또한, 담화처리이론에 바탕을 둔 측정을 통해, 담화연구의 해석이 체계적으로 이루어지는 것이 바람직하다고 할 수 있다.

한글 단어 재인에서 음절 전위 효과의 재검토: 표기 처리와 형태소 처리의 영향 분석 (Revisiting the Effect of Syllable Transposition in Korean Word Recognition: Disentangling Orthographic and Morphological Influences)

  • 배성봉;이창환
    • 인지과학
    • /
    • 제35권3호
    • /
    • pp.161-185
    • /
    • 2024
  • 문자 전위 효과는 단어 내 문자의 위치 부호화가 고정적인지 아니면 유동적인지를 규명하는 데 중요한 역할을 한다. 한국어 단어 재인에서 음절은 핵심적인 단위이지만, 음절 전위 효과에 대한 기존 연구들은 일관된 결과를 보이지 않는다. 이는 한글 단어 재인에서 음절 전위 효과의 메커니즘이 아직 충분히 이해되지 않았음을 나타낸다. 본 연구는 한글 표기 음절이 표기 단위이면서 동시에 형태소 단위로 기능한다는 점에 주목하여, 표기 처리와 형태소 처리의 영향을 분리하여 음절 전위 효과를 재검토하였다. 이를 위해 한글 표기 2음절 단어를 사용한 차폐 점화 어휘 판단 과제를 이용한 두 개의 실험을 진행했다. 실험 1에서는 고유어, 한자어, 외래어를 대상으로 음절 전위 효과를 검토해 어종의 영향을 측정했고, 실험 2에서는 단일어와 합성어를 활용해 형태소/의미적 처리가 음절 전위 효과에 미치는 영향을 직접적으로 비교했다. 실험 1과 2의 결과는 모두 2음절 단어에서 유의미한 음절 전위 효과를 분명하게 보여주었으며, 단어의 어종이나 합성성 여부에 관계없이 이 효과는 일관되게 관찰되었다. 이는 형태소/의미적 요인보다는 표기 처리가 한국어 단어 재인에서 음절 전위 효과를 주도한다는 것을 시사한다. 결과적으로, 본 연구는 한글 단어 재인의 초기 단계에서 음절 위치의 부호화가 유동적임을 보여주는 동시에, 음절 전위 효과가 의미 처리가 아니라 지각적인 표기 기반 처리에 의해 발생한다는 것을 의미한다.

한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템 (Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature)

  • 황영숙;박봉래;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 1997
  • 지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

  • PDF

A Natural Language Question Answering System-an Application for e-learning

  • Gupta, Akash;Rajaraman, Prof. V.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.285-291
    • /
    • 2001
  • This paper describes a natural language question answering system that can be used by students in getting as solution to their queries. Unlike AI question answering system that focus on the generation of new answers, the present system retrieves existing ones from question-answer files. Unlike information retrieval approaches that rely on a purely lexical metric of similarity between query and document, it uses a semantic knowledge base (WordNet) to improve its ability to match question. Paper describes the design and the current implementation of the system as an intelligent tutoring system. Main drawback of the existing tutoring systems is that the computer poses a question to the students and guides them in reaching the solution to the problem. In the present approach, a student asks any question related to the topic and gets a suitable reply. Based on his query, he can either get a direct answer to his question or a set of questions (to a maximum of 3 or 4) which bear the greatest resemblance to the user input. We further analyze-application fields for such kind of a system and discuss the scope for future research in this area.

  • PDF