• Title/Summary/Keyword: 자연 언어 처리

Search Result 430, Processing Time 0.026 seconds

Implementation of Fuzzy Steering Model with Linguistic Instruction Based Learning (LIBL기반 퍼지 조타 조작모델의 구현)

  • 박계각;서기열
    • Proceedings of KOSOMES biannual meeting
    • /
    • 2003.05a
    • /
    • pp.111-116
    • /
    • 2003
  • 최근에는 전문가의 지식과 경험정보가 데이터베이스로 구축된 전문가 시스템의 정보를 이용하여 처리된 결과를 판단하여 안전하고 효율적인 선박운항이 가능하도록 한 지능형 선박에 관한 연구가 활발하게 진행되고 있다. 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로써, 선박의 조타기를 제어하기 위한 지능형 조타 조작 모델을 구현한다. 지능형 시스템을 구현하기 위해서 자연언어를 사용하는 인간의 학습 방법에 기초한 언어지시기반학습(LIBL)기법을 적용하고. 퍼지이론을 이용하여 승선경력이 풍부한 조타수의 경험을 조사 및 분석하여 그 결과를 바탕으로 퍼지 추론에 의해 타각을 제어하기 위한 퍼지 조타 조작 모델을 구현하여 그 효용성을 살펴보았다.

  • PDF

character segmentation using histogram (히스토그램을 이용한 문자 영역 추출)

  • Kim, Jieum;Jung, Woo Young
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.173-174
    • /
    • 2012
  • 문자 영역의 추출은 명함 등 문서의 정형화된 문자 인식, 비전 기반 감시 시스템에서의 간판, 부호 등의 자연영상에서의 문자 인식 등 다양한 분야에 활용될 수 있다. 우리가 관심을 갖는 문자는 간판이나 이름표 등 다른 이에게 정보를 전달해주는 기능을 하는 것으로 그 전배경의 구분이 명확하다. 이러한 특징은 히스토그램의 변화와 관련이 되어 있으며 본 논문에서는 그 변화를 분석함으로써 문자 영역 추출 방법을 제안한다.

  • PDF

Allophonic Information Necessary for Speech Technology (음성공학을 위한 변이음 정보)

  • Lee, Ho-Young;Zhi, Min-Je;Kim, Young-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.131-139
    • /
    • 1993
  • 하나의 음소는 보통 음성환경에 따라 여러 변이음으로 실현된다. 음성합성기로 한국어의 문장을 자연스럽게 합성해 내려고 할 때나 음성인식기가 한국어의 문장을 정확하게 인식하도록 개발하고자 할 때 변이음에 관한 정보는 필수적이다. 따라서 이 논문의 목적은 음성공학에 필요한 변이음 정보를 제공하는 것이다. 이 논문에서는 음성공학에 필요한 한국어의 주오 변이음 규칙들을 간단히 논의하고 몇몇 중요한 변이음들의 음향적 특징을 논의한다.

  • PDF

Conceptual Structures of Anaphoric Expressions in English (영어 조응표현의 개념구조)

  • Jung, Mi-Ae
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.300-309
    • /
    • 1995
  • 언어표현에 대한 해석은 그 구성요소들의 통사적-어휘적 구조에 덧붙여 대명사의 동일지시를 살펴야 할 필요가 있다. 조응의 분석과 조응적 선행사를 찾기 위한 효과적인 방법을 발견하는 것이 컴퓨터 언어학(computational linguistics), 특히 자연언어 이해체계(Natural Language understanding system)에 관한 연구의 중심적인 문제라고 할 수 있다. 이 논문의 목적은 영어 조응표현을 개념구조 이론(Conceptual Structure Theory)의 개념도식(conceptual graph)에 의하여 기술함으로써 단문에서뿐만 아니라 복문, 양화구문, 그리고 담화에 이르기까지 언어 전반에 걸쳐 나타나는 동일지시성(coreferenciality)을 간단하고 일관성 있게 설명하는 것이다. 이러한 조응현상을 설명하기 위하여 필자는 개념도식상의 개념을 중심개념, 직접개념, 간접개념으로 구분하고 이들이 문맥깊이 등과 더불어 동일지시성을 설명하는데 중심적 역할을 함을 보이고자 한다.

  • PDF

Korean-English Non-Autoregressive Neural Machine Translation using Word Alignment (단어 정렬을 이용한 한국어-영어 비자기회귀 신경망 기계 번역)

  • Jung, Young-Jun;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.629-632
    • /
    • 2021
  • 기계 번역(machine translation)은 자연 언어로 된 텍스트를 다른 언어로 자동 번역 하는 기술로, 최근에는 주로 신경망 기계 번역(Neural Machine Translation) 모델에 대한 연구가 진행되었다. 신경망 기계 번역은 일반적으로 자기회귀(autoregressive) 모델을 이용하며 기계 번역에서 좋은 성능을 보이지만, 병렬화할 수 없어 디코딩 속도가 느린 문제가 있다. 비자기회귀(non-autoregressive) 모델은 단어를 독립적으로 생성하며 병렬 계산이 가능해 자기회귀 모델에 비해 디코딩 속도가 상당히 빠른 장점이 있지만, 멀티모달리티(multimodality) 문제가 발생할 수 있다. 본 논문에서는 단어 정렬(word alignment)을 이용한 비자기회귀 신경망 기계 번역 모델을 제안하고, 제안한 모델을 한국어-영어 기계 번역에 적용하여 단어 정렬 정보가 어순이 다른 언어 간의 번역 성능 개선과 멀티모달리티 문제를 완화하는 데 도움이 됨을 보인다.

  • PDF

Personalized Chit-chat Based on Language Models (언어 모델 기반 페르소나 대화 모델)

  • Jang, Yoonna;Oh, Dongsuk;Lim, Jungwoo;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.491-494
    • /
    • 2020
  • 최근 언어 모델(Language model)의 기술이 발전함에 따라, 자연어처리 분야의 많은 연구들이 좋은 성능을 내고 있다. 정해진 주제 없이 인간과 잡담을 나눌 수 있는 오픈 도메인 대화 시스템(Open-domain dialogue system) 분야에서 역시 이전보다 더 자연스러운 발화를 생성할 수 있게 되었다. 언어 모델의 발전은 응답 선택(Response selection) 분야에서도 모델이 맥락에 알맞은 답변을 선택하도록 하는 데 기여를 했다. 하지만, 대화 모델이 답변을 생성할 때 일관성 없는 답변을 만들거나, 구체적이지 않고 일반적인 답변만을 하는 문제가 대두되었다. 이를 해결하기 위하여 화자의 개인화된 정보에 기반한 대화인 페르소나(Persona) 대화 데이터 및 태스크가 연구되고 있다. 페르소나 대화 태스크에서는 화자마다 주어진 페르소나가 있고, 대화를 할 때 주어진 페르소나와 일관성이 있는 답변을 선택하거나 생성해야 한다. 이에 우리는 대용량의 코퍼스(Corpus)에 사전 학습(Pre-trained) 된 언어 모델을 활용하여 더 적절한 답변을 선택하는 페르소나 대화 시스템에 대하여 논의한다. 언어 모델 중 자기 회귀(Auto-regressive) 방식으로 모델링을 하는 GPT-2, DialoGPT와 오토인코더(Auto-encoder)를 이용한 BERT, 두 모델이 결합되어 있는 구조인 BART가 실험에 활용되었다. 이와 같이 본 논문에서는 여러 종류의 언어 모델을 페르소나 대화 태스크에 대해 비교 실험을 진행했고, 그 결과 Hits@1 점수에서 BERT가 가장 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

Loanword Recognition Using Deep Learning (심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템)

  • Park, Ho-Min;Kim, Chang-Hyun;Cheon, Min-Ah;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF

Meaning Analysis (의미 분석)

  • Lee, Gun-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.419-423
    • /
    • 2000
  • 성공적인 의사소통의 경우에 성(性)이, 이(理)와 명(命)으로 나타난 것이 같다. 진리(aletheia)가, 언어(logos)와 운명(moira)으로 나타난 것들이 일치하는 것이 성공적인 언화행위가 된다. 측정대상(melos)과 본체(ousia)가 구분되는 것은 언어와 운명의 괴리가 있을 수가 있기 때문이다. 체계적인 언어처리의 지식기반을 측정대상에 한정한다. (1) 철학의 시작은 더 옳은 언어표현의 정의(definition)로 이전의 잘못 사용된 언어처리를 대체시키는 것으로 소크라테스는 보았다. [R. Crossman] (2) 잘못을 지적하는 등에(Tabanidae)의 역할과 옮은 지식의 상기를 돕는 산파법(maieutics)이 소크라테스의 의미분석의 방법이다. [R. Crossman] (3) 언어를 통하여 진리를 추구한다는 입장(via language)애서 한 언어표현이 그 진리의 운명으로 나타남과 어긋날 때, 운명을 택하는 것은 조화 보다 더 안정의 우위를 인정하는 논리적인 입장으로 합리성 보다 실용(pragma)의 우위를 인정하는 것이다. [W. Quine] (4) 공동체의 공통규범의 추구는 그 언어 속의 공통의 형식 또는 법칙의 추구에 기초하는 것이 자연스럽다. 여기에서 그 언어사용은 그 기저의 법칙(underlying rule)에 개입한다는 입장에 기초한다. [J. Searle] (5) 진리의 언어표현과 운명적인 사태들 사이의 괴리를 처리하기 위하여 체계적인 언어표현의 대상(The Young Tableaux)과 실제(The continuum)의 구분을 수용한다. [AMS(2000)] 언어표현의 대상은 나타난 것(현)(顯)이고 실제에는 나타나지 않은 것도 있다. 이천(伊川), 명도(明道)] (6) 이 나타난 것과 나타나지 않은 것에 간격이 없다는 것(현미무간)(顯微無間)은 그 의사소통이 성공적인 것이라는 것을 말한다. 따라서 그 언어의 표현완전성(functional completeness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.

  • PDF

English Auxiliary Verb Generation for Korean-to-English Machine Translation (한영 자동 번역을 위한 보조 용언 생성)

  • Shin, Jong-Hun;Yang, Seong-Il;Seo, Young-Ae;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary (명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축)

  • Lee, Ju-Ho;Bae, Hee-Suk;Kim, Eun-Hye;Kim, Hye-Kyong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF