• 제목/요약/키워드: 영어 문장처리

검색결과 131건 처리시간 0.031초

한국어 구문 분석과 문장 생성을 위한 범주 문법 적용의 몇 가지 원칙 (Some Application Principles of Categorial Grammars for Korean Syntactic Analysis and Sentence Generation)

  • 송도규;차건회;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-359
    • /
    • 1997
  • 주로 영어, 불어 등의 형상적 언어(configurational languages)의 구문 분석을 위해 개발된 범주 문법은 문장 구성 성분의 문장 내의 위치가 대체적으로 고정적이며 통사 기능이 그 위치로서 할당 되는 형상적 언어의 통사적인 특성에 따라 방향성의 개념을 도입하였다. 그러나 이 방향성 개념은 문장 구성 성분의 문장 내의 위치가 비교적 자유로운 한국어 등의 비형상적 언어(non-configurational languages)에 그대로 적용하기에는 많은 무리가 따른다. 심지어 형상적 언어에 적용하는 경우에도 도치나 외치된 문장 또 격리된 구조(unbounded dependency constructions)가 있는 문장들도 적절히 분석해 내지 못한다. 이런 이유로 본고에서는 범주 문법에 도입되어 있는 방향성을 재고하고 아울러 한국어 구문 분석과 문장 생성을 위한 범주 문법 적용상의 다섯 원칙을 제안한다.

  • PDF

유사구조 및 유사의미 문장 생성 방법 (Semantic and Syntax Paraphrase Text Generation)

  • 서혜인;정상근;정지수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.162-166
    • /
    • 2020
  • 자연어 이해는 대화 인터페이스나 정보 추출 등에 활용되는 핵심 기술 중 하나이다. 최근 딥러닝을 활용한 데이터 기반 자연어 이해 연구가 많이 이루어지고 있으며, 이러한 연구에 있어서 데이터 확장은 매우 중요한 역할을 하게 된다. 본 연구는 자연어 이해영역에서의 말뭉치 혹은 데이터 확장에 있어서, 입력으로 주어진 문장과 문법구조 및 의미가 유사한 문장을 생성하는 새로운 방법을 제시한다. 이를 위해, 우리는 GPT를 이용하여 대량의 문장을 생성하고, 문장과 문장 사이의 문법구조 및 의미 거리 계산법을 제시하여, 이를 이용해 가장 유사하지만 새로운 문장을 생성하는 방법을 취한다. 한국어 말뭉치 Weather와 영어 말뭉치 Atis, Snips, M2M-Movie M2M-Reservation을 이용하여 제안방법이 효과적임을 확인하였다.

  • PDF

용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE' (Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE')

  • 서영애;김영길;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

한.영 기계번역을 위한 중심어 기반 구 구조 변환 사전 (Head-based Pharse Structure Transfer Dictionary for Korean_English Machine Translation)

  • 이상조;박상규;김영택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.157-162
    • /
    • 1994
  • 한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.

  • PDF

영어 웹문서 기계번역을 위한 태그 관리기 (Tag Manager for Machine Translation of English Web Page)

  • 안동언;서진원;이영우;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-168
    • /
    • 1998
  • 영어 웹문서를 한국어로 기계번역을 하기 위해서는 웹문서에 있는 HTML 태그들을 처리하여야 한다. 본 논문에서는 웹문서의 태그들을 처리해 주는 태그 관리기를 제안한다. 태그 관리기는 영한기계번역의 대상이 되는 영어 웹문서에서 태그를 분리하고, 번역이 완료된 후에는 분리된 태그들을 올바른 위치에 복원시키는 기능을 갖는다. 태그 관리기는 태그들의 위치정보에 따른 태그들의 분류와 이를 분리하고 복원하는 기능을 가지고 태그의 내용에 따른 문장 분리기능도 가진다.

  • PDF

한영자동번역에서의 '~ㄴ것은'의 처리: 특허문서를 중심으로 (Processing '~n.ket.un' in Machine Translation: A Case Study of Patent Documents)

  • 이용훈;이숙의;류병래
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.77-88
    • /
    • 2005
  • 한영자동번역에서 '~ㄴ것은'을 포함하는 문장들은 영어로 번역하기가 용이하지 않을 뿐만 아니라 번역할 때에 많은 오류들을 야기시킨다. 이것은 이러한 문장들이 한국어 원문에 '것'과 같은 의존명사를 포함하고 있기 때문인데, 이러한 의존명사들이 한영자동번역을 어렵게 만들고 있다. 본 논문에서는 '~ㄴ것은'을 포함하는 문장들을 한영자동번역에서 처리할 수 있는 방법을 제시하고자 한다. 자동번역에는 여러 방식이 있지만, 본 논문에서는 패턴기반 자동번역의 방식을 취한다. 따라서 본 논문에서는 '${\sim}$ㄴ것은'에 대한 한영대역패턴을 어떠한 방식으로 구축하며, 또 구축된 패턴들이 어떻게 한영자동번역에 활용되는 지를 살펴볼 것이다.

  • PDF

언어적 특징을 반영한 한국어 프레임넷 확장 및 개선 (Expansion and Improvement of Korean FrameNet utilizing linguistic features)

  • 김정욱;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF

한국어 문장 임베딩의 언어적 속성 입증 평가 (A Probing Task on Linguistic Properties of Korean Sentence Embedding)

  • 안애림;고병일;이다니엘;한경은;신명철;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

주어 탈락 현상의 언어간 비교와 이론적 모색 (Null Subjects in Crosslinguistic Acquisition Data and Theoretical Implications)

  • 김영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.264-280
    • /
    • 1995
  • 한 문장의 주어가 우리말에서처럼 수의적으로 나타날 수 있는가 혹은 영어에서처럼 반드시 표면에 나타나야 하는가에 따라 공주어언어 (null-subject language)와 비공주어언어(non-null-subject language)로 분류된다. 이러한 주어 탈락 현상에 대하여 이론적으로 다양한 가설이 제기되어 왔다. 본 논문에서는 한국어의 언어 습득 자료에 나타나는 주어 탈락의 양상을 살피고, 이를 비공주어언어인 영어자료와 공주어언어인 이탈리아어, 포르투갈어, 중국어자료와 비교함으로써 궁극적으로 이론적 가설을 비교 평가하는 데 이바지하고자 한다.

  • PDF

연속 음성 인식 기법을 이용한 단어 음성 인식 (The recognition of word by continuous speech recognition technic)

  • 조영훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.91-94
    • /
    • 1998
  • 우리만은 영어와는 달리 단어를 공백으로만 구분할 수 없다. 그러므로 대용량 어휘를 갖는 연속 음성을 인식하기 위한 언어모델을 만들기가 매우 어렵다. N-gram의 언어 모델을 우리말 문장에 적용하기 위해 하나의 문장을 한 단어로 구성하여 처리하였다. 우리의 인식시스템을 평가하기 위하여 시스템 공학 연구소에서 제공한 음성을 대상으로 인식률을 계산하였다. 단어의 종류는 452개이며 한명이 이 단어들을 2번씩 발음하고 총70명이 발음한 총 63,280개의 단어에 대하여 92.8%의 인식률을 얻었다. 일간지 사설로부터 추출한 단어를 대상으로 발음 사전을 10K 크기로 만들었다. 음성 모델은 uniphone을 사용하였다.

  • PDF