• 제목/요약/키워드: semantic translation

검색결과 107건 처리시간 0.025초

시맨틱 웹을 이용한 다국어-지원 신문기사 번역시스템의 설계 및 구현 (Design and Implementation of a Multilingual-Supported Article Translation System using Semantic Web)

  • 강정석;이기영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.786-788
    • /
    • 2010
  • 최근 시맨틱 웹의 등장과 발전은 웹 2.0의 발전과 더불어 새로운 웹의 문화를 바꾸어 놓았다. 시맨틱 웹의 적용분야는 다양하지만 그중에서 의미 정보 검색과 다국어 정보 검색 기술을 통한 다국어 지원 번역이 연구 분야로의 필요성이 있다. 기존 기계번역이 번역률에 있어서 가장 큰 한계점은 단어 의미 중의성과 문법적은 오류이다. 따라서 본 논문에서는 시맨틱 웹과 단어 의미 중의성을 해소 시킬 새로운 알고리즘을 제안함으로써 단점을 제거하여 번역률을 향상시켜 모바일에 적용하였다. 모바일에 입력된 신문기사 이미지를 OCR을 통해 텍스트로 변환하고 사전 및 분야 온톨로지와 문장 규칙 추론을 동해 처리 속도 및 정확도 높은 번역시스템을 설계 및 구현하였다.

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF

이질적인 쇼핑몰 환경을 위한 온톨로지 기반 상품 매핑 방법론 (An Ontology-Driven Mapping Algorithm between Heterogeneous Product Classification Taxonomies)

  • 김우주;최남혁;최대우
    • 지능정보연구
    • /
    • 제12권2호
    • /
    • pp.33-48
    • /
    • 2006
  • 의미 웹(Semantic Web)과 이에 대한 관련기술들은 웹을 통해 자유롭게 정보를 공유할 수 있는 새로운 지평을 마련해 주었다. 이를 토대로 온톨로지(Ontology)에 대한 연구 역시 활발히 진행되어 왔으며, 결과적으로 온톨로지는 여러 가지 측면에서 가시적인 성과들을 이룩해 낼 수 있었다. 의미 웹에 대한 기대가 고조되면서, 온톨로지는 많은 연구 학자들로부터 각광을 받는 분야로 떠오를 수 있었으며, 오늘날, 이러한 온톨로지에 대한 연구는 지식표현Knowledge-Representation)등과 같은 학술적인 단계에서 벗어나 전자상거래 분야까지 그 영역을 넓혀 나가고 있다. 그러나 일부에서는 이러한 온톨로지의 양산으로 인해 발생할 문제들에 대한 우려의 목소리가 적지 않다. 즉, 현재 온톨로지들은 서로간의 이질성으로 인해 그 효용 가치를 위협받고 있다는 것이다. 예를 들어, 현재 Yahoo나 DMOZ Open Directory(www.(dmoz.org)등으로부터 제공 중인 상품 카테고리의 경우, 시각적으로는 유사해 보일지 모르나 그들이 지닌 카테고리 구조라든지 사용된 용어 등을 살펴보면 상당한 차이점이 존재한다는 사실을 발견해 낼 수 있다. 따라서 현재 온톨로지가 지향하는 본래의 효용 가치를 극대화시키기 위해서는 이러한 이질성을 극복할 수 있는 방법론이 반드시 필요하다고 할 수 있다. 본 연구에서는 현재 온톨로지 분야에서 가장 커다란 이슈로 떠오르고 있는 정보통합에 대한 해결책을 제시해 보고자 한다. 정보통합이란, 서로 이질적인 프로그래밍 언어나 형식으로 이루어진 데이터들을 통합하여 요약한 형태로 제공하는 기술이라 정의 내릴 수 있다. 이러한 정보 통합의 대표적인 분야로 Merging, Alignment, Translation, Articulation을 들 수 있는데, 이 가운데, 본 연구에서는 "Ontology Alignment"에 대해 집중적으로 다루어 보고자 한다. 이와 더불어, 현재 의미 웹이 지향하는 대표적인 특성 중 하나로써 상호운영성을 꼽을 수 있다. 온톨로지 매핑(Ontology mapping)은 이러한 상호운영성을 지원하기 위한 대표적인 기술로써 각광을 받고 있다. 따라서 우리는 이러한 온톨로지 매핑에 대한 방법론을 쇼핑몰 환경에 적용함으로써 서로 이질적인 상품 카테고리로 구성된 두 쇼핑몰간의 상품에 대한 매핑 알고리즘(Mapping Algorithm)을 제안하고자 한다. 또한, 효용성 검증을 위하여 온톨로지 매핑에 있어 이미 효용성을 검증 받은 PROMPT와의 비교 분석도 수행하여 본다.

  • PDF

묵시적 참조 무결성을 고려한 관계형 스키마 모델의 XML 스키마 모델 변환 알고리즘 (An Algorithm for Translation from RDB Schema Model to XML Schema Model Considering Implicit Referential Integrity)

  • 김진형;정동원;백두권
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.526-537
    • /
    • 2006
  • XML 데이타의 효율적인 저장을 위한 가장 대표적인 접근방법은 XML 데이타를 관계형 데이타베이스에 저장하는 것으로 대부분의 데이타가 여전히 관계형 데이타베이스에 저장되어 있다는 현실적 상황을 쉽게 수용할 수 있다는 장점을 지닌다. 이러한 접근 방법은 XML 데이타를 관계형 데이타로 혹은 관계형 데이타를 XML 데이타로 변환 과정이 필수적으로 요구하며, 변환 과정에서 가장 중요한 점은 관계형 스키마 모델의 구조적, 의미적 관계 정보를 XML 스키마 모델에 정확히 반영하는 것이다 지금까지 많은 변환 방법들이 제안되었으나 구조적 의미를 반영하지 못하거나 단순히 명시적으로 정의된 참조 무결성 관계(Referential Integrity Relations)만을 지원하는 문제점을 지닌다. 이 논문에서는 관계형 스키마 모델의 XML 스키마 모델로의 변환 시 초기 관계형 데이타베이스의 묵시적 참조 무결성 관계를 자동적으로 추출하여 이를 변환에 반영할 수 있는 알고리즘을 제안한다. 제안된 알고리즘은 초기 관계형 데이타베이스에 명시적으로 정의되어 있는 참조 무결성 관계는 물론 묵시적인 참조 무결성 관계까지 변환 과정에 반영함으로써 보다 정확한 XML 데이타 모델 생성을 가능하게 한다.

Glossary에 기초한 시스템에서의 적형태 영어문장 생성을 위한 한영 대역에 전자사전구축 (Constructing A Korean-English Bilingual Dictionary For Well-formed English Sentence Generations In A Glossary-based System)

  • 신효필
    • 인지과학
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2003
  • 본 논문은 자연언어처리 (Natural Language Processing), 특히 한영 기계번역에서 필수적 인 한영 대역어 사전을 구축함에 있어 영어 생성시 정확한 문장형태를 도출하기 위한 방법에 대해 논의한다. 기간의 연구는 주로 한국어와 영어의 의미적 모호성이 해결된 정확한 번역을 위한 대역어 내지 변환사전 구조에 초점이 맞추어져 왔고 상대적으로 형태적 또는 구문적으로 정확한 영어문장을 생성하는 것은 간과되어져 왔다. 기존 자원의 황용이라는 측면에서는 텍스트화된 한영사전을 그대로 이용한다고 하면 그 기술방식과 영어표현은 다양한 형태로 나타나기 때문에 정확한 의미의 대역어 뿐만 아니라 적격한 영어문장의 생성을 위해서는 어떠한 정보들이 대역어 사전에 기술되어야 하는지 고려해 볼 필요가 있다 따라서 본 논의에서는 기존의 인쇄된 한영사전을 구조분석하여 자동으로 변환하여 최소한의 인간의 간섭으로 정확한 영어생성에 필요한 형태적 정보를 자질로 부여하는 방법을 기술한다. 기본적으로 이 방법은 단어 대 단어 번역시스템 둥 glossary에 기초한 얕은 층위의 번역이 필요한 시스템을 위한 사전을 구축에서 시작하며 더 나아가 대규모의 전자사전 구축작업에서 어떻게 응용될 수 있는지 논의한다.

  • PDF

개념구조론에 의한 영어 관계절의 기술 (A Description of English Relative Clauses With conceptual Structure Theory)

  • 조길호
    • 인지과학
    • /
    • 제4권2호
    • /
    • pp.29-51
    • /
    • 1994
  • 본 논문의 목적은 영어 관계절의 의미를 분석하여 컴퓨터의 자연언어 처리 및 기계번역에 사용될 수 있는 중간언어(interlanguage)형식으로 의미표시(semantic representation)하려는 것이다.이를 위하여 최근에 미국의 John.F.Sowa를 중심으로 개발되고 있는 개념구조론(Conceptual Structure Theory)에서의 개념도식(conceptual graph)을 이용하였다.우선 개념구조론을 고찰한 후, 영어 관계절을 제한적 의미와 비제한적 의미에 따라 다르게 기술하였는데,제한적 관계절은-표현을 이용하고,비제한 관계절은 동격의 의미와 부사적 의미,그리고 논평적 의미에 따라 다르게 기술하였다.

영-한 기계번역에서 문형에 의한 조사 및 대역어 선택 (Selection of Postpositions and Translated Words by Sentence Pattern in the English-Korean Machine Translation)

  • 박영진;김남수;이지선;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-109
    • /
    • 1999
  • 영-한 기계번역 중 변환 단계에서 한국어 문장을 생성하기 위해서는 구구조 변환 후 조사 및 대역어 선택으로 이루어진다. 그러나 하나의 영어 단어는 여러 개의 한국어 의미들을 가지고 있기 때문에 문장에서 사용된 영어의 정확한 의미에 해당하는 한국어 대역어를 선택하는 것은 번역의 질을 높이고 시스템의 성능에 매우 중요한 역할을 한다. 특히 용언 및 체언의 대역어 선택은 문장에서 서로 간의 의미적인 관계를 고려하여야 올바른 대역어를 선택할 수 있다. 기존에는 전자 사전에 용언과 체언간의 연어 정보(collocation information)를 구축하여 대역어 선택의 문제를 해결하려고 하였으나 연어 정보가 사전에 존재하지 않을 때 올바른 대역어를 선택할 수 없었다. 또한 용언과 체언의 관계를 나타내는 조사를 선택하기 위하여 격(case)을 세분화하여 사전을 구축하였으나 격의 분류 및 사전을 구축할 경우 격을 선택하는 어려움이 있었다. 이에 따라 본 논문에서는 문형(sentence pattern)에 의한 방법으로 용언의 대역어 및 용언이 갖는 필수격 체언의 조사와 대역어 선택방법을 제안한다. 문형의 구조적인 정보에는 용언과 체언의 의미적 역할(thematic role)을 하는 조사 및 용언이 갖는 필수격 체언의 의미 자질(semantic feature)을 갖고 있다. 이러한 의미 자질을 wordnet과 한/영 및 영/한 사전을 이용하여 의미 지표(semantic marker)를 갖는 문형 사전을 구축한다. 또한 의미 지표를 갖는 문형 사전을 기반으로 조사 및 대역어 선택 알고리즘을 개발한다.

  • PDF

효율적인 상품등록을 위한 워드넷 기반의 오픈마켓 카테고리 검색 시스템 (A WordNet-based Open Market Category Search System for Efficient Goods Registration)

  • 홍명덕;김장우;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.17-27
    • /
    • 2012
  • 여러 오픈마켓에서 판매자가 동일한 상품을 등록할 시에 각 오픈마켓마다 다른 기준으로 제공되는 카테고리로 인하여 카테고리 선정에 어려움이 발생한다. 본 논문에서는 판매자가 오픈마켓에서 상품 등록 시 다른 오픈마켓에서 기 판매하고 있는 상품의 카테고리와 의미적으로 가장 연관성이 높은 카테고리를 추천하는 방법을 제안한다. 이때 입력받은 카테고리를 의미 분석하는 방법으로 형태소 분석, Wiki 낱말사전, WordNet, Google 번역 서비스를 사용하여 추출된 색인어로 카테고리를 검색한 후, 의미적 연관성 측정을 통하여 가장 의미가 비슷한 카테고리를 추천하는 방법이다. 실험 결과로 색인어 기반의 검색방법 보다 제안하는 의미분석 검색방법이 정확한 검색결과를 보여주어 시스템의 신뢰도를 향상시켰으며, 카테고리를 선택하는데 드는 시간비용을 절감해주는 것을 보인다.

부사어를 활용한 수화 애니메이션 생성 (Sign Language Generation with Animation by Adverbial Phrase Analysis)

  • 김상하;박종철
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.27-32
    • /
    • 2008
  • 수화는 농인 사회에서 주로 사용되는 언어로서 공간상에 수화 동작을 표현함으로써 의사를 전달하는 시각언어이다. 이런 수화의 공간성과 운동성은 서술어 동작을 동해 특히 잘 드러나는데, 서술어는 수식하는 부사어에 악해 그 의미를 수식, 한정 받는다는 특성이 있어 이는 수화의 공간성과 운동성에 많은 영향을 미치게 된다. 본 연구에서는 한국어 수화 변환 과정에서 서술어 동작에 영향을 미치는 부사어의 자질 정보를 분석하고 이를 활용하여 수화의 운동성을 살린 애니메이션을 생성할 수 있는 시스템을 제안하고자 한다.

  • PDF

On Subjunctives in Korean: Exploiting a Bilingual Corpus

  • Song, Sanghoun
    • 한국언어정보학회지:언어와정보
    • /
    • 제18권1호
    • /
    • pp.1-32
    • /
    • 2014
  • This paper provides a corpus study on subjunctives in Korean in a way of comparative semantics. The whole arguments of this paper are bolstered by distributional evidence taken from naturally occurring bitexts (i.e. a bilingual corpus), in which one sentence in a language is aligned with one translation in the other language. Since previous studies regard past tense morphology as the main component to express irrealis and uncertainty, this paper accordingly checks out whether the past tense morpheme (e/a)ss in Korean is also responsible for conveying the meaning of subjunctives. My finding is that the past tense morpheme (e/a)ss is a sufficient condition for forming subjunctives in Korean. The current corpus study verifies that the past tense morpheme is not obligatorily used in present conditional counterfactuals in Korean, unlike English. Yet, if (e/a)ss is used and the antecedent denotes a present situation, the conditional sentence can only be interpreted as conveying counterfactuality. On the other hand, wish constructions in Korean, irrespective of the semantic tense, often contain the past tense morpheme. Hence, this work substantiates Iatridou (2000)'s theory of 'fake past tense' is applicable to Korean subjunctives. The present corpus study, additionally, reveals that a conditional marker telamyen is a component of expressing past counterfactuals in Korean.

  • PDF