• Title/Summary/Keyword: Language Translation

Search Result 565, Processing Time 0.025 seconds

A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR (한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법)

  • Jang, Myung-Gil;Myaeng, Sung-Hyon;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

Development of an integrated Web-based system with a pile load test database and pre-analyzed data

  • Chen, Yit-Jin;Liao, Ming-Ru;Lin, Shiu-Shin;Huang, Jen-Kai;Marcos, Maria Cecilia M.
    • Geomechanics and Engineering
    • /
    • v.7 no.1
    • /
    • pp.37-53
    • /
    • 2014
  • A Web-based pile load test (WBPLT) system was developed and implemented in this study. Object-oriented and concept-based software design techniques were adopted to integrate the pile load test database into the system. A total of 673 case histories of pile load test were included in the database. The data consisted of drilled shaft and driven precast concrete pile axial load tests in drained, undrained, and gravel loading conditions as well as pre-analyzed data and back-calculated design parameters. Unified modeling language, a standard software design tool, was utilized to design the WBPLT system architecture with five major concept-based components. These components provide the static structure and dynamic behavior of system message flows in a visualized manner. The open-source Apache Web server is the building block of the WBPLT system, and PHP Web programming language implements the operation of the WBPLT components, particularly the automatic translation of user query into structured query language. A simple search and inexpensive query can be implemented through the Internet browser. The pile load test database is helpful, and data can be easily retrieved and utilized worldwide for research and advanced applications.

Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval (위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선)

  • Cheon, Juryong;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

Efficient Subword Segmentation for Korean Language Classification (한국어 분류를 위한 효율적인 서브 워드 분절)

  • Hyunjin Seo;Jeongjae Nam;Minseok Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF

Domain Adaptation Method for LHMM-based English Part-of-Speech Tagger (LHMM기반 영어 형태소 품사 태거의 도메인 적응 방법)

  • Kwon, Oh-Woog;Kim, Young-Gil
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1000-1004
    • /
    • 2010
  • A large number of current language processing systems use a part-of-speech tagger for preprocessing. Most language processing systems required a tagger with the highest possible accuracy. Specially, the use of domain-specific advantages has become a hot issue in machine translation community to improve the translation quality. This paper addresses a method for customizing an HMM or LHMM based English tagger from general domain to specific domain. The proposed method is to semi-automatically customize the output and transition probabilities of HMM or LHMM using domain-specific raw corpus. Through the experiments customizing to Patent domain, our LHMM tagger adapted by the proposed method shows the word tagging accuracy of 98.87% and the sentence tagging accuracy of 78.5%. Also, compared with the general tagger, our tagger improved the word tagging accuracy of 2.24% (ERR: 66.4%) and the sentence tagging accuracy of 41.0% (ERR: 65.6%).

Localization of Chinese Version of Jeju Tourism Organization's Official Version 'Visit Jeju' - Centered on Contents Selection and Translation (제주관광공사 '비짓제주' 중문 홈페이지의 로컬라이제이션 연구 -콘텐츠 선정과 번역 텍스트를 중심으로)

  • Hong, Weiwei
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.1
    • /
    • pp.535-547
    • /
    • 2019
  • Website localization not only means to transliterate the content and text of the original language web pages, but also adjust it according to the culture and demand of the target language market, so as to improve the acceptance of the local market. From the perspective of localization, this paper analyzes localization strategies and shortcomings of Chinese pages of Jeju official tourist website 'visit Jeju'. First, by comparing the differences between the Chinese web pages and the Korean web pages in the content and text, the localization of the website is summed up, and then the differences are compared with the local tourism website 'Mafeongwo' in China. Not only offering and suggestions for improving the translation quality in the Chinese web pages of 'Visit Jeju'. but also the making some further suggestions for the other Korean websites.

Formal Semantics Based on Action Equation 2.0 for Python (작용식 2.0 기반 파이썬에 대한 형식 의미론)

  • Han, Jung Lan
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.10 no.6
    • /
    • pp.163-172
    • /
    • 2021
  • To specify a formal semantics for a programming language is to do a significant part for design, standardization and translation of it. The Python is popular and powerful, it is necessary to do research for a formal semantics to specify a static and dynamic semantics for Python clearly in order to design a similar language and do an efficient translation. This paper presents the Action Equation 2.0 that specifies a formal semantics for Python to change and update Action Equation. To measure the execution time for Python programs, we implemented the semantic structure specified in Action Equation 2.0 in Java, and prove through simulation that Action Equation 2.0 is a real semantic structure that can be implemented. The specified Action Equation 2.0 is compared to other descriptions, in terms of readability, modularity, extensibility, and flexibility and then we verified that Action Equation 2.0 is superior to other formal semantics.

A Study on Korean Language Translation of Chinese Traditional Hansi in the 1910s and 1920s (1910~20년대 시인의 전통 한시 국역 양상과 의미 연구 - 최남선, 김소월, 김억, 이광수를 중심으로 -)

  • Chung, So-yeon
    • Journal of Korean Classical Literature and Education
    • /
    • no.34
    • /
    • pp.149-191
    • /
    • 2017
  • This study examines Korean language translations of traditional Chinese hansi in the 1910s and 1920s. In the $20^{th}$ century, many poets translated Chinese and Korean traditional hansi into Korean. In the early $20^{th}$ century, Korean language began to be used as a national public language. At that time, not only hansi but also poetry from several other languages had been translated into Korean. Choi Nam-sun in the 1910s and Kim So-woel, Kim Eok, and Lee Kwang-su in the 1920s translated Chinese traditional hansi, focusing on famous Dang dynasty poetry from Tu Fu and Li Bai, etc. Choi Nam-sun's translation in the 1910s aimed to consider poetry as a written literature. On the contrary, Kim So-woel, Kim Eok, and Lee Kwang-su believed that Korean modern verse literature should be songs as well as poetry, and their translations in the 1920s aimed to create songs as spoken literature by focusing on orality and universality. Though Korean is now the language, the literary history of hansi continues in modern poetry.

Korean Morphological Analysis Method Based on BERT-Fused Transformer Model (BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법)

  • Lee, Changjae;Ra, Dongyul
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.4
    • /
    • pp.169-178
    • /
    • 2022
  • Morphemes are most primitive units in a language that lose their original meaning when segmented into smaller parts. In Korean, a sentence is a sequence of eojeols (words) separated by spaces. Each eojeol comprises one or more morphemes. Korean morphological analysis (KMA) is to divide eojeols in a given Korean sentence into morpheme units. It also includes assigning appropriate part-of-speech(POS) tags to the resulting morphemes. KMA is one of the most important tasks in Korean natural language processing (NLP). Improving the performance of KMA is closely related to increasing performance of Korean NLP tasks. Recent research on KMA has begun to adopt the approach of machine translation (MT) models. MT is to convert a sequence (sentence) of units of one domain into a sequence (sentence) of units of another domain. Neural machine translation (NMT) stands for the approaches of MT that exploit neural network models. From a perspective of MT, KMA is to transform an input sequence of units belonging to the eojeol domain into a sequence of units in the morpheme domain. In this paper, we propose a deep learning model for KMA. The backbone of our model is based on the BERT-fused model which was shown to achieve high performance on NMT. The BERT-fused model utilizes Transformer, a representative model employed by NMT, and BERT which is a language representation model that has enabled a significant advance in NLP. The experimental results show that our model achieves 98.24 F1-Score.

3D Object Extraction Mechanism from Informal Natural Language Based Requirement Specifications (비정형 자연어 요구사항으로부터 3D 객체 추출 메커니즘)

  • Hyuntae Kim;Janghwan Kim;Jihoon Kong;Kidu Kim;R. Young Chul Kim
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.9
    • /
    • pp.453-459
    • /
    • 2024
  • Recent advances in generative AI technologies using natural language processing have critically impacted text, image, and video production. Despite these innovations, we still need to improve the consistency and reusability of AI-generated outputs. These issues are critical in cartoon creation, where the inability to consistently replicate characters and specific objects can degrade the work's quality. We propose an integrated adaption of language analysis-based requirement engineering and cartoon engineering to solve this. The proposed method applies the linguistic frameworks of Chomsky and Fillmore to analyze natural language and utilizes UML sequence models for generating consistent 3D representations of object interactions. It systematically interprets the creator's intentions from textual inputs, ensuring that each character or object, once conceptualized, is accurately replicated across various panels and episodes to preserve visual and contextual integrity. This technique enhances the accuracy and consistency of character portrayals in animated contexts, aligning closely with the initial specifications. Consequently, this method holds potential applicability in other domains requiring the translation of complex textual descriptions into visual representations.