• 제목/요약/키워드: Language Translation

검색결과 559건 처리시간 0.025초

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

XMI를 활용한 비즈니스 프로세스 모델 호환 방법론 (A Methodology for exchanging Business Process Model using XMI)

  • 임태수
    • 한국전자거래학회지
    • /
    • 제11권3호
    • /
    • pp.73-88
    • /
    • 2006
  • 기업 프로세스 관리를 위한 컴퓨터 기반 응용 프로그램으로서 BPM(Business Process Management)에 대한 많은 관심은 시장 선점을 위한 여러 솔루션 벤더들의 독자적인 프로세스 정의와 저장 방식을 가져왔다. 호환성이 결여된 프로세스모델 정의는 국제적인 표준의 필요성을 제기함과 동시에 제정된 표준의 보급을 위한 적절한 적용 방법론을 요구하고 있다. 본 연구는 프로세스 모형화 측면에서 BPMN(Business Process Modeling Notation) 표준으로 기술된 프로세스 모델을 호환성 관점에서 XMI(XML Metadata Interchange) 기반의 중립 파일로 변환하는 방법론을 제시하였다. 21가지 워크플로우 패턴별로 변환 템플릿을 제공하였고, 기존 변환 방식인 BPEL4WS(Business Process Execution Language for Web Services)로의 변환 방식과 비교하였다. 연구 결과, 본 논문에서 제시한 XMI 변환은 기존 방식에 비해 완전한 변환이 가능함으로, BPM 공급업체들의 BPMN 적용에 실용적으로 기여할 수 있다.

  • PDF

벡터 그래픽 기반의 GML 문서 편집 및 변환 시스템 (GML Document Editing and Translation System based on Vector Graphic)

  • 김창수;염성근;정회경
    • 한국정보통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1058-1064
    • /
    • 2009
  • 정보기술의 발달과 인터넷의 보편화에 따라 지리정보의 활용분야가 다양해지고 지리 정보를 효율적으로 관리하기 위해 다양한 지리정보 시스템(GIS : Geographic Information System)이 구축되었다. 하지만 다양한 형태의 지리정보 데이터는 서로 표준화 되지 않아 다양한 형태의 그래픽 저작도구에 의존하고 있다. 이에 OGC(Open Geospatial Consortium)는 상호운용 가능한 표준화된 지리정보 데이터를 기술하는 GML(Geography Markup Language)을 제안하였고 W3C에서는 벡터 기반의 SVG(Scalable Vector Graphics)를 제안하였다. 본 논문에서는 지리정보 데이터처리를 위한 XML 기반의 GML 데이터를 벡터 그래픽 객체로 생성하고 그래픽 객체들을 통해 GML 문서를 생성하는 코드 변환기를 정의하여 벡터 그래픽을 XML 기반의 논리구조로 변환하는 GML 문서 편집 및 변환 시스템을 설계 및 구현하였다.

관광정보와 언어전환에 관한 연구 (A Study on Tourists Information and Language Transference)

  • 이승재
    • 디지털융복합연구
    • /
    • 제12권5호
    • /
    • pp.451-458
    • /
    • 2014
  • 본 논문에서는 관광의 1차적인 정보원으로서의 홈페이지와 관광홍보물의 언어학적 전환의 특징을 살펴보고자 한다. 즉 관광관련 사이트의 한국어 원문과 영어 번역물을 비교하면서 관광정보 텍스트가 올바르게 언어전환 되었는지 점검하고 나아가 전환된 영어번역물과 한국어 원문을 대조하면서 번역물에서 발생하는 언어규약과 의사소통의 특징을 살펴본다. 특히 한국어와 영어는 언어유형에서 대조적인 언어로서 번역을 통해 전환되었을 때 특이한 담화의 양상을 보인다. 즉 한국어에 비해 영어표현은 직설적이고 우회적인 표현을 피하는 경향이 있다. 또한 영어번역본에서는 영어 화자위주로 언어가 변형되어 표현됨을 주시할 수 있다. 이것은 영어를 사용하는 언어군에서 흔히 발생하는 양상으로 광의의 문화간의 차이로 간주될 수 있다. 따라서 외국관광객의 1차적 정보원으로서의 관광웹사이트는 관광정보를 제공하는 동시에 목적지의 문화를 간접적인 형태로 표현함으로써 사회적 이미지 형성과 문화간 차이를 대변하며 커뮤니케이션의 일환으로서 공손의 원칙과 Grice의 원칙을 준수하고 있다.

GML과 벡터 그래픽 기반의 GML 문서 편집 및 변환 시스템 (GML document editing and translation system based on GML and vector graphic)

  • 김창수;조용순;조태범;방진숙;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.645-648
    • /
    • 2009
  • 정보기술의 발달과 인터넷의 보편화에 따라 지리정보의 활용분야가 다양해지고 지리 정보를 효율적으로 관리하기 위해 다양한 지리정보 시스템(GIS : Geographic Information System)이 구축되었다. 하지만 다양한 형태의 지리정보 데이터는 서로 표준화 되지 않아 다양한 형태의 그래픽 저작도구에 의존하고 있다. 이에 OGC(Open Geospatial Consortium)는 상호운용 가능한 표준화된 지리정보 데이터를 기술하는 GML(Geography Markup Language)을 제안하였고 W3C에서는 벡터 기반의 SVG(Scalable Vector Graphics)를 제안하였다. 본 논문에서는 지리정보 데이터처리를 위한 XML 기반의 GML 데이터를 벡터 그래픽 객체로 생성하고 그래픽 객체들을 통해 GML 문서를 생성하는 코드 변환기를 정의하여 벡터 그래픽을 XML 기반의 논리구조로 변환하는 GML 문서 편집 및 변환 시스템을 설계 및 구현하였다.

  • PDF

오류분석을 통한 효율적인 영작문 지도법 (An effective teaching method of English composition through error analysis)

  • 박병제
    • 영어어문교육
    • /
    • 제1호
    • /
    • pp.159-187
    • /
    • 1995
  • The purpose of this study is to investigate common errors made by Korean learners in English composition and to find out what is an effective and appropriate teaching method of English composition in Korea. For these purposes, 197 students on the third grade in high school were selected as the subjects of this research. The students were tested by way of the immediate translation of 31 simple Korean sentences into English which are supposed to be easy for those students to write without any difficulty. About 2 minutes were given for testing each sentence. The results are as follows : First. the whole sum of errors made by 197 students was 2,972 and these types of errors were classified into 13 categories by Duskova's grammatical method and James'. The errors with comparatively high frequency were prepositional errors(17.2%), verbal errors(15.4%), and the errors with low frequency were article errors(1.9%), to-infinitive errors. Second, when Korean students learn English as a target language, overgeneralization(33.6%) and reduction(17.5) influenced the learners much more greatly than language transfer(22.2) did. But the influence of language transfer including interference & overgeneralization(l5.2%) and interference & reduction(10.7%) was no less than 48.1%. The statistics shows that the learners have a tendency to analyze, systematize and regularize the target language when they start to learn a new language.

  • PDF

Translation Java Bytecode to EVM SIL Code for Embedded Virtual Machines

  • Lee, Yang-Sun;Park, Jin-Ki
    • 한국멀티미디어학회논문지
    • /
    • 제8권12호
    • /
    • pp.1658-1668
    • /
    • 2005
  • This paper presents the bytecode-to-SIL translator which enables the execution of the java program in EVM(Embedded Virtual Machine) environment without JVM(java Virtual Machine), translating bytecodes produced by compiling java programs into SIL(Standard Intermediate Language) codes. EVM, what we are now developing, is a virtual machine solution that can download and execute dynamic application programs written in sequential languages like C language as well as object oriented languages such as C#, Java, etc. EVM is a virtual machine mounted on embedded systems such as mobile device, set-top box, or digital TV, and converts the application program into SIL, an assembly language symbolic form, and execute it. SIL is a virtual machine code for embedded systems, based on the analysis of existing virtual machine codes such as bytecode, MSIL, etc. SIL has such features as to accommodate various programming languages, and in particularly has an operation code set to accept both object-oriented languages and sequential languages. After compiling, a program written in java language is converted to bytecode, and also executed by JVM platform but not in other platform such as .NET, EVM platform. For this reason, we designed and implemented the bytecode-to-SIL translator system for programs written in java language to be executed in the EVM platform without JVM. This work improves the execution speed of programs, enhances the productivity, and provides an environment for programmers to execute application programs at various platforms.

  • PDF

Benchmarking of BioPerl, Perl, BioJava, Java, BioPython, and Python for Primitive Bioinformatics Tasks and Choosing a Suitable Language

  • Ryu, Tae-Wan
    • International Journal of Contents
    • /
    • 제5권2호
    • /
    • pp.6-15
    • /
    • 2009
  • Recently many different programming languages have emerged for the development of bioinformatics applications. In addition to the traditional languages, languages from open source projects such as BioPerl, BioPython, and BioJava have become popular because they provide special tools for biological data processing and are easy to use. However, it is not well-studied which of these programming languages will be most suitable for a given bioinformatics task and which factors should be considered in choosing a language for a project. Like many other application projects, bioinformatics projects also require various types of tasks. Accordingly, it will be a challenge to characterize all the aspects of a project in order to choose a language. However, most projects require some common and primitive tasks such as file I/O, text processing, and basic computation for counting, translation, statistics, etc. This paper presents the benchmarking results of six popular languages, Perl, BioPerl, Python, BioPython, Java, and BioJava, for several common and simple bioinformatics tasks. The experimental results of each language are compared through quantitative evaluation metrics such as execution time, memory usage, and size of the source code. Other qualitative factors, including writeability, readability, portability, scalability, and maintainability, that affect the success of a project are also discussed. The results of this research can be useful for developers in choosing an appropriate language for the development of bioinformatics applications.

생물체의 정보소통전략에 대한 언어학적 접근 (A Linguistic Approach to Communication Strategies of Biological Systems)

  • 김수연;오덕재
    • KSBB Journal
    • /
    • 제32권1호
    • /
    • pp.29-34
    • /
    • 2017
  • The completion of the Human Genome Project that identified all 3 billion base pairs in the human genome can be seen as a step towards understanding the relay of information and intention within an organism, or in other words, the language of life. The faculty of human language, key to differentiating humans from other animate species, works for conveying information to others by mapping meaning to sound based on syntactic structures. This resemblance between life and language has not gone unnoticed; the literature on RNA transcription and translation research regularly uses linguistic metaphors and the biolinguistic perspective of language has also been studied. By examining the biological characteristics of language and the linguistic characteristics of life, this study aims to identify key mechanisms shared between the two systems in order to promote a stronger connection between them. It furthers this goal by pointing out two general messages to which these mechanisms aim, productivity and accuracy, and discovers what lesson these messages give to a human society geared for sustainability.

의사소통 전략 교수를 위한 트위터와 무들 활용 사례 연구 (A Case Study of Utilizing Twitter and Moodle for Teaching of Communication Strategies)

  • 조인정
    • 한국어교육
    • /
    • 제25권1호
    • /
    • pp.203-234
    • /
    • 2014
  • This paper demonstrates how to incorporate the teaching of communication strategies into a large class of English-speaking learners of the Korean language. The method proposed here was developed to overcome the difficulty of conducting language activities involving communicative interactions amongst students and also between teacher and students in a large classroom. As a way of compensating the minimal opportunities for interactions in the classroom, students are given the task of expressing in Korean the English translations of authentic Korean comics via Twitter, which was later replaced with the feedback feature on Moodle, and then their Korean expressions are collected and projected onto a big screen. These collected expressions by students naturally differ from one another, helping students to realize that it is possible for them to express the same message or meaning in many different ways. The results of two separately conducted questionnaires show that this method is an effective way of providing students with significantly increased chances of producing 'comprehensible output' that requires them to think of how to communicate with their limited knowledge of the Korean language. Many students also commented that the teachers' feedback on errors provides them with the opportunity to learn about common errors as well as their own errors.