• 제목/요약/키워드: Data Translation

검색결과 644건 처리시간 0.025초

병렬 말뭉치 필터링을 적용한 Filter-mBART기반 기계번역 연구 (Filter-mBART Based Neural Machine Translation Using Parallel Corpus Filtering)

  • 문현석;박찬준;어수경;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-7
    • /
    • 2021
  • 최신 기계번역 연구 동향을 살펴보면 대용량의 단일말뭉치를 통해 모델의 사전학습을 거친 후 병렬 말뭉치로 미세조정을 진행한다. 많은 연구에서 사전학습 단계에 이용되는 데이터의 양을 늘리는 추세이나, 기계번역 성능 향상을 위해 반드시 데이터의 양을 늘려야 한다고는 보기 어렵다. 본 연구에서는 병렬 말뭉치 필터링을 활용한 mBART 모델 기반의 실험을 통해, 더 적은 양의 데이터라도 고품질의 데이터라면 더 좋은 기계번역 성능을 낼 수 있음을 보인다. 실험결과 병렬 말뭉치 필터링을 거친 사전학습모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 본 실험결과를 통해 데이터의 양보다 데이터의 질을 고려하는 것이 중요함을 보이고, 해당 프로세스를 통해 추후 말뭉치 구축에 있어 하나의 가이드라인으로 활용될 수 있음을 보였다.

CNN기반의 청각장애인을 위한 수화번역 프로그램 (CNN-based Sign Language Translation Program for the Deaf)

  • 홍경찬;김형수;한영환
    • 융합신호처리학회논문지
    • /
    • 제22권4호
    • /
    • pp.206-212
    • /
    • 2021
  • 사회가 점점 발전하면서 의사소통 방법이 다양한 형태로 발전하고 있다. 그러나 발전한 의사소통은 비장애인을 위한 방법이며, 청각장애인에게는 아무런 영향을 미치지 않는다. 따라서 본 논문에서는 청각장애인의 의사소통을 돕기 위한 CNN 기반의 수화번역 프로그램을 설계 및 구현한다. 수화번역 프로그램은 웹캠을 통해 입력된 수화 영상 데이터를 기반으로 의미에 맞게 번역한다. 수화번역 프로그램은 직접 제작한 24,000개의 한글 자모음 데이터를 사용하였으며, 효과적인 분류모델의 학습을 위해 U-Net을 통한 Segmentation을 진행한다. 전처리가 적용된 데이터는 19,200개의 Training Data와 4,800개의 Test Data를 통하여 AlexNet을 기반으로 학습을 진행한다. 구현한 수화번역 프로그램은 'ㅋ'이 97%의 정확도와 99%의 F1-Score로 모든 수화데이터 중에서 가장 우수한 성능을 나타내었으며, 모음 데이터에서는 'ㅣ'가 94%의 정확도와 95.5%의 F1-Score로 모음 데이터 중에서 가장 높은 성능을 보였다.

A Novel Inhibitor of Translation Initiation Factor eIF5B in Saccharomyces cerevisiae

  • Ah-Ra Goh;Yi-Na Kim;Jae Hyeun Oh;Sang Ki Choi
    • Journal of Microbiology and Biotechnology
    • /
    • 제34권6호
    • /
    • pp.1348-1355
    • /
    • 2024
  • The eukaryotic translation initiation factor eIF5B is a bacterial IF2 ortholog that plays an important role in ribosome joining and stabilization of the initiator tRNA on the AUG start codon during the initiation of translation. We identified the fluorophenyl oxazole derivative 2,2-dibromo-1-(2-(4-fluorophenyl)benzo[d]oxazol-5-yl)ethanone quinolinol as an inhibitor of fungal protein synthesis using an in vitro translation assay in a fungal system. Mutants resistant to this compound were isolated in Saccharomyces cerevisiae and were demonstrated to contain amino acid substitutions in eIF5B that conferred the resistance. These results suggest that eIF5B is a target of potential antifungal compound and that mutation of eIF5B can confer resistance. Subsequent identification of 16 other mutants revealed that primary mutations clustered mainly on domain 2 of eIF5B and secondarily mainly on domain 4. Domain 2 has been implicated in the interaction with the small ribosomal subunit during initiation of translation. The tested translation inhibitor could act by weakening the functional contact between eIF5B and the ribosome complex. This data provides the basis for the development of a new family of antifungals.

Some nonparametric test procedure for the multi-sample case

  • Park, Hyo-Il;Kim, Ju-Sung
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권1호
    • /
    • pp.237-250
    • /
    • 2009
  • We consider a nonparametric test procedure for the multi-sample problem with grouped data. We construct the test statistics based on the scores obtained from the likelihood ratio principle and derive the limiting distribution under the null hypothesis. Also we illustrate our procedure with an example and obtain the asymptotic properties under the Pitman translation alternatives. Also we discuss some concluding remarks. Finally we derive the covariance between components in the Appendix.

  • PDF

e-비즈니스 협업에 적합한 다중변환 시스템 연구 (A Study on multi-translation system for e-business collaboration)

  • 안경림;정진욱
    • 인터넷정보학회논문지
    • /
    • 제7권6호
    • /
    • pp.123-130
    • /
    • 2006
  • e-비즈니스 초창기의 트랜잭션은 단일 비즈니스 주체 또는 마켓 플레이스 내에서 발생하였으나 점차 복합적인 형태로 발전되고 있다. 특히 비즈니스 주체 또는 마켓 플레이스 간의 비즈니스 협업에 대한 필요성이 핵심 사상으로 대두되었다. 상호 교환되는 전자문서의 형태도 다양해짐에 따라 문서 간 형태 변환이 중요한 요소가 되었다. 본 논문에서는 이러한 객체 지향적인 비즈니스 트랜잭션의 흐름에 따라 상호 교환되는 문서의 기본 형태를 ebXML로 정의하였으며, 다양한 형태의 문서 변환을 지원하기 위해 다중-포맷 변환 기능을 갖는 변환 시스템을 설계하였다. 본 논문에서 제안한 시스템은 model-driven 방식으로 설계되어 시스템 환경에 따라 다양한 형태로 구성될 수 있다. 제안한 변환 시스템은 어떠한 형태의 데이터가 입력되더라도 파싱 모듈만 추가로 개발하면 적용할 수 있도록 설계하였다. 또한 공통 데이터 셋을 정의하여 데이터의 재사용성을 증가시켰다. 본 논문에서는 다양한 형태 변환에 대해 기존 변환 시스템과의 성능을 비교하여 제안한 시스템의 우위성을 증명하였다.

  • PDF

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.

An Alignment based technique for Text Translation between Traditional Chinese and Simplified Chinese

  • Sue J. Ker;Lin, Chun-Hsien
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.147-156
    • /
    • 2002
  • Aligned parallel corpora have proved very useful in many natural language processing tasks, including statistical machine translation and word sense disambiguation. In this paper, we describe an alignment technique for extracting transfer mapping from the parallel corpus. During building our system and data collection, we observe that there are three types of translation approaches can be used. We especially focuses on Traditional Chinese and Simplified Chinese text lexical translation and a method for extracting transfer mappings for machine translation.

  • PDF

SPARQL-to-SQL 변환 알고리즘의 저장소 독립적 활용을 위한 시스템 모델 (A System Model for Storage Independent Use of SPARQL-to-SQL Translation Algorithm)

  • 손지성;정동원;백두권
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.467-471
    • /
    • 2008
  • 웹 온톨로지에 대한 연구가 활발해지면서 웹 온톨로지를 저장하기 위한 다양한 형태의 저장소와 질의 언어가 개발되고 있다. SPARQL의 이용이 증가하고 대부분 관계형 데이타베이스 기반의 저장소를 이용함에 따라 SPARQL을 SQL로 변환하는 알고리즘 개발의 필요성이 대두되었다. 지금까지 제안된 변환 알고리즘들은 SPARQL의 일부만을 SQL로 변환하거나 변환 알고리즘이 저장소 구조에 종속적이라는 문제점이 있다. 이 논문에서는 저장소에 독립적으로 특정 변환 알고리즘을 활용할 수 있는 모델을 제안한다.

SemFilter: 단순하며 효율적인 시맨틱 XML 메시지 필터링 (SemFilter: A Simple and Efficient Semantic XML Message Filtering)

  • 김재훈;박석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.680-693
    • /
    • 2008
  • XML 메시지 필터링에 관한 최근의 연구들은 모든 출판되는 데이타 소스들이 필터링 시스템에 정의된 유일한 전역 스키마를 따르는 것을 가정한다. 하지만 이러한 가정을 넘어서, 데이타 제공자들이 그들 자신의 스키마를 자유롭게 사용할 수 있는 서비스를 고려할 수 있다. 즉, 데이타 소스들이 이질적인 환경이다. 하지만 XML 필터링 시스템에서 데이타 소스는 다수이며, 또한 출판되는 데이타들은 수시로 생성되고, 갱신되며, 사라진다. 즉, 매우 다이내믹한 환경이다. 본 논문에서는 그러한 다이내믹한 환경을 고려하여 고안된 단순하며 효율적인 의미적 XPath 질의 번역 구현을 소개한다. 특별히 제안되는 질의 번역 기법은 어떤 비주얼한 데이타 가이드가 제공되지 않는 환경에서 사용자가 자신의 지식과 경험에만 의존하여 작성한 질의를 번역하는 것에 초점을 맞춘다. 이러한 환경에서, 사용자는 다수의 이질적인 데이타를 질의하기 때문에, 사용자의 기억상의 스키마에 의존하여 작성된 질의는 실제 스키마와 불일치할 수 있다. 본 연구에서는 제안하는 의미적 XPath 질의 기법이 이러한 문제를 고려하도록 설계한다. 몇 가지 실험 결과는 제안된 질의 번역 기법이 수용할 만한 질의 번역시간을 제공하며, 기존의 방법과 비교하여 실제적임을 보여 준다.

항만효율성 측정 자료의 정규성과 변환 불변성 검증 소고 : DEA접근 (A Brief Verification Study on the Normalization and Translation Invariant of Measurement Data for Seaport Efficiency : DEA Approach)

  • 박노경;박길영
    • 한국항만경제학회지
    • /
    • 제23권2호
    • /
    • pp.109-120
    • /
    • 2007
  • 본 논문에서는 항만효율성 측정 시 문제가 되었던 두 가지 문제점(첫째, 각기 상이한 기본단위를 갖는 투입변수와 산출변수의 정규화문제, 둘째, DEA분석의 기본가정인 비음수조건에 벗어난 자료, 즉, 음수를 갖는 투입-산출자료의 변환불변성)를 해결하기 위해서 국내 26개항만의 자료를 이용하여 실증분석을 한 후에 검증을 함으로써 항만효율성 측정방법을 부분적으로 확장시켰다. 본 논문의 실증분석의 핵심적인 결과는 다음과 같다. 첫째, 항만효율성 측정 시 사용되는 자료의 정규성과 변환불변성은 실증분석 결과 분명하게 있는 것으로 검증되었다. 둘째, 항만효율성 측정 시 사용되는 자료가 마이너스(-)인 경우에 가장 큰 음수보다 더 큰 양수를 더해 주는 이른바 자료의 변환을 검증하는 변환불변성은 투입지향-산출지향 BCC 모형에서 확인되었다. 위와 같은 실증분석 결과는 다음과 같은 정책적인 함의를 갖고 있다. 즉, 효율성 측정시 사용되는 자료의 정규성과 변환불변성이 실증적으로 검증되었으므로, 국내 항만의 정책입안가들은 항만효율성 측정 시 이용되는 자료의 정규성과 변환불변성과 같은 사항을 고려하여 보다 세부적인 항만통계자료를 수집 정리 공표하는 것이 매우 필요하다. 예를 들면 항만사고와 같은 통계도 해역별이 아닌 항만별로 세부적으로 통계를 발행하도록 관련된 정책적인 지원이 필요하다.

  • PDF