• 제목/요약/키워드: parallel corpus

검색결과 66건 처리시간 0.031초

The Parallel Corpus Approach to Building the Syntactic Tree Transfer Set in the English-to- Vietnamese Machine Translation

  • Dien Dinh;Ngan Thuy;Quang Xuan;Nam Chi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.382-386
    • /
    • 2004
  • Recently, with the machine learning trend, most of the machine translation systems on over the world use two syntax tree sets of two relevant languages to learn syntactic tree transfer rules. However, for the English-Vietnamese language pair, this approach is impossible because until now we have not had a Vietnamese syntactic tree set which is correspondent to English one. Building of a very large correspondent Vietnamese syntactic tree set (thousands of trees) requires so much work and take the investment of specialists in linguistics. To take advantage from our available English-Vietnamese Corpus (EVC) which was tagged in word alignment, we choose the SITG (Stochastic Inversion Transduction Grammar) model to construct English- Vietnamese syntactic tree sets automatically. This model is used to parse two languages at the same time and then carry out the syntactic tree transfer. This English-Vietnamese bilingual syntactic tree set is the basic training data to carry out transferring automatically from English syntactic trees to Vietnamese ones by machine learning models. We tested the syntax analysis by comparing over 10,000 sentences in the amount of 500,000 sentences of our English-Vietnamese bilingual corpus and first stage got encouraging result $(analyzed\;about\;80\%)[5].$ We have made use the TBL algorithm (Transformation Based Learning) to carry out automatic transformations from English syntactic trees to Vietnamese ones based on that parallel syntactic tree transfer set[6].

  • PDF

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

  • 박요한;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.341-354
    • /
    • 2023
  • 문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

소의 초기 임신 황체에서 PAPP-A와 $20{\alpha}$-HSD의 발현 양상 (Expression of PAPP-A and $20{\alpha}$-HSD in the Bovine Corpus Luteum during Early Pregnancy)

  • 김대승;김상환;윤종택
    • 한국수정란이식학회지
    • /
    • 제26권1호
    • /
    • pp.57-63
    • /
    • 2011
  • This study was performed to the expressions of pregnancy-associated plasma protein-A (PAPP-A) and 20alpha-hydroxysteroid dehydrogenase ($20{\alpha}$-HSD) in bovine corpus luteum during early pregnancy. To determine the function of PAPP-A gene during early pregnancy, we collected corpus luteum samples on 30, 60 and 90 days of pregnancy in bovine. The mRNA expression of PAPP-A, $20{\alpha}$-HSD, progesterone-receptor (PR) and insulin-like growth factor binding protein4 (IGFBP4) gene was conducted by Real-time PCR. In parallel with mRNA levels, The protein expressions of PAPP-A and $20{\alpha}$-HSD were detected by immunological analysis. The mRNA expressions $20{\alpha}$-HSD and PAPP-A significantly increased on day 90 in the corpus luteum during pregnancy. The mRNA expression of PR and JGFBP4 in the corpus luteum progressively was enhanced at 30 to 60 day, but decreased on 90 day of pregnancy in the corpus luteum. The expression patterns of these genes, PAPP-A and $20{\alpha}$-HSD were similar pattern in these tissues. In conclusion, PAPP-A and $20{\alpha}$-HSD activity in corpus luteum could be played a role for early pregnancy manifestation.

위키피디아로부터 한국어-영어 병렬 문장 추출 (Extracting Korean-English Parallel Sentences from Wikipedia)

  • 김성현;양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권8호
    • /
    • pp.580-585
    • /
    • 2014
  • 본 연구는 '위키피디아 데이터를 이용한 병렬 문장 추출'이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

정렬기법을 이용한 미등록 대역어의 자동 추출 (Automatically Extracting Unknown Translations Using Phrase Alignment)

  • 김재훈;양성일
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.231-240
    • /
    • 2007
  • 이 논문은 정렬 기법을 이용한 미등록 대역어 추출 모델을 제안하고 그 추출 시스템을 구현한다. 제안된 미등록 대역어 추출 모델은 일종의 구절정렬 모델로서 경계모델과 언어모델 그리고 번역 모델로 구성된다. 제안된 추출 시스템은 병렬말뭉치 구축, 단어정렬, 미등록어 추출로 구성된다. 이 논문에서는 제안된 시스템을 평가하기 위해서 약 1,500여 개의 미등록어가 포함된 2,200문장의 평가말뭉치를 구축하여 다양한 실험을 수행하였다. 실험을 통해서 제안된 모델이 미등록 대역어 추출에 매우 유용함을 알 수 있었다. 앞으로 좀 더 객관적인 평가를 위해 대량의 평가말뭉치 구축이 선행되어야 하며 좀 더 양질의 병렬말뭉치의 구축이 필요할 것이다. 또한 미등록어 추출 모델을 개선하기 다양한 연구가 추진되어야 할 것이다.

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

The Use of MSVM and HMM for Sentence Alignment

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제8권2호
    • /
    • pp.301-314
    • /
    • 2012
  • In this paper, two new approaches to align English-Arabic sentences in bilingual parallel corpora based on the Multi-Class Support Vector Machine (MSVM) and the Hidden Markov Model (HMM) classifiers are presented. A feature vector is extracted from the text pair that is under consideration. This vector contains text features such as length, punctuation score, and cognate score values. A set of manually prepared training data was assigned to train the Multi-Class Support Vector Machine and Hidden Markov Model. Another set of data was used for testing. The results of the MSVM and HMM outperform the results of the length based approach. Moreover these new approaches are valid for any language pairs and are quite flexible since the feature vector may contain less, more, or different features, such as a lexical matching feature and Hanzi characters in Japanese-Chinese texts, than the ones used in the current research.

한국어 낱말 묶기와 그 응용 (Chunking Korean and an Application)

  • 은광희;홍정하;유석훈;이기용;최재웅
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권2호
    • /
    • pp.49-68
    • /
    • 2005
  • Application of chunking to English and some other European languages has shown that it is a viable parsing mechanism for natural languages. Although a small number of attempts have been made to apply chunking to the analysis of the Korean language, it still is not clear enough what criteria there are to identify appropriate units of chunking, and how efficient and valid the chunking algorithms would be when applied to some authentic Korean texts. The purpose of this research is to provide an alternative set of algorithms for chunking Korean, and to implement them, and to test them against some English-Korean parallel corpora, which is English and Korean bibles matched sentence by sentence. It is shown in the paper that aligning related texts and identifying matched phrases between the two languages can be achieved through appropriate chunking and matching algorithms defined on the morphologically-tagged parallel corpus. Chunking and matching processes are based on the content words rather than the function words, and the matching itself is done in terms of the transfer dictionary. The implementation is done in C and XML, and can be accessed through the Internet.

  • PDF

Sacral Insufficiency Fractures : How to Classify?

  • Bakker, Gesa;Hattingen, Joerg;Stuetzer, Hartmut;Isenberg, Joerg
    • Journal of Korean Neurosurgical Society
    • /
    • 제61권2호
    • /
    • pp.258-266
    • /
    • 2018
  • Objective : The diagnosis of insufficiency fractures of the sacrum in an elder population increases annually. Fractures show very different morphology. We aimed to classify sacral insufficiency fractures according to the position of cortical break and possible need for intervention. Methods : Between January 1, 2008 and December 31, 2014, all patients with a proven fracture of the sacrum following a low-energy or an even unnoticed trauma were prospectively registered : 117 females and 13 males. All patients had a computer tomography of the pelvic ring, two patients had a magnetic resonance imaging additionally : localization and involvement of the fracture lines into the sacroiliac joint, neural foramina or the spinal canal were identified. Results : Patients were aged between 46 and 98 years (mean, 79.8 years). Seventy-seven patients had an unilateral fracture of the sacral ala, 41 bilateral ala fractures and 12 patients showed a fracture of the sacral corpus : a total of 171 fractures were analyzed. The first group A included fractures of the sacral ala which were assessed to have no or less mechanical importance (n=53) : fractures with no cortical disruption ("bone bruise") (A1; n=2), cortical deformation of the anterior cortical bone (A2; n=4), and fracture of the anterolateral rim of ala (A3; n=47). Complete fractures of the sacral ala (B; n=106) : parallel to the sacroiliac joint (B1; n=63), into the sacroiliac joint (B2; n=19), and involvement of the sacral foramina respectively the spinal canal (B3; n=24). Central fractures involving the sacral corpus (C; n=12) : fracture limited to the corpus or finishing into one ala (C1; n=3), unidirectional including the neural foramina or the spinal canal or both (C2; n=2), and horizontal fractures of the corpus with bilateral sagittal completion (C3; n=8). Sixty-eight fractures proceeded into the sacroiliac joint, 34 fractures showed an injury of foramina or canal. Conclusion : The new classification allowes the differentiation of fractures of less mechanical importance and a risk assessment for possible polymethyl methacrylate leaks during sacroplasty in the direction of the neurological structures. In addition, identification of instable fractures in need for laminectomy and surgical stabilization is possible.