• 제목/요약/키워드: Bilingual Language

검색결과 132건 처리시간 0.025초

웹 번역문서 판별과 병렬 말뭉치 구축 (Judging Translated Web Document & Constructing Bilingual Corpus)

  • Jee-hyung, Kim;Yill-byung, Lee
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.787-789
    • /
    • 2004
  • People frequently feel the need of a general searching tool that frees from language barrier when they find information through the internet. Therefore, it is necessary to have a multilingual parallel corpus to search with a word that includes a search keyword and has a corresponding word in another language, Multilingual parallel corpus can be built and reused effectively through the several processes which are judgment of the web documents, sentence alignment and word alignment. To build a multilingual parallel corpus, multi-lingual dictionary should be constructed in each language and HTML should be simplified. And by understanding the meaning and the statistics of document structure, judgment on translated web documents will be made and the searched web pages will be aligned in sentence unit.

  • PDF

병렬 말뭉치를 이용한 CEFR 기반 문장 작문 평가 (CEFR-based Sentence Writing Assessment using Bilingual Corpus)

  • 최승권;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.54-57
    • /
    • 2023
  • CEFR(Common European Framework of Reference for Language)는 유럽 전역의 교육기관에서 언어구사 능력을 평가하는 평가 기준이다. 본 논문은 학습자가 문장 작문한 것을 CEFR 에 기반하여 평가하는 모델을 기술하는 것을 목표로 한다. CEFR 기반 문장 작문 평가는 크게 전처리 단계, 작문 단계, 평가 단계로 구성된다. CEFR 기반 문장 작문 평가 모델의 평가는 CEFR 수준별로 분류한 문장들이 전문가의 수동 분류와 일치하는 지의 정확도와 학습자가 작문한 결과의 자동 평가로 측정되었다. 실험은 독일어를 대상으로 하였으며 독일어 전공 41 명의 대학생에게 CEFR 6 등급별로 5 문장씩 총 30 문장의 2 세트를 만들어 실험을 실시하였다. 그 결과 CEFR 등급별 자동 분류는 전문가의 수동 분류와 61.67%로 일치하는 정확도를 보였다.

부트스트래핑 기반의 단어-임베딩 투영 학습에 의한 대역어 사전 구축 (Bootstrapping-based Bilingual Lexicon Induction by Learning Projection of Word Embedding)

  • 이종서;왕지현;이승진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.462-467
    • /
    • 2020
  • 대역사전의 구축은 저자원 언어쌍 간의 기계번역의 품질을 높이는데 있어 중요하다. 대역사전 구축을 위해 기존에 제시된 방법론 중 단어 임베딩을 기반으로 하는 방법론 대부분이 영어-프랑스어와 같이 형태적 및 구문적으로 유사한 언어쌍 사이에서는 높은 성능을 보이지만, 영어-중국어와 같이 유사하지 않은 언어쌍에 대해서는 그렇지 못하다는 사실이 널리 알려져 있다. 본 논문에서는 단어 임베딩을 기반으로 부트스트래핑을 통해 대역사전을 구축하는 방법론을 제안한다. 제안하는 방법론은 소량의 seed 사전으로부터 시작해 반복적인 과정을 통해 대역사전을 자동으로 구축하게 된다. 이후, 본 논문의 방법론을 이용해 한국어-영어 언어쌍에 대한 실험을 진행하고, 기존에 대역사전 구축 용도로 많이 활용되고 있는 도구인 Moses에 사용된 방법론과 F1-Score 성능을 비교한다. 실험 결과, F1-Score가 약 42%p 증가함을 확인할 수 있었으며, 초기에 입력해준 seed 사전 대비 7배 크기의 대역사전을 구축하였다.

  • PDF

한국어와 영어 두 언어를 동시에 습득하는 한국어린이의 한국어 후치부정어 습득에 대한 연구 (The Development of Postverbal Negation in Korean in a Korean-English Bilingual Child)

  • 김명숙
    • 인지과학
    • /
    • 제20권4호
    • /
    • pp.383-419
    • /
    • 2009
  • 본 연구의 목적은 첫째, 태어나면서부터 영어와 한국어를 동시에 습득하는 한 한국어린이(R)의 한국어 후치부정어 발달과정을 살펴보는 것이고, 둘째, 후치부정어의 발달과정과 실제 사용상의 발달적인 측면에서 한국어만 습득하는 어린이들과 비교하여 비슷한 발달 모습과 다른 모습을 분석하는 것이다. 세 번째는 R의 한국어 부정어 습득 과정뿐만 아니라 관찰되는 특별한 형태의 원인을 규명하고자 하는 것이다. 본 연구의 대상은 한국어와 영어를 동시에 습득하는 어린이이며, 연구방법은 종단연구를 사용하였으며, 한국어의 후치부정어 발달을 5세에서 7세 사이의 2년에 걸쳐 연구하였다. 전체적으로 R 의 후치부정어의 습득은 습득환경의 영향으로 속도에 차이가 있으며 한국어만 습득하는 어린이와 비슷한 발달모습을 보이지만 다른 발달모습도 나타내는 것으로 나타났다. 이 연구 결과는 R이 호주에 살고 있는 동안에는 모국어와 제2언어 학습메커니즘 두 기능 모두를 사용한다는 것을 보여 주고, 그 반면에 한국에 살고 있는 동안에는 모국어 학습메커니즘 만을 사용한다는 것을 보여 주고 있다. 이러한 결과는 모국어와 제2언어 학습메커니즘이 기본적으로는 서로 다르지 않다는 것을 보여 주고 있다. 왜냐하면 한 어린이가 서로 다른 두 언어 환경에 따라 발달 과정이 퇴보하였다 진보하였다 하는 특성을 보여 주기 때문이다.

  • PDF

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.

도널드 트럼프와 글로리아 안살두아의 '언어' 게임 (Language Games between Donald Trump and Gloria Anzaldúa)

  • 박정원
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.85-112
    • /
    • 2017
  • 미국의 제45대 대통령으로 취임한 도널드 트럼프는 선거캠페인이 시작된 이래로 '영어유일주의'를 천명해 왔다. 이 단일언어 정책은 세계화가 본격화된 1990년대 이후 미국의 인구학적, 문화적 변화에 직면하여 이민자와 다문화주의를 거부하고 토착주의를 강조하는 흐름의 연장선상에 놓여있다. 특히, 미국의 히스패닉화와 스페인어의 성장에 대한 반작용으로 백인중심의 문화와 가치를 고수하려는 시도와 연결되어 있다. 본 논문은 이러한 트럼프의 단일언어주의를 대표적인 라티나 작가인 글로리아 안살두아가 제안하는 '경계의 언어'와 대비시키면서 코드스위칭의 효과와 이중언어 공동체의 가능성을 탐구한다. "경계지대/국경"(1987)에서 안살두아는 하위언어인 스페인어를 텍스트에 포함시키며 자신의 언어적 현실을 드러냄과 동시에, 영어와 스페인어의 교차사용을 통한 번역작업을 시도한다. 다른 한편으로는 번역의 불가능성을 드러내면서 이중언어 사용의 불가피함을 암시하는 한편, 단일언어 독자들에게 타자의 언어와 문화를 이해하고 소통해야할 필요성에 대해 역설한다. 안살두아가 구현하는 '경계의 언어'는 이질적인 민족, 계급, 세대의 언어가 충돌하고 교섭하는 게임의 과정을 통해 생성된다. 고정되기보다는 계속적으로 변화하는 언어적 형태를 통해 안살두아는 단일 언어주의를 넘어서는 새로운 시각과 더불어 다양한 언어들 사이에서 대안적 소통방식의 필요성을 제기한다.

The Parallel Corpus Approach to Building the Syntactic Tree Transfer Set in the English-to- Vietnamese Machine Translation

  • Dien Dinh;Ngan Thuy;Quang Xuan;Nam Chi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.382-386
    • /
    • 2004
  • Recently, with the machine learning trend, most of the machine translation systems on over the world use two syntax tree sets of two relevant languages to learn syntactic tree transfer rules. However, for the English-Vietnamese language pair, this approach is impossible because until now we have not had a Vietnamese syntactic tree set which is correspondent to English one. Building of a very large correspondent Vietnamese syntactic tree set (thousands of trees) requires so much work and take the investment of specialists in linguistics. To take advantage from our available English-Vietnamese Corpus (EVC) which was tagged in word alignment, we choose the SITG (Stochastic Inversion Transduction Grammar) model to construct English- Vietnamese syntactic tree sets automatically. This model is used to parse two languages at the same time and then carry out the syntactic tree transfer. This English-Vietnamese bilingual syntactic tree set is the basic training data to carry out transferring automatically from English syntactic trees to Vietnamese ones by machine learning models. We tested the syntax analysis by comparing over 10,000 sentences in the amount of 500,000 sentences of our English-Vietnamese bilingual corpus and first stage got encouraging result $(analyzed\;about\;80\%)[5].$ We have made use the TBL algorithm (Transformation Based Learning) to carry out automatic transformations from English syntactic trees to Vietnamese ones based on that parallel syntactic tree transfer set[6].

  • PDF

다문화 청소년의 소수언어 구사수준: 이중문화 수용태도, 부모의 교육적 지원, 부모-자녀 간 소수언어 사용도의 영향 (Minority Language Proficiency of Multicultural Adolescents: The Effects of Bicultural Acceptance Attitudes, Parents' Educational Support, and the Use of the Minority Language at Home)

  • 캉리;최나야;강소연
    • Human Ecology Research
    • /
    • 제59권4호
    • /
    • pp.543-556
    • /
    • 2021
  • This study aimed to investigate the factors that influence multicultural adolescents' proficiency in their mother's native language, or their immigrant mother's native language. A hierarchical regression analysis was performed on data from the survey answered by 1,028 multicultural adolescents aged 15 years old and whose mothers were from foreign countries for the 6th Multicultural Adolescents Panel Study(MAPS) conducted by the National Youth Policy Institute (NYPI) in 2016. The main results are as follows. First, multicultural adolescents' minority language proficiency was generally low and significant differences were observed according to their gender, parents' educational level, household income, and mother's native country. More specifically, a higher proficiency in minority language was found for girls than boys, adolescents with a higher parental educational level, adolescents with a higher income, and adolescents whose mothers were from Japan or China, compared with those from the Philippines, Thailand, or Vietnam. Second, a significant positive correlation was observed between multicultural adolescents' minority language proficiency and 1) foreign culture acceptance, 2) parent's educational support, and 3) the use of the minority language at home. Third, foreign culture acceptance, parents' educational support, and the use of the minority language at home were predictors of multicultural adolescents' minority language proficiency. The study is meaningful in that it examined multicultural adolescents' minority language proficiency, elucidating their bilingual development, whereas previous studies have only focused on their proficiency in Korean, which is the majority language.

Content Validity of a Korean-Translated Version of a Fullerton Advanced Balance Scale: A Pilot Study

  • Kim, Gyoung-mo
    • 한국전문물리치료학회지
    • /
    • 제22권4호
    • /
    • pp.51-61
    • /
    • 2015
  • The purpose of this study were to translate the Fullerton Advanced Balance (FAB) scale into Korean and to verify the content validity by utilizing a back-translation method with a view to assessing balance function and the risk of falling in a clinical research setting. This research was conducted in six steps. First, three Korean physical therapists translated the FAB scale into Korean. Second, two bilingual professors of physical therapy and a physical therapist evaluated translation conformity of Korean-translated FAB scale. In the third and fourth steps, twelve physical therapists evaluated the degree of translation comprehension, and a translator back-translated the Korean FAB scale into the original language. Fifth, a bilingual professor of physical therapy and two native speakers evaluated the technical and conceptual equivalence between the original and translation versions. In this process, inappropriate translated items were revised using recommended substitute words or sentences, and all items were evaluated on the basis of three points or more on a rating scale in terms of translation comprehension, and the technical and conceptual equivalence of the back-translation. In the sixth and last step, the translation verification committee completed the final Korean version. The above process indicated that the content validity of the Korean-translated FAB scale was established by means of systematic translation methods, and it can therefore be used to assess balance function and the risk of falls in a clinical research setting.