• Title/Summary/Keyword: 문장 정렬

Search Result 36, Processing Time 0.023 seconds

A Hybrid Sentence Alignment Method for Building a Korean-English Parallel Corpus (한영 병렬 코퍼스 구축을 위한 하이브리드 기반 문장 자동 정렬 방법)

  • Park, Jung-Yeul;Cha, Jeong-Won
    • MALSORI
    • /
    • v.68
    • /
    • pp.95-114
    • /
    • 2008
  • The recent growing popularity of statistical methods in machine translation requires much more large parallel corpora. A Korean-English parallel corpus, however, is not yet enoughly available, little research on this subject is being conducted. In this paper we present a hybrid method of aligning sentences for Korean-English parallel corpora. We use bilingual news wire web pages, reading comprehension materials for English learners, computer-related technical documents and help files of localized software for building a Korean-English parallel corpus. Our hybrid method combines sentence-length based and word-correspondence based methods. We show the results of experimentation and evaluate them. Alignment results from using a full translation model are very encouraging, especially when we apply alignment results to an SMT system: 0.66% for BLEU score and 9.94% for NIST score improvement compared to the previous method.

  • PDF

Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues (메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점)

  • HUANG YINXIA;Jin-san An;Kil-im Nam
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

Patterns of categorical perception and response times in the matrix scope interpretation of embedded wh-phrases in Gyeongsang Korean (경상 방언 내포문 의문사의 작용역 범주 지각 양상과 반응 속도 연구)

  • Weonhee Yun
    • Phonetics and Speech Sciences
    • /
    • v.15 no.2
    • /
    • pp.1-11
    • /
    • 2023
  • This study investigated the response time and patterns of categorical perception of the wh-scope of an embedded clause with the non-bridge verb, "gung-geum hada 'wonder'," in the matrix verb phrase in Gyeongsang Korean. Using the same procedure as Yun (2022), 72 responses and response times for each stimulus were collected from 24 participants over the course of three trials. The stimuli were recorded readings of 40 speakers (20 male, 20 female). Context was provided to induce a matrix scope interpretation of the embedded wh-phrase in the target sentence. We sorted the 40 stimuli according to the number of matrix scope responses each received, and charted the response times for each stimulus. Although there was considerable overlap for the different types of wh-scope interpretations, there was a clear difference in categorical perception between the matrix and embedded scopes. The 24 participants also differed in their categorical perceptions. The results suggested that response time and wh-scope interpretation were not directly related and that two main weighted factors affected wh-scope interpretation: morpho-syntactic constraints and prosodic structural integrity. The weighting of each of these factors was inversely correlated and varied among subjects.

Prospective Changes of English Digital Textbook Based on the Universal Design for Learning (보편적 학습 설계에 근거한 영어과 디지털 교과서 개선 방안)

  • Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.7
    • /
    • pp.674-683
    • /
    • 2015
  • One of the issues with the textbooks pertinent to the current study is whether or not the Universal Design for Learning (UDL) factors have been dealt to satisfy students with different aptitudes in learning the core objectives of the lessons. This study develops a modified version of the UDL analysis criteria from the cross curricular criteria to language teaching and learning and uses it to analyze the sequence of digital English textbooks to investigate the descriptive statistics of the UDL factors in the new textbooks. The result shows that the textbook is designed most favorably to the students with the talent of linguistic aptitude and less favorably to the students with other types of aptitudes. The sequence analysis shows that sentence/word length and appearance of new words are incrementally sequenced as students advance upper grades. However, the syntactic complexity of middle school curves up steeply which is different from the elementary school textbooks. The UDL analysis will provide learning factors to consider when designing digital English textbooks to cover different aptitudinal groups.

의사소통식 영어 발음지도

  • 김정렬
    • Proceedings of the KSPS conference
    • /
    • 1997.07a
    • /
    • pp.45-60
    • /
    • 1997
  • 의사소통식 영어교수법은 Widdowson (1978)이래, 과거 20여 년간의 여러 외국어 교수 방법들을 (침묵식 교수법, Gattegno; 자연적 교수법, Terrell & Krashen; 전신반웅 교수법, Asher; 집단언어 학습법, Curran; 암시적 교수법, Lozanov) 거치면 서, 이들 중에서 의사소통을 중심으로 한 여러 가지 방법을 총괄하여, 명실공히 외국어 교육 방법의 중심으로 그 자리를 갈수록 확고히 잡아가고 있다. 의사소통식 교수법은 우선 언어란 의사소통을 위한 수단이며, 의사소통은 사회 속에서 일어나는 사회 언어적 행위로 본다. 따라서, 외국어 교육의 목적을 무엇보다도 의사소통 기능의 숙달에 두는 것이다. 일반적인 의사소통 상황을 보면 발화내용의 문법적 정확성은 그 상황에 대한 내용의 적절성 여부에 비하면, 부수적인 것이다. 예를 들면, 사과를 하는 의사소통기능을 공부하면서, 사과하는 표현으로 Sorry라는 말을 썼다고 하자. 이때, 영어는 주어 생략 언어가 아니기 때문에, Sorry 대신에 문법적으로 완전한 문장인 I'm sorry 로 표현해야 한다는 문법적인 문제보다는 사과하는 표현이 그 상황에서 적절하게 쓰인 것인지를 묻는 것에 초점을 맞춘 것이 의사소통식 교수 방법이다. 현재, 초등학교 16 종 영어 교과서도 의사소통 기농들을 적절한 상황에 맞춰서 의사소통식 교수 방법의 정신을 비교적 잘 반영하고 있다. 그러나, 발음에서만큼은 아직도 의사소통식 교수방법을 무시하고, 정확한 발음의 명시적인 설명이나, 예시에 그치는 경향이 뚜렷하다. 이러한 경향은 교육부에서 고시한 제6차 교육과정과 이에 따른 해설서에서 되풀이되고 있다. 발음지도에 많은 관심을 기울여 많은 양의 지면을 할애하고 있음에도 불구하고, 전후에 흐르는 의사 소통식 영어교육의 맥을 완전히 끊고, 단지 정확한 발음의 해부학적 예시와 기술에 그 치고 있다 (임영재 외 1995). 이러한 발음기관의 단면도를 이용한 해부학적 발음의 예시는 특정 자음의 정확한 혀의 위치를 알려 줄 수는 있지만, 발음훈련을 대신하지는 못한다. 예를 들어, 자전거를 타고자 하는 사람이 자전거의 페달을 밟았을 때, 그 동력전달 과정을 자세히 소개한 책자를 읽었다고 해서, 자전거를 탈 수 있는 것은 아니다. 역시, 자전거를 타고자 하면, 실제로 타고 넘어지면서 배우게 되는 것이다. 그리고, 발음훈련의 경우 교재의 내용이나 의사소통 기능은 의사소통식으로 가르치면서도 발음만큼은 아직도 원어민의 입모양을 활용한 듣고 따라하기 식의 전통적인 방법의 발음훈련을 계속하고 있다. 이러한 전통적 발음훈련 방법은 구체적으로 다음 장에서 제시되겠지만, 초등학교에서 듣고 따라하기나 듣고 골라내기와 같은 방법으로 발음훈련을 하면, 많은 학생들이 쉽게 지루해 하고, 아마 영어시간 중에서 가장 싫어하는 시간이 발음연습 시간이 될 가능성이 많이 있다. 현재 의사소통식 교수 방법을 모태로 한 교과서에서도 의사소통식 발음지도법을 쓰지 않았다는 것은 새로이 시작하는 초등학교 영어교육에서 아쉬운 점이라 아니할 수 없다. 초등학교 학생들에 대한 발음 지도의 핵심은 그들의 지적, 정서적, 신체적 특징을 잘 고려해야 한다. 초등학교 학생은 지적, 정서적, 신체적으로 성장기에 있어서, 호기심이 많고, 모방성이 강하며, 감수성이 예민하여 마음에 상처를 받기도 쉽다. 그리고, 무엇보다도, 끊임없이 신체적으로 움직이고 싶어한다. 이러한 학생들의 특정 을 반영하여 발음을 지도하는 길은 역시 초등학교 교과서의 다른 영역들처럼, 학생들은 움직이는 활동을 하면서 재미를 느끼고, 교사는 이들 활동을 통해서 교수목표를 성취하는 쪽으로 맞추어야 한다. 본 논문에서는 먼저 발음지도가 필요한 이유와 요인을 살펴본다. 그리고, 전통적인 발음지도 방법을 일별해 보고, 의사소통식 발음지도법을 제시하는 순으로 논의를 전개하기로 한다.

  • PDF

A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering (자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구)

  • Kunyoung Kim;Jeongbin Lee;Mye Sohn
    • Journal of Internet Computing and Services
    • /
    • v.24 no.6
    • /
    • pp.127-135
    • /
    • 2023
  • With the development of information and communication technology, the amount of information produced and shared in the battlefield and stored and managed in the system dramatically increased. This means that the amount of information which cansupport situational awareness and decision making of the commanders has increased, but on the other hand, it is also a factor that hinders rapid decision making by increasing the information overload on the commanders. To overcome this limitation, this study proposes a method to automatically search, select, and summarize documents that can help the commanders to understand the battlefield situation reports that he or she received. First, named entities are discovered from the battlefield situation report using a named entity recognition method. Second, the documents related to each named entity are discovered. Third, a language model and collaborative filtering are used to select the documents. At this time, the language model is used to calculate the similarity between the received report and the discovered documents, and collaborative filtering is used to reflect the commander's document reading history. Finally, sentences containing each named entity are selected from the documents and sorted. The experiment was carried out using academic papers since their characteristics are similar to military documents, and the validity of the proposed method was verified.