• 제목/요약/키워드: 영어 학습자 코퍼스

검색결과 7건 처리시간 0.021초

한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 (Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students)

  • 이석재;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제14권11호
    • /
    • pp.1019-1029
    • /
    • 2014
  • 최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.

기계학습기법을 이용한 영어작문 문장 수준평가 시스템 (A English Composition Level Assessment System Using Machine Learning Techniques)

  • 엄진희;곽동민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

대화 패턴 기반 대화 의도 반자동 부착 방법 (Semi-Automatic Dialog Act Annotation based on Dialog Patterns)

  • 최승권;정상근;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1298-1301
    • /
    • 2013
  • 대화 시스템에서 올바른 대화를 진행하기 위해서는 화자의 대화 의도를 파악하는 것이 중요하다. 특히 영어를 교육하기 위한 영어 교육용 대화 시스템에서는 학습자의 대화 의도 파악 오류가 발생할 경우 영어 교육에 문제가 발생하기 때문에 학습자의 대화 의도를 더욱 정확하게 분석 및 파악하는 것이 중요하다. 대화 패턴이란 시스템 발화에 대응되는 사용자 발화의 규칙적인 연쇄라고 할 수 있다. 대화 패턴 기반 대화 의도 부착 방법은 1) 대화 코퍼스 구축 2) 대화 시나리오에 있는 발화를 대상으로 기본 명사구 청킹(Base NP Chunking)을 하고 중심어(Head Word), 토픽 추적(Topic Tracking)에 의한 대화 패턴을 자동으로 추출한 후, 3) 대화 패턴 수동 검수이다. 대화 패턴 기반 대화 의도 부착 방법은 기본 명사구에 대한 지식만 가지고 있으면 대량으로 구축할 수 있다는 장점이 있다. 99 개의 대화 시나리오를 학습코퍼스로 하고 1 개의 대화 시나리오에 대해 대화턴 성공률을 시물레이션 한 결과 63.64%가 나왔다.

코퍼스 지표를 활용한 모의 토익시험의 유용성 검증 : 난이도와 변별도 분석을 중심으로 (Verification of the Usefulness of the Mock TOEIC Test using Corpus Indices : Focusing on the Analysis of Difficulty and Discrimination)

  • 이예나
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.576-593
    • /
    • 2021
  • 본 연구에서는 토익 시험의 정답률과 변별도에 영향을 미치는 구조적인 요인이 무엇인지 분석하기 위하여 문항 분석에서 도출된 각 파트별 코퍼스 지표들을 분석하였다. 이를 위하여 모의 토익 시험의 정답률과 변별도에 대한 코퍼스 요인들의 회귀 분석을 실시하였고, 분석 결과는 다음과 같다. 정답률에 대해서는 기초산출치중에서 word_length, no_word_sentence1, sentence_length, 정합성 지표들 중에서는 LSA_overlap_adjacent_sentences, 어휘 다양성 지표들 중에서는 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, 상황모형 지표들 중에서는 casual_particles_causal_verbs_Ratio, 통사적복잡성 지표들 중에서는 Minimal_Edit_Distance1, Left_embeddedness, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, Preposition_phrase_density 등이 음의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 토익의 정답률을 낮추는 효과가 있기 때문에 하위 레벨의 학습자들이 단기적인 학습효과를 향상시킬 수 있는 중요한 정보들을 제공해 줄 수 있을 것이다. 변별도에 대해서는 어휘 다양성 지표들 중에서 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, Additive_connectives_incidence, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, 어휘정보 지표들 중에서는 person1_2_pronoun_incidence 등이 정의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 변별도 증가에 영향을 주기 때문에 영어 능력 하위 그룹에 필요한 학습 프로그램을 개발하는 데 있어서 활용될 수 있을 것이다.

The Ability of L2 LSTM Language Models to Learn the Filler-Gap Dependency

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.27-40
    • /
    • 2020
  • 본 논문은 장단기기억신경망(LSTM)이 영어를 배우면서 학습한 암묵적 통사 관계인 필러-갭 의존 관계를 조사하여 영어 문장 학습량과 한국인 영어 학습자(L2ers)의 문장 처리 패턴 간의 상관관계를 규명한다. 이를 위해, 먼저 장단기기억신경망 언어모델(LSTM LM)을 구축하였다. 이 모델은 L2ers가 영어 학습 과정에서 잠재적으로 배울 수 있는 L2 코퍼스의 영어 문장들로 심층학습을 하였다. 다음으로, 이 언어 모델을 이용하여 필러-갭 의존 관계 구조를 위반한 영어 문장을 대상으로 의문사 상호작용 효과(wh-licensing interaction effect) 즉, 정보 이론의 정보량인 놀라움(surprisal)의 정도를 계산하여 문장 처리 양상을 조사하였다. 또한 L2ers 언어모델과 상응하는 원어민 언어모델을 비교 분석함으로써, 두 언어모델이 문장 처리에서 필러-갭 의존 관계에 내재된 추상적 구문 구조를 추적할 수 있음을 보여주었을 뿐만 아니라, 또한 선형 혼합효과 회귀모델을 사용하여 본 논문의 중심 연구 주제인 의존 관계 처리에 있어서 원어민 언어모델과 L2ers 언어모델간 통계적으로 유의미한 차이가 존재함을 규명하였다.

철자 기반과 음절 기반 속도가 한국인 영어 학습자의 발음 평가에 미치는 영향 비교 (Comparing the effects of letter-based and syllable-based speaking rates on the pronunciation assessment of Korean speakers of English)

  • 정현성
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.1-10
    • /
    • 2023
  • 본 연구에서는 AI Hub에 구축된 '교육용 한국인의 영어 음성 데이터'에 있는 발음 평가 데이터를 활용하여 철자 기반 발화 속도 및 조음 속도와 음절 기반 발화 속도 및 조음 속도 중 발음 정확성 및 운율 유창성, 합산 점수를 예측하는 모델에 어떤 요소가 더 유의미한 영향을 미치는지 분석하였다. 이를 위해 13세, 19세, 26세 연령별, 성별, 수준별로 이 코퍼스의 훈련 데이터에서 총 900개 발화를 추출하여 데이터에 포함된 다양한 요소를 활용해 평가 점수를 예측하는 선형효과분석을 실행하였다. 선형효과분석에서 최적의 세 개 모델을 통해 예측된 평가 점수를 검증 데이터에서 추출한 총 180개 발화의 평가 점수와 얼마나 상관관계가 있는지도 분석하였다. 분석 결과 발음의 정확성과 운율의 유창성, 합산 점수 예측 모델 모두 철자 기반 발화 속도와 조음 속도보다 음절 기반 발화 속도와 조음 속도가 평가 점수를 예측하는데 더 큰 영향을 주는 것으로 밝혀졌다. 모델에서 예측한 점수와 검정 데이터의 실제 점수와의 상관계수는 .65에서 .68 사이로 각 모델의 평가 점수 예측력이 나쁘지 않았다. 발화 속도와 조음 속도 간에 어떤 요소가 더 큰 영향을 미치는지는 본 연구를 통해 밝혀내지 못하였다.

한국인 영어학습자의 명사구 발화에서 영어 능숙도에 따른 관사와 단음절 명사 모음 길이 비교 (Comparison of vowel lengths of articles and monosyllabic nouns in Korean EFL learners' noun phrase production in relation to their English proficiency)

  • 박우지;모란;이석재
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.33-40
    • /
    • 2020
  • 본 연구는 기능어인 관사 및 1음절 내용어 명사로 구성된 명사구 내 두 단어의 모음 길이 비율과 영어 능숙도 사이의 상관관계를 밝히는 데 목적이 있다. 영어와 한국어 발음에 있어서 대표적 차이 중 하나는 발음상의 리듬이라는 특정적인 요소가 규칙적으로 나타나는지 여부이다. 특히 영어 발화시 내용어는 기능어 대비 상대적으로 더 두드러진(prominent) 소리를 가지게 되는데 이는 영어에서 내용어의 경우 강세를 갖게 되나 기능어의 경우 그 강세가 미비하거나 강세를 갖지 않기 때문이다. 따라서 영어의 내용어 단어 내 모음은 기능어 단어의 모음보다 길게 발음되며, 더 큰 소리로 발화되며, 더 높은 소리를 가지고 리듬을 만들어 내게 된다. 이를 근거로 본 연구에서는 내용어 내 강세를 갖는 모음과 기능어 내 강세를 갖지 않는 모음의 길이 차이에 초점을 두고 유창성이 평가된 L2 영어 음성 코퍼스(Rated K-SEC) 중 한국인 초등학생이 발화한 879(원어민 발화 20개 포함)개의 문장 내 명사구 음성 파일을 연구자료로 사용하였다. 이 879개의 문장은 영어 유창성 평가에 따라 4개의 등급으로 각각 재분류되었으며 이들 문장안에 들어 있는 명사구 내의 관사의 모음 길이와 명사의 모음 길이를 확인하고 그 비율을 측정하였다. 분석 결과 관사 모음 대비 명사 모음 길이 비율은 영어 능숙도와 양의 상관관계를 갖는 것을 확인하였다[Advanced(2.453)>Intermediate High(1.26)>Intermediate Low(1.034)>Novice(0.857)]. 또한 각 능숙도 그룹 간 내용어-기능어 간 모음 길이의 차이 및 그 비율의 차이가 통계적으로 유의미한 것으로 나타났다(p< .001). 이는 한국인 화자의 경우 영어 유창성이 높아질수록 영어 단어 발화 시 명사구 내의 기능어인 관사 모음보다 내용어인 명사 모음을 통계적으로 유의하게 더 길게 발화한다는 것을 의미한다.