• Title/Summary/Keyword: 언어모형

Search Result 391, Processing Time 0.026 seconds

Effects of Task-based Language Learning Utilizing Self-regulated Learning Strategies (자기조절학습전략 활용 과제기반언어학습의 효과분석)

  • Kim, Soo-Hyun;Lee, Myung-Geun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.01a
    • /
    • pp.153-157
    • /
    • 2012
  • 이 연구는 자기조절학습전략 활용 과제기반언어학습을 영어수업에 적용한 후 학업성취도와 영어 학습태도 차원에서 그 효과성을 규명하고자 하였다. 먼저 학습자의 능동적인 학습과정을 도울 수 있는 자기조절학습전략 활용 과제기반언어 교수 학습 모형을 도출하였다. 이어서 초등영어 5학년 정규교육과정운영 틀에서 자기조절학습전략 활용 과제기반언어학습 수업을 설계하고 실제 적용하였다. 연구결과 첫째, 자기조절학습전략 활용 과제기반언어학습은 학업성취 상위, 중위, 하위 집단에 따른 학업성취도 변화에 대한 분석 결과 학업성취 상위집단과 하위집단 간에 유의미한 차이를 보였다. 둘째, 자기조절학습전략 활용 과제기반언 어학습은 영어에 대한 자아개념, 영어에 대한 태도, 영어에 대한 학습 습관으로 정의된 영어 학습태도의 모든 영역에서 유의미한 차이가 있었다. 자기조절학습전략 활용 과제기반언어학습은 학습자 중심 교육이라는 초등영어교육 추세를 고려할 때 교육현장에 유용하므로 자기조절학습력과 실제적 의사소통능력에 초점을 둔 보다 다양한 교수설계 연구가 요청된다.

  • PDF

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Efficient Model-based Form Processing Methods for Various Kinds of Form Documents (다양한 유형의 서식문서 처리를 위한 효과적인 모형 기반 방법에 관한 연구)

  • 변영철;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.420-422
    • /
    • 1998
  • 본 논문에서는 여러 가지 유형의 서식문서를 효과적으로 처리하기 위한 방법을 제안하고 모형 기반 서식 처리 시스템을 위한 프레임워크를 구현한다. 이를 위해서 서식문서의 모형으로 등록되는 정보로서 네가지 유형의 서식문서에 관한 지식을 정의하고, 이를 기술하기 위한 서식 기술 언어를 정의한다. 먼저, 서식 등록 과정에서 서식에 관한 네가지 유형의 지식을 서식 모형으로 등록한다. 그리고 서식 처리 과정에서 시스템에 등록되어 있는 서식 모형을 이용하여 서식을 분류함으로써 계산 시간을 줄일 수 있다. 실험결과 8개의 서식 모형이 등록되어 있을 경우에는 평균 서식 분류 시간은 0.74초였으며, 5개 혹은 6개의 항목을 추출하는데 걸리는 시간은 평균 0.45초였다. 본 방법은 서식 영상의 질이 좋지 않을 경우에도 잘 동작함은 물론 서식 모형만 추가함으로써 다른 서식 문서도 쉽게 처리할 수 있다.

  • PDF

Development and Analysis of Water Quality Modeling for Integrated Management of Urban River Networks (도시하천 통합관리를 위한 수질모형의 개발 및 적용, 분석)

  • Yeon, Yoon Jeong;Lee, Jung Lyul
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.161-161
    • /
    • 2016
  • 본 연구는 Matlab GUI 언어를 기반으로 제작된 수질관리모형(WAQUMURIN; Water QUality Management program for Urban RIver Networks)의 개발 및 적용, 검증을 통한 수질분석을 목적으로 둔다. 서울한강수계를 대상지역으로 한강 상류의 팔당댐부터 한강 하류에 위치한 가양대교까지의 오염원 이동에 따른 BOD, T-P 농도를 분석하였다. 한강의 본류를 따라 분류되는 지천들과 한강서울수계 관할 하 4곳의 물재생센터(탄천, 중랑, 서남, 난지)의 배출부하량, 유량, 반응속도상수는 본 모형의 main factor로 설정되었으며 격자화된 데이터의 입출력이 가능토록 하였다. 6곳의 수질측정망(암사, 구의, 잠실, 똑도, 보광, 노량진, 영등포, 가양) 지점을 기준으로 실측치와 모형의 모의결과를 비교함으로써 정확도를 검토하였다. 이는 기존의 사용법이 어려운 수질모형의 한계를 깬 간단한 입출력 방식으로 비전문가들 또한 사용이 가능하며 예측 모형의 단순화라는 점의 연구 목적에 있다.

  • PDF

The Statistical Relationship between Types and Tokens (코퍼스 규모에 따른 타입과 토큰의 상관성 연구)

  • Yang, Kyung-Sook;Park, Byung-Sun;Lim, Jun-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.81-85
    • /
    • 2003
  • 이 논문의 목적은 코퍼스 크기에 따른 타입과 토큰간의 관계를 엄밀한 통계적 방법으로 그 특징을 밝히고자 하는 것이다. 지금까지 코퍼스를 구축하는 데 있어서, 자료의 다양성을 고려한 자료 균형성을 문제와 더불어 코퍼스 구축 규모의 문제는 매우 중요한 고려사항이었다. 이런 문제는 일찍이 영어 코퍼스를 중심으로 많은 연구가 진행된 바가 있지만 한국어를 대상으로 한 엄밀한 연구는 많이 이루어지지 않았다. 이 연구에서는 현재까지 구축한 현대 한국어 말뭉치 1억여 어절을 대상으로 말뭉치 크기 증가에 따른 타입과 토큰간의 통계적 관계를 3가지 모형에 대해 비교하였으며 최종적으로 ARIMA모형을 이용하여 그 함수적 관계를 밝혀보았다. 연구 결과에 따르면 한국어 자료는 약 1천만 어절의 토큰을 기준으로 타입의 변화가 다소 둔화되는 결과를 보인다. 연구에 의해 도출된 함수식을 이용하면 소규모의 자료를 이용하더라도, 대규모 자료에서의 타입수를 계산해 낼 수 있으므로, 더욱 다양하고 정확한 통계처리의 근거를 제시할 수 있게 된다.

  • PDF

Design of a Korean Intelligent Information Retrieval System (우리말 정보 자료를 처리하는 지능형 정보 검색 시스템의 설계)

  • 정영미
    • Journal of the Korean Society for information Management
    • /
    • v.8 no.2
    • /
    • pp.3-31
    • /
    • 1991
  • A prototype model of intelligent information retrieval system is presented with the definition of intelligent information retrieval. An intelligent information retrieval system for Korean documents was designed, and the system was implemented with Turbo Prolog 2.0 and Turbo Pascal 5.5. The characteristics of the system include natural language interface, user modeling, automatic indexing by case relationship, and multiple retrieval techniques.

  • PDF

Design and Implementation of Korean Lexical Acquistion Model using Computational Model (계산주의적 모델을 이용한 한국어 어휘습득 모텔 설계 및 구현)

  • Yu, Won-Hee;Park, Ki-Nam;Lyu, Ki-Gon;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.05a
    • /
    • pp.230-232
    • /
    • 2007
  • 본 논문은 인간의 언어정보처리과정 중 초기 어휘획득(lexical acquisition) 과정을 한국어에 적용시켜 Full-List 모형과 Decomposition 모형의 하이브리드한 형태의 계산주의적 (computational) 어휘정보처리 모델을 구현하고 실험하였다. 실험결과 학습을 통한 언어적 입력의 인간의 어휘획득 과정을 모사(simulate) 할 수 있었고, 특정 문법범주 습득 순서에 대한 이론적 근간을 제시할 수 있었다. 또한 본 연구의 모델에서 자동으로 생성된 Full-List 사전과 Decomposition 사전을 통해 인간의 대뇌 심성표상(mental representation) 형태를 유추할 수 있는 증거를 보였다.

  • PDF

말 실수와 의미 및 음운 정보 처리: 실험식 유도 말실수의 분석

  • Go, Hye-Seon;Lee, Jeong-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.114-122
    • /
    • 1996
  • 그림자극의 명명에 있어서 이름의 의미유사성, 음운유사성, 그리고 처리부담(말속도, 기억 부담)이 말 실수 오류수와 명명 시간에 주는 영향을 알기 위해 2개의 실험이 실시되었다. 의미(유사/상이), 음운(유사/상이) 변인에 추가하여 실험 1에서는 말속도(330ms, 385ms, 770ms)의 변인이, 실험 2에서는 인지적 부담(높음/낮음)의 변인이 조작되었다. 두 실험의 결과, 의미유사성과 음운유사성, 그리고 인지적 처리 부담이 말 실수의 양과 그림자극 명명 시간이 증가시킴이 드러났다. '의미유사' 조건 및 '음운유사 조건'과 '의미-음운 모두 유사' 조건간의 말실수의 양의 차이는 말 산출 과정에서의 어휘 인출 과정에 대한 '독립적 2단계 모형'과 '활성화 상호작용 모형' 중 전자에 의해 더 잘 설명될 수 있음이 논의되었다.

  • PDF

Syllabic Processing and Latter Perception in Korean Word Recognition (II) (한글 단어재인에 있어서 글자처리와 낱자의 지각 (II))

  • Kim, Jung-Oh;Kim, Jae-Kap
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.423-433
    • /
    • 1992
  • 낱자 또는 음절들을 매우 짧게 제시하고 차폐로 지운 후 두 낱자 중하나를 선택하는 과제 (Reicher, 1969)를 사용하여 음절 맥락에서 낱자 지각에 영향을 주는 변수들과 그 배후 지각과정들을 검토하였다. 자모 조합유형이 음절 내 낱자의 정체 파악에 체계적으로 영향을 주고 있었고, 예상과는 달리 음절 내의 낱자들이 단독으로 제시되는 낱자 보다 잘 파악되지 않는 음절열등효과가 일관되게 관찰되었다. 본 연구의 세 실험 결과들을 상호작용활성화 모형과 초보지각자-기억자 모형에 비추어 논의하였다.

  • PDF

Automatically Generating C++ Source Code from LOTOS Specifications (LOTOS 명세로부터 C++ 소스코드의 자동 생성)

  • Kim, Cheol-Hong;Cheon, Yun-Sik;Kim, Gang-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.12
    • /
    • pp.3138-3150
    • /
    • 1998
  • 정보통신용 소프트웨어 개발은 대용량, 고신뢰도, 고복잡도, 이질성 및 분산 환경이라는 특징을 가지고 있다. 이러한 시스템을 개발함에 있어서 개발 품질 및 적정 비용을 유지하기 위해서는 향상된 정형명세 기법과 이러한 기법을 지원하는 도구가 필수적이다. ISO 표준 정형 명세 언어인 LOTOS는 사용자의 요구사항이나 시스템 모형을 추상적이고 정형적으로 작성할수 있도록 한다. 반면, 명세로부터 구현을 직접 도출하기는 쉽지 않다. 본 연구는 LOTOS 명세 언어로 작성된 명세로부터 C++ 코드를 자동 생성하여, 이를 PC 플랫폼상에서 실행하는 동작 모형을 통하여 시스템의 기능적 요구사항의 오류를 초기에 검출할 수 있는 프로토타이핑을 지원하는 LOTOS/C++ 코드 생성기(code generator)를 개발하는 것이다.

  • PDF