• 제목/요약/키워드: Lexical Statistics

검색결과 17건 처리시간 0.035초

Effects of Lexical Aspect on the Interlanguage of Ibibio ESL Learners: Later than Sooner

  • Willie, Willie U.
    • 비교문화연구
    • /
    • 제43권
    • /
    • pp.459-483
    • /
    • 2016
  • The main objective of this paper is to test the major prediction of the Aspect Hypothesis on interlanguage narratives collected from 171 Ibibio ESL learners in a classroom setting using sets of picture stories. Aspect Hypothesis predicts that lexical aspectual classes of verbs would determine the pattern of acquisition and distribution of tense-aspect morphology at the very early stages of L2 acquisition of tense-aspect verbal morphology. That is, telic verbs would be marked with the past tense-aspect verbal morphology before atelic verbs in the interlanguage of ESL learners irrespective of their L1 background. The results of our data analyses show a significant effect from the lexical aspect on the acquisition and distribution of tense-aspect morphology with chi-square statistics of ($x^2=196.92$,df = 6, n = 1664, p = <.0001). However, the effect of the lexical aspect is shown to be more prominent among Ibibio ESL learners at higher levels of proficiency. This is contrary to the prediction regarding Aspect Hypothesis. The paper concludes that the influence of the lexical aspect on the pattern of acquisition and distribution of tense-aspect morphology may be universal but the actual point along the developmental pathway when such influence is obtainable is yet to be determined. This calls for more research into the pattern of the L2 acquisition of tense-aspect verbal morphology.

우수 아파트단지 취재기사에서의 관리상의 논점 - 탐방기사를 이용한 언어통계학적 내용분석 - (Issues on Articles Covering Outstanding Management of Apartment Complexes - Content Analysis of Newspaper Reports with Lexical Statistics -)

  • 최정민;강순주
    • 한국주거학회논문집
    • /
    • 제17권4호
    • /
    • pp.131-143
    • /
    • 2006
  • Nowadays, diverse mass media discovers and introduces outstanding management cases of apartment complexes to induce vital competitions of constructors and active participation of residents to apartment management. This study statistically analyzed the management issues of outstanding apartment complexes that have been introduced by mass media with lexical criteria to examine the characteristics of their exemplary management. The key issues of outstanding apartment management are summarized as: efficient management of convenient facilities for residents, community activities based on residents' participation, and maintenance of pleasant living environments through transparent management. Also, the result of the relation arrangement of co-occurrence word from a Social Network Analysis included three key concepts of multi-family housing management - Maintenance Management, Operating Management, and Community Life Management - with emphasis on 'residents' and 'apartment complexes.' However, Operating Management was relatively deemphasized.

품사태킹을 위한 어휘문맥 의존규칙의 말뭉치기반 중의성주도 학습 (Corpus-Based Ambiguity-Driven Learning of Context- Dependent Lexical Rules for Part-of-Speech Tagging)

  • 이상주;류원호;김진동;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.178-178
    • /
    • 1999
  • Most stochastic taggers can not resolve some morphological ambiguities that can be resolved only by referring to lexical contexts because they use only contextual probabilities based ontag n-grams and lexical probabilities. Existing lexical rules are effective for resolving such ambiguitiesbecause they can refer to lexical contexts. However, they have two limitations. One is that humanexperts tend to make erroneous rules because they are deterministic rules. Another is that it is hardand time-consuming to acquire rules because they should be manually acquired. In this paper, wepropose context-dependent lexical rules, which are lexical rules based on the statistics of a taggedcorpus, and an ambiguity-driven teaming method, which is the method of automatically acquiring theproposed rules from a tagged corpus. By using the proposed rules, the proposed tagger can partiallyannotate an unseen corpus with high accuracy because it is a kind of memorizing tagger that canannotate a training corpus with 100% accuracy. So, the proposed tagger is useful to improve theaccuracy of a stochastic tagger. And also, it is effectively used for detecting and correcting taggingerrors in a manually tagged corpus. Moreover, the experimental results show that the proposed methodis also effective for English part-of-speech tagging.

형태소 기반의 한국어 방송뉴스 인식 (Morpheme-based Korean broadcast news transcription)

  • 박영희;안동훈;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.123-126
    • /
    • 2002
  • In this paper, we describe our LVCSR system for Korean broadcast news transcription. The main focus is to find the most proper morpheme-based lexical model for Korean broadcast news recognition to deal with the inflectional flexibilities in Korean. There are trade-offs between lexicon size and lexical coverage, and between the length of lexical unit and WER. In our system, we analyzed the training corpus to obtain a small 24k-morpheme-based lexicon with 98.8% coverage. Then, the lexicon is optimized by combining morphemes using statistics of training corpus under monosyllable constraint or maximum length constraint. In experiments, our system reduced the number of monosyllable morphemes from 52% to 29% of the lexicon and obtained 13.24% WER for anchor and 24.97% for reporter.

  • PDF

문법성과 어휘 응집성 기반의 영어 작문 평가 시스템 (An English Essay Scoring System Based on Grammaticality and Lexical Cohesion)

  • 김동성;김상철;채희락
    • 인지과학
    • /
    • 제19권3호
    • /
    • pp.223-255
    • /
    • 2008
  • 본 논문에서 우리는 문장의 문법성과 텍스트의 어휘 응집성 측정을 위주로 하는 영어 작문 자동평가시스템을 소개하려고 한다. 문법 검사를 위해서는 링크 파서를 사용하고 어휘 연쇄를 측정하기 위해서는 로제 시소러스를 사용한다. 자동 평가 시스템의 채점 신뢰도를 측정하기 위해서 자동 채점과 수동 채점의 결과를 통계적으로 비교한다. 카파 통계와 다국면 Rasch 모형에 따른 분석 결과 자동 채점은 수동 채점과 유사성이 크며 수동 채점과 비교해서 신뢰성에 특별한 문제가 없다는 결론을 내리게 된다. 본 연구의 가장 큰 의의는 다양한 종류의 기술과 도구를 바탕으로 신뢰할 만한 수준의 영작문 자동 평가 시스템을 개발했다는 것이다. 평가 대상이 문장 단위를 넘어 선 텍스트 단위이며, 단어나 문법 등의 형식적 측면만 검사하는 것이 아니라 내용적 측면도 평가한다.

  • PDF

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

초등학교 교과서의 어휘 통계 분석 연구 : 한국어 세종 코퍼스와의 비교를 중심으로 (The Study Of Lexical Statistics Analysis For Elementary School Textbook : Focusing On Comparing The SEJONG Corpus In Korean)

  • 유원희;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제18권1호
    • /
    • pp.99-108
    • /
    • 2015
  • 본 논문에서는 초등학교 교과서 말뭉치를 구축하고, 초등교과서에서 나타나는 어휘들에 대하여 통계분석을 실시하였다. 또한 초등 교과서가 일반생활에서 사용하는 어휘와 얼마나 유사한지를 살펴보기 위하여 스피어만 상관관계 분석을 실시하였다. 연구결과로 초등교과서의 말뭉치 구축 모습과 실제 예시를 보였고, 상관관계 분석을 통하여 초등교과서와 일반 말뭉치와의 상관관계를 수치적으로 보였다.

카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터 (Spam Filter by Using X2 Statistics and Support Vector Machines)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.249-254
    • /
    • 2010
  • 본 논문은 지지벡터기계를 이용하여 스팸메일을 자동으로 분류하는 시스템을 제안한다. 이메일에 포함된 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이제곱 통계량을 이용하여 자질을 선택한 후 각각의 자질을 TF, TF-IDF, 이진 가중치 등으로 표현하여 실험하였다. 카이제곱 통계량을 이용하여 선택된 자질들을 이용하여 SVM을 학습한 후, SVM분류기는 각각의 이메일의 스팸 여부를 결정한다. 실험 결과, 선택되어진 자질들이 성능향상을 가져왔으며, TREC05-p1 스팸 말뭉치에 대해 약 98.9%의 정확도를 얻었다.

온라인게임 채팅에서의 비속어 차단시스템 (A Swearword Filter System for Online Game Chatting)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1531-1536
    • /
    • 2011
  • 온라인 게임의 활성화로 온라인 게임의 폐해도 증가하고 있는데 온라인 게임의 대표적인 폐해 중 하나인 언어 폭력 문제가 심각한 사회문제를 야기하고 있다. 본 논문은 온라인 게임의 채팅에 나타나는 비속어를 자동으로 차단하는 시스템을 제안한다. 우리는 온라인 게임의 채팅창에 나타나는 문장을 수집하였고 비속어 포함 문장과 정상 문장으로 수동으로 분류하였다. 음절 n-gram과 어휘-품사 쌍을 자질로 사용하며 카이제곱 통계량을 이용하여 자질을 선택한다. 선택된 자질들을 이진가중치로 표현하여 지지벡터기계(SVM)를 학습한 후, SVM 분류기로 각 문장의 차단 여부를 결정하였다. 실험 결과, 수집된 데이터에 대해 약 90.4%의 F1 정확률을 얻었다.