• Title/Summary/Keyword: Sentence Complexity

검색결과 33건 처리시간 0.027초

한국 아동의 부정사 획득 (The Acquisition of Negatives in Five Korean Children)

  • 이순형
    • 아동학회지
    • /
    • 제6권1호
    • /
    • pp.17-40
    • /
    • 1985
  • This study investigated Korean children's early acquisition of negatives and focused on four research questions: 1) processing of negative variations; 2) the nature of negatives when negatives are completely acquired in Korean (in which meaning and form are matched in one to one mapping); 3) the validity of Bellugi's negative acquisition model in Korean; and 4) the cause of child's erroneous sentence production: limited ability or regularity in children's cognition. The language data of the five subjects (age span; 1.1 - 3.11) were collected by their parents in the natural setting of the home. The results showed that 1) the pivot form, was processed in many ways from a simple to a complicated form, such as <(X+X')+N> <(x+x')+N,Y> <(x+x') N,(y+y')>. It appeared that the children used a simple negative format to reach a one-step advanced negative format. 2) Korean negatives are divided into range of negation in the negative sentence (part or whole), strength of negation (absolute or general), functions of meaning (negation, absences, refusal, prohibition, impossibility). All five children acquired negative sentences in all functions and the complete range after 3 years of age. 3) In spite of the differences in age level, Bellugi's four stage model was in evidence; that is, Korean children's negative acquisition was almost identical with Bellugi's tour stage model in deep structure. 4) Analyses of children's error sentences showed that the sentences with errors were made not because of the children's limitation in cognitive ability but because of the strict application of regularity of rules from the original grammars. Consequently, the children produced negative sentences using two rules: the rule of additive complexity (from simple to complex) and the rule of division (from one to several).

  • PDF

한국어 구문분석을 위한 구묶음 기반 의존명사 처리 (Processing Dependent Nouns Based on Chunking for Korean Syntactic Analysis)

  • 박의규;나동열
    • 인지과학
    • /
    • 제17권2호
    • /
    • pp.119-138
    • /
    • 2006
  • 구묶음 작업은 문장의 분석을 보다 용이하게 해주는 것으로 알려져 있다. 본 논문에서는 한국어 문장의 구조 분석에 유용한 구묶음의 한 기법을 소개한다. 의존명사는 한국어 문장을 매우 복잡하고 길게 만드는 특성이 있다. 의존명사와 그 주변의 관계되는 단어에 대한 구묶음 작업을 통하여 문장의 복잡도를 낮출 수 있으며 이는 다음 분석 단계인 구문분석 작업을 보다. 용이하게 만든다. 본 논문에서는 이러한 목적을 달성하기 위한 의존명사와 관련된 구묶음 처리에 대해서 자세히 알아보았다. 우리는 의존명사의 종류에 따라 매우 다양한 형태의 구묶음 방식을 제안하였다. 실험을 통하여 본 논문에서 제안한 의존명사 관련 구묶음 처리 기법이 구문분석 시스템의 성능을 크게 향상시키는 것을 확인하였다.

  • PDF

한글 음소 단위 딥러닝 모형을 이용한 감성분석 (Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean)

  • 이재준;권순범;안성만
    • 한국IT서비스학회지
    • /
    • 제17권1호
    • /
    • pp.79-89
    • /
    • 2018
  • Sentiment analysis is a technique of text mining that extracts feelings of the person who wrote the sentence like movie review. The preliminary researches of sentiment analysis identify sentiments by using the dictionary which contains negative and positive words collected in advance. As researches on deep learning are actively carried out, sentiment analysis using deep learning model with morpheme or word unit has been done. However, this model has disadvantages in that the word dictionary varies according to the domain and the number of morphemes or words gets relatively larger than that of phonemes. Therefore, the size of the dictionary becomes large and the complexity of the model increases accordingly. We construct a sentiment analysis model using recurrent neural network by dividing input data into phoneme-level which is smaller than morpheme-level. To verify the performance, we use 30,000 movie reviews from the Korean biggest portal, Naver. Morpheme-level sentiment analysis model is also implemented and compared. As a result, the phoneme-level sentiment analysis model is superior to that of the morpheme-level, and in particular, the phoneme-level model using LSTM performs better than that of using GRU model. It is expected that Korean text processing based on a phoneme-level model can be applied to various text mining and language models.

An Efficient Machine Learning-based Text Summarization in the Malayalam Language

  • P Haroon, Rosna;Gafur M, Abdul;Nisha U, Barakkath
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1778-1799
    • /
    • 2022
  • Automatic text summarization is a procedure that packs enormous content into a more limited book that incorporates significant data. Malayalam is one of the toughest languages utilized in certain areas of India, most normally in Kerala and in Lakshadweep. Natural language processing in the Malayalam language is relatively low due to the complexity of the language as well as the scarcity of available resources. In this paper, a way is proposed to deal with the text summarization process in Malayalam documents by training a model based on the Support Vector Machine classification algorithm. Different features of the text are taken into account for training the machine so that the system can output the most important data from the input text. The classifier can classify the most important, important, average, and least significant sentences into separate classes and based on this, the machine will be able to create a summary of the input document. The user can select a compression ratio so that the system will output that much fraction of the summary. The model performance is measured by using different genres of Malayalam documents as well as documents from the same domain. The model is evaluated by considering content evaluation measures precision, recall, F score, and relative utility. Obtained precision and recall value shows that the model is trustable and found to be more relevant compared to the other summarizers.

Phrase-Chunk Level Hierarchical Attention Networks for Arabic Sentiment Analysis

  • Abdelmawgoud M. Meabed;Sherif Mahdy Abdou;Mervat Hassan Gheith
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.120-128
    • /
    • 2023
  • In this work, we have presented ATSA, a hierarchical attention deep learning model for Arabic sentiment analysis. ATSA was proposed by addressing several challenges and limitations that arise when applying the classical models to perform opinion mining in Arabic. Arabic-specific challenges including the morphological complexity and language sparsity were addressed by modeling semantic composition at the Arabic morphological analysis after performing tokenization. ATSA proposed to perform phrase-chunks sentiment embedding to provide a broader set of features that cover syntactic, semantic, and sentiment information. We used phrase structure parser to generate syntactic parse trees that are used as a reference for ATSA. This allowed modeling semantic and sentiment composition following the natural order in which words and phrase-chunks are combined in a sentence. The proposed model was evaluated on three Arabic corpora that correspond to different genres (newswire, online comments, and tweets) and different writing styles (MSA and dialectal Arabic). Experiments showed that each of the proposed contributions in ATSA was able to achieve significant improvement. The combination of all contributions, which makes up for the complete ATSA model, was able to improve the classification accuracy by 3% and 2% on Tweets and Hotel reviews datasets, respectively, compared to the existing models.

코퍼스 지표를 활용한 모의 토익시험의 유용성 검증 : 난이도와 변별도 분석을 중심으로 (Verification of the Usefulness of the Mock TOEIC Test using Corpus Indices : Focusing on the Analysis of Difficulty and Discrimination)

  • 이예나
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.576-593
    • /
    • 2021
  • 본 연구에서는 토익 시험의 정답률과 변별도에 영향을 미치는 구조적인 요인이 무엇인지 분석하기 위하여 문항 분석에서 도출된 각 파트별 코퍼스 지표들을 분석하였다. 이를 위하여 모의 토익 시험의 정답률과 변별도에 대한 코퍼스 요인들의 회귀 분석을 실시하였고, 분석 결과는 다음과 같다. 정답률에 대해서는 기초산출치중에서 word_length, no_word_sentence1, sentence_length, 정합성 지표들 중에서는 LSA_overlap_adjacent_sentences, 어휘 다양성 지표들 중에서는 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, 상황모형 지표들 중에서는 casual_particles_causal_verbs_Ratio, 통사적복잡성 지표들 중에서는 Minimal_Edit_Distance1, Left_embeddedness, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, Preposition_phrase_density 등이 음의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 토익의 정답률을 낮추는 효과가 있기 때문에 하위 레벨의 학습자들이 단기적인 학습효과를 향상시킬 수 있는 중요한 정보들을 제공해 줄 수 있을 것이다. 변별도에 대해서는 어휘 다양성 지표들 중에서 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, Additive_connectives_incidence, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, 어휘정보 지표들 중에서는 person1_2_pronoun_incidence 등이 정의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 변별도 증가에 영향을 주기 때문에 영어 능력 하위 그룹에 필요한 학습 프로그램을 개발하는 데 있어서 활용될 수 있을 것이다.

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.

보편적 학습 설계에 근거한 영어과 디지털 교과서 개선 방안 (Prospective Changes of English Digital Textbook Based on the Universal Design for Learning)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.674-683
    • /
    • 2015
  • 본 연구의 목적은 보편적 학습 설계 준거를 제시하고 이 준거를 활용하여 현재 실험학교에서 운용되고 있는 영어과 디지털교과서를 분석함에 있다. 보편적 학습 설계 준거를 기준으로 디지털 교과서가 학년과 학급급간에 의사소통기능별로 어떠한 양상을 보이고 있는지를 분석하여 디지털 교과서의 개선 방향을 모색하고자 한다. 디지털 교과서의 분석 결과를 살펴보면 우선 학습자들 중에 언어적 적성이 있는 학생들에게 친화적인 환경으로 구성되어 있고 다른 적성의 학생들은 불리하게 구성되어 있어서 이를 보완할 필요가 있다. 어휘의 계열성은 학년이 올라감에 따라서 적절하게 복잡도가 증가하고 있으나 통사적 복잡성은 중학교에서 갑자기 문장당 어휘수가 급격하게 올라가면서 보편적 학습 설계 준거를 만족시키지 못하고 있어서 이에 대한 보완이 시급하다. 서책형 교과서와 달리 디지털 교과서는 멀티미디어 자원의 통합이 용이하고 볼륨의 제한을 받지 않기 때문에 근본적으로 디지털 교과서를 구성할 때에 이를 사용하는 학습자들이 가진 언어적 적성 외에 다양한 적성을 고려할 필요가 있다.

윤치호 영어 일기와 영어 쓰기 교육 (Yun Chi-ho's English Diary and English Writing Education)

  • 서민원
    • 한국콘텐츠학회논문지
    • /
    • 제14권8호
    • /
    • pp.528-541
    • /
    • 2014
  • 본 연구는 54년간 영어로 일기를 작성한 윤치호의 영어 일기 중 영어 모국어 환경에서 작성한 초기 13개월과 후기 10개월의 일기를 양적, 질적으로 분석하였다. 그가 초기에 영어로 쓴 일기의 특성을 알아보고자 영어 모국어 환경에서 작성한 일기 중 574편을 코퍼스로 구성하여 전산 언어학적 방법으로 분석하였고, 질적 분석을 위해서 57편의 일기를 선정하여 각 일기에서 발췌한 문장의 내용적 특성을 기술하였다. 양적인 분석의 결과 초기의 일기에 비하여 후기의 일기에서 사용된 단어 수와 평균 문장 길이가 증가하였다. 또한 통사적 복잡도와 참조적 응집성이 증가하였다. 일기 내용을 분석한 결과, 후기의 일기에서 언어 형식상의 개선이 드러났으며, 종교(기독교), 일상생활, 학업에 관련된 내용을 주로 작성한 것이 나타났다. 자신의 영어 학습에 대한 반성적 사고의 내용은 초기의 일기에 많이 드러난 것으로 나타났다. 이러한 분석을 통하여 꾸준한 영어 일기와 편지의 작성이 영어 글쓰기 학습에 긍정적 영향을 줄 수 있다는 결론을 도출하였다.

스킵 포인팅 모델 기반 포인터 네트워크 (Pointer Networks based on Skip Pointing Model)

  • 박천음;이창기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권12호
    • /
    • pp.625-631
    • /
    • 2016
  • 포인터 네트워크는 어텐션 메커니즘(Attention mechanism)을 기반으로 입력열에 대응되는 위치를 결과 리스트로 출력하는 모델이다. 포인터 네트워크를 수행할 때 입력열의 크기를 N이라고 하면, 각 입력에 대한 어텐션(attention)을 계산하기 때문에 시간복잡도는 $O(N^2)$이 되어 디코딩 시간이 길어진다. 이에 따라, 본 논문에서는 포인터 네트워크의 디코딩 시간을 줄이기 위하여 디코딩 시에 필요한 입력 정보만을 확인하는 스킵 포인팅 모델 기반 포인터 네트워크를 제안한다. 본 논문에서 제안한 방법을 이용하여 대명사 상호참조해결에 대한 실험을 수행한 결과, 일반 포인터 네트워크에 비하여 문장당 처리 시간이 약 1.15배 빠른 속도와, MUC F1 값이 약 2.17% 향상된 83.60%의 성능을 보였다.