• 제목/요약/키워드: Sentence Frequency

검색결과 140건 처리시간 0.215초

코퍼스 분석방법을 이용한 『동의보감(東醫寶鑑)』 영역본의 어휘 분석 (An Analysis on the Vocabulary in the English-Translation Version of Donguibogam Using the Corpus-based Analysis)

  • 정지훈;김동율;김도훈
    • 한국의사학회지
    • /
    • 제28권2호
    • /
    • pp.37-45
    • /
    • 2015
  • Objectives : A quantitative analysis on the vocabulary in the English translation version of Donguibogam. Methods : This study quantitatively analyzed the English-translated texts of Donguibogam with the Corpus-based analysis, and compared the quantitative results analyzing the texts of original Donguibogam. Results : As the results from conducting the corpus analysis on the English-translation version of Donguibogam, it was found that the number of total words (Token) was about 1,207,376, and the all types of used words were about 20.495 and the TTR (Type/Token Rate) was 1.69. The accumulation rate reaching to the high-ranking 1000 words was 83.54%, and the accumulation rate reaching to the high-ranking 2000 words was 90.82%. As the words having the high-ranking frequency, the function words like 'the, and of, is' mainly appeared, and for the content words, the words like 'randix, qi, rhizoma and water' were appeared in multi frequencies. As the results from comparing them with the corpus analysis results of original version of Donguibogam, it was found that the TTR was higher in the English translation version than that of original version. The compositions of function words and contents words having high-ranking frequencies were similar between the English translation version and the original version of Donguibogam. The both versions were also similar in that their statements in the parts of 'Remedies' and 'Acupuncture' showed higher composition rate of contents words than the rate of function words. Conclusions : The vocabulary in the English translation version of Donguibogam showed that this book was a book keeping the complete form of sentence and an Korean medical book at the same time. Meanwhile, the English translation version of Donguibogam had some problems like the unification of vocabulary due to several translators, and the incomplete delivery of word's meanings from the Chinese character-culture area to the English-culture area, and these problems are considered as the matters to be considered in a work translating Korean old medical books in English.

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.

이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석 (Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability)

  • 장한결;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.116-124
    • /
    • 2022
  • 본 연구의 목적은 초등학교 5, 6학년 영어 교과서에 수록된 읽기 지문의 이독성을 분석하여 학년 간 수직적 연계성과 출판사 간 수평적 연계성을 살펴보는 것이다. 이를 위해 10종의 교과서에 수록된 읽기 지문을 코퍼스로 구축한 후, Coh-Metrix를 통해 각 교과서에 수록된 읽기 지문의 이독성을 분석하였다. 또한 일원배치 분산분석을 통해 산출된 이독성에 학년 간, 출판사 간에 통계적으로 유의한 수준의 차이가 있는지 살펴보았다. 이를 통해 얻어진 결과는 다음과 같다. 첫째, 동일 학년 내 읽기 지문의 출판사간 난이도 차이를 분석하여 수평적 연계성을 살펴본 결과 RDL2 지수에서 5학년 교과서간에 유의한 차이가 있었다. 둘째, 출판사 내에서의 학년 간 수직적 연계성을 분석한 결과 FRE와 FKGL 기준으로 교과서 A의 난이도가 5학년에 비해 6학년에서 높았으며, 이는 통계적으로 유의한 수준의 차이였다. 반면 RDL2를 기준으로 했을 경우 교과서 B의 난이도가 5학년에 비해 6학년에서 더 낮아지는 결과를 보았다. 이러한 결과는 FRE와 FKGL은 문장 길이와 단어 길이 중심으로 이독성을 산출하는 반면, RDL2는 내용어 중복, 단어 빈도 수, 문장의 통사적 유사성 등을 기초로 하고 있기 때문으로 보인다.

텍스트마이닝 기법을 이용한 한국 사회의 혐오 양상 분석 (Analyzing the Phenomena of Hate in Korea by Text Mining Techniques)

  • 김혜진
    • 한국문헌정보학회지
    • /
    • 제56권4호
    • /
    • pp.431-453
    • /
    • 2022
  • 혐오는 타인에 대한 배타성이 집단적으로 표출된 것으로, 잘못된 대중적 인식을 통하여 양산되고 재생산된다. 이 연구는 우리사회에서 언급되고 있는 '혐오' 양상을 거시적으로 탐색하고자 1990년부터 2020년까지 발행된 뉴스데이터 17,867건을 대상으로 텍스트마이닝 기법을 활용하여 키워드 네트워크와 군집 분석을 수행하였다. 그리고 단어를 추출하기 전에 먼저 기사를 문장으로 분리하는 전처리 과정을 거쳐 '혐오', '편견', '차별'이라는 단어를 포함하고 있는 문장 총 52,520개를 추출하여 분석에 활용함으로써 '혐오'라는 단어와 인접한 단어들로 구성된 키워드 네트워크를 구축하였다. 수집한 뉴스데이터의 단어 동시출현빈도 분석 결과, 우리 사회에서 혐오와 관련되어 가장 빈번하게 등장하는 대상은 여성, 인종, 성소수자 등이며, 관련된 이슈는 이들 집단과 관련된 법과 범죄 등이었다. 키워드 네트워크 군집 분석 결과, 성별(41.4%), 소수자(28.7%), 인종·민족(15.1%), 선택적·이해관계적(8.5%), 정치·이념(5.7%), 환경·생존적(0.3%) 혐오 등 총 6개의 혐오 군집들이 발견되었다. 논의에서는 군집 분석 결과 구체적으로 드러나지 않은 혐오의 표적(대상)을 모두 추출하여 분석하였다.

언어재활을 위한 한국어의 음향적 분석과 선율화 (Acoustic Analysis and Melodization of Korean Intonation for Language Rehabilitation)

  • 최진희;박정미
    • 인간행동과 음악연구
    • /
    • 제21권1호
    • /
    • pp.49-68
    • /
    • 2024
  • 본 연구의 목적은 한국어의 특성을 음향학적으로 분석하고, 해당 분석 결과를 음악적 요소로 변환하여 생성된 선율의 예시를 제시함으로써, 근거 기반 음악-언어재활 프로그램 개발을 위한 기초 자료를 마련하는 데 있다. 이를 위해 19-25세의 남성과 여성 각각 30명으로부터 3음절의 두 강세구로 이루어진 6음절 한국어의 음성자료를 수집하였으며, 평서문과 의문문을 포함하였다. 이를 Praat 프로그램으로 분석하여 음절별로 음향적 속성을 추출하고, 각 음향적 속성, 문장 유형, 성별, 조사의 유무에 대한 통계분석을 실시하였다. 분석 결과 강세구, 억양구에 따라 각 음절의 주파수와 지속시간에 유의미한 차이가 발견되었고(p < .001), 의문문이 평서문보다 주파수가 유의미하게 높았으며(p < .001), 평서문이 유의미하게 긴 경향을 보였다(p < .001). 여성 집단이 남성 집단보다 주파수가 유의미하게 높았으며(p < .001), 지속시간도 유의미하게 긴 경향을 보였다(p < .001). 또한 조사인 음절의 강도가 유의미하게 세게 나타났다(p < .001). 마지막으로 본 연구에서는 문장 유형, 성별, 조사의 유무에 따라 나타난 음향적 속성을 음악적 요소인 음고, 음가, 악센트로 변환한 선율들을 악보로 제시하였다. 본 연구에서는 6음절 한국어문장을 대상으로 한 분석을 제시하였으며, 이 연구를 통해 얻은 통찰을 바탕으로 후속 연구에서는 대규모 한국어 음성 데이터의 선율화 시스템 개발 연구를 진행하려 하며, 이는 음악을 활용한 언어재활 분야의 기초 자료로서 중요한 역할을 할 수 있을 것으로 기대한다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

서울시내 남녀고교생의 흡연에 관한 태도 조사연구 (A Study and Investigation for the Attitude about Smoking of Boys' and Girls' High School in Seoul)

  • 심영애
    • 한국보건간호학회지
    • /
    • 제3권1호
    • /
    • pp.74-100
    • /
    • 1989
  • Inspite of the lots of studies on the harmfulness of cigarette smoking to the body published by many researchers since 1950, cigarette smoking people are increasing in number especially, cigarette smoking by young and women causes a serious problem. Examining the physiological motives of youth shows that, impulse which the youth want to immitate the adults, alluring curiousity, and defiant physiology of escaping from the norm of traditional groups which has been banned are cooperated well compoundly. As the period of the youth is the one which they accumulate knowledge and charactor by learning as well as the period of growth mentally, and physically they should be rightly educated about smoking before they addicted to smoking and it is desirable for us to make the youth to understand how harmfully the smoking is to effect to their growth and mental soundness simply not as a social norm which they should not smoke. The main motive of this study on the attitude of smoking by the youth is to give basic materials related on this field. For this study, 647 questionnaires were used as studying material which were able to analyze among 720 questionnaires of 2 classes of each grade of 3 high schools among the high schools of boys, girls and co-educated in Seoul from Oct. 21, 1988 through Oct. 26, 1988. Study Instrument are graded in Likert's 5 point from 40 questions which are 20 questions m affirmations and 20 questions in negations after analyzing the factors on 60 simple sentence questions which the students showed in preliminary studies. And these are systemized to be measured from 1 point which means they think smoking IS very bad to 5points which means they think smoking is really good. In these collected materials, technical statistics of frequency. percentage, average, standard deviation are used for general character and smoking attitude, $X^2-test$ for examinning Independant variables of physical. emotional, ethical and other areas pearson's coefficient of correlation for related direction and degree" and step­regression analysis for the degree of relative contribution of all variables which effect smoking attitude. The results of this study are as follows; 1. The smoking attitude of high school boys and girls showed average of 1.78 in physical area, 2.63 in emotional area, 2.61 in ethical area, 2.29 in other area respectively in a negative attitude generally also the negative attitude are expressed most strongly in physical area. I've can also say by this results that smoking is harmful to their health and further more it can be judged that this proves the youth in the period of preparation be adults have a strong curiousity in the emotional, ethical and other areas. 2. The most influential variables in each field as related factors effecting smoking attitude of the student can be explained from 13.2 in physical area the lowest experienced variables to 25.2 in emotional area the highest of degree of smoking experience. The fact that the more the smoking experienced students are increasing in number the higher tendency which accept the' smoking tells as the importance of health education about the population of latest student's smoking as important variables shown equally in each area. Those of grade, age, numbers of smoking people in house are showed meaningful in pure interrelation. Those related to the acceptance of teacher's smoking, sex, mothors education are shown meaningful in opposite interrelations. This means that the' increasing number' of smoking people in grade age, the number of smoker in family have a affirmative attitude. And people who are not interested in teacher's smoking wants to quit it, and whose mother's education is higher have a negative attitude. 3. The most negatively answered questions of the smoking attitude In physical, emotional, ethical and other areas are as belows; Firstly too much smoking is harmful to our health is 1.12 point. Secondly smoking have a ill-effect on pregnancy and embryo is 1.13 point. Thirdly smoking is harmful· to our health is 1.27 point. Fourthly smoking in crowed area with the people such as In a bus or subway should be prohibited is 1.27point. Fifthly smoking can ruin lungs is 1.31 point. And the most affirmatively answered questions are also as below; Firstly we showed smoke depending on time and place is 3.96 points. Secondly smoking is just habit is 3.83 points. Thirdly smoking people seem to be unable and deplorable is 3.69 point. Fourthly smoking should be prohibited by law is 3.56 points. Fifthly high school student's smoking is immitation of adults is 3.52 points.

  • PDF

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.