• 제목/요약/키워드: Text frequency analysis

검색결과 459건 처리시간 0.031초

연구주제 분석을 통한 한국창작무용 경향 탐색 : 텍스트 마이닝의 적용 (Exploring the Trend of Korean Creative Dance by Analyzing Research Topics : Application of Text Mining)

  • 유지영;김우경
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권6호
    • /
    • pp.53-60
    • /
    • 2020
  • 이 연구는 현상의 흐름과 연구의 경향이 맥락적으로 일치한다는 가정을 바탕에 두고 있다. 이에 텍스트 마이닝을 활용하여 한국창작무용 연구의 주제 분석을 통해 춤의 경향을 탐색하는 것에 목적이 있다. 이에 논문 검색 웹사이트에 구축되어 있는 616편의 논문제목에서 1,291개의 단어를 분석하였다. 데이터의 수집 및 정제, 분석은 모두 R 3.6.0 SW을 사용하였다. 연구결과 첫째, 2000년대 이전에는 시대를 나타내는 키워드가 높은 빈도를 나타내었으나 교육 및 신체훈련 측면에서의 한국창작무용 연구유형도 발견되었다. 둘째, 2000년대 이후에는 무용단의 공연활동과 관련된 키워드의 빈도가 높게 나타났으나 최승희가 여전히 한국창작무용 연구에서 중요한 위치에 있다는 것이 확인되었다. 셋째, 한국창작무용 연구의 전체 연구주제를 분석한 결과 '근대시대 최승희의 예술', '현대 전통의 수용 양상과 가치', '전통춤의 안무적 표현 및 활용', '국립무용단의 공연 활동', '시대별 춤 표현', '교육 프로그램의 적용'으로 총 6개의 토픽이 추출되었다. 이 중 '근대시대 최승희의 예술'에 관한 연구가 가장 높은 비중을 차지하고 있는 것으로 나타났다. 넷째, 2000년을 기준으로 상승하고 있는 Hot 토픽은 '국립무용단의 공연 활동'과 '전통춤의 안무적 표현 및 활용'으로 나타났다. 그러나 최근 국립무용단의 공연 기조가 '전통을 기반으로 한 현대화'를 표방하고 있으므로 2000년대 이후 한국창작무용의 경향이 전통춤을 모티프로 한 안무적 표현과 그 활용에 공통적으로 집중되어 있음이 확인되었다. 다섯째, 2000년을 기준으로 하락하고 있는 Cold 토픽은 '시대별 춤 표현'에 관한 연구로 나타났다. 이것은 한국창작춤의 장르적 정착 이후 다양한 춤 스타일의 혼재에 따른 경향으로 연구에 대한 관심도 역시 저하된 것으로 판단되었다.

분포 개념의 연계성 목표 관점에 따른 중학교 확률 단원 분석 (An Analysis of the 8th Grade Probability Curriculum in Accordance with the Distribution Concepts)

  • 이영하;허지영
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제20권2호
    • /
    • pp.163-183
    • /
    • 2010
  • 본 연구는 6차 교육과정이래 현재까지 사용 중인 중학교 2학년(8단계) 교육과정중에 확률단원의 개선 방안에 관한 것이다. 이들 교육과정에 따르면 확률단원은 경우의 수와 합사건, 곱사건 등의 확률 계산법을 포함하고 있으며, 확률의 의미는 수학적 확률 또는 통계적 확률의 의미를 사용하도록 되어있다. 그러나 확률의 의미를 통계적 확률의 의미로 사용하려면, 모든 확률에 대한 논의에 있어서 상대도수가 중심이 되어야 하는데, 경우의 수가 들어 있으므로 경우의 수에 관한 논의가 확률논의와 연결성이 없거나, 연결성을 살리기 위해 수학적 확률을 사용하게 된다. 이런 현상은 결국 많은 교과서들이 확률의 정의에서는 통계적 확률로 정의하고, 확률의 계산에 관한 논의는 수학적 확률로 하게 되는 결과를 초래하고 있다. 그 결과 학생들의 입장에서는 매우 혼란스러운 상태가 초래된다고 여겨진다. 본 연구는 확률의 계산 역시 상대도수 중심으로 논의하는 방안을 제시하고, 아울러 그런 교육과정의 변화가 단순히 확률의 정의의 변화만이 아닌, 단원 전체의 유기적 관계를 고려한 변화를 얻는 방안을 제안하려는 것이다.

  • PDF

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

텍스트 마이닝을 활용한 중국공산당 20차 당대회 보고문 분석 (An Analysis of the 20th National Congress Report through Text-mining Methods)

  • 권도경;김정수;박지현
    • 분석과 대안
    • /
    • 제7권1호
    • /
    • pp.115-145
    • /
    • 2023
  • 2022년 10월 16일부터 22일까지, 총 이레 동안 진행된 중국공산당 제20차 전국대표대회(이하 '20차 당대회'로 약칭)는 개최 훨씬 이전부터 '시진핑이 3연임을 할 것인가', '3연임을 함으로써 영구 집권의 기초를 닦을 것인가' 등의 문제를 둘러싸고 세간의 주목을 받았다. 한국 언론의 관심은 주로 20차 당대회가 진시황에 버금가는 '시황제의 대관식'이었다는 점에, 혹은 당대회 진행 중 전 총서기 후진타오(胡锦涛)가 강제퇴장 당하는 장면에 모아졌고, 학계도 20차 당대회에서 시진핑이 정치국 위원과 상무위원에 대한 인사 배치를 어떻게 할 것인지에, 또 시진핑의 후계 구도가 드러날 것인가 등에 집중적인 관심을 기울이면서 오히려 언론의 우려를 강화시켰다. 본 논문은 20차 당대회에서의 시진핑의 정치적 의도에 대한 해석과는 거리를 두면서, 당대회 보고문에 대한 계량적 분석을 시도할 것이다. 중국공산당의 당대회 보고문은 향후 5년 간의 정치, 경제, 사회, 문화, 외교 및 양안관계, 과학기술 등의 분야에 대한 중국공산당의 통치 비전 및 목표, 그리고 전략적 방향을 담고 있으면서 그 자체로 높은 서사성과 논리성을 가지고 있는 문건으로 학술적 가치가 높기 때문이다. 본 논문은 당대회 문건을 대상으로 텍스트 마이닝 방법론을 사용하여 주요 어휘 빈도수 조사 및 분석, 키워드 분석, 주요 표현 조사 및 분석을 진행할 것이다. 이를 통해 18차 당대회에서 20차 당대회까지, 즉 2013년부터 2027년까지 15년의 시진핑 집권기 동안 중국공산당 통치 비전의 거시적인 변화를 계량화, 시각화할 것이다.

빅데이터 분석을 활용한 워터파크 현황 및 인식 분석 (Analysis of Waterpark Status and Recognition Using Big Data Analysis)

  • 김재환;이재문
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.525-535
    • /
    • 2017
  • 본 연구는 최근 워터파크와 관련된 키워드를 통해 소비자 인식, 워터파크 현황을 살펴보고자 한다. 본 연구는 네이버와 다음을 수집채널로 선정하였으며, 키워드는 '워터파크'를 사용하였다. 자료 분석기간은 2015년 1월 1일부터 2016년 12월 31일까지 총 2년간을 연구기간으로 한정하였다. 분석결과 첫째, 빈도수를 살펴본 결과, 2015년 몰래카메라, 롯데워터파크, 검거, 용의자, 김해 2016년 롯데워터파크, 물놀이, 여름, 개장, 입장권 순으로 나타났다. 둘째, 연결정도 중심성 분석결과, 2015년 몰래카메라, 검거, 용의자, 여성, 샤워실 2016년 물놀이, 롯데워터파크, 여름, 원마운트, 입장권 순으로 나타났다. 셋째, N-GRAM 네트워크 그래프를 실시한 결과, 2015년 워터파크/몰래카메라, 몰래카메라/몰래카메라, 용의자/검거, 김해/롯데워터파크, 워터파크/용의자, 2016년 원마운트/워터파크, 김해/롯데워터파크, 워터파크/입장권, 워터파크/워터파크, 워터파크/개장 순으로 나타났다. 넷째, CONCOR분석을 실시한 결과, 2015년 3개의 그룹과 2016년 2개의 그룹이 형성되었다.

코퍼스 분석방법을 이용한 『동의보감(東醫寶鑑)』 영역본의 어휘 분석 (An Analysis on the Vocabulary in the English-Translation Version of Donguibogam Using the Corpus-based Analysis)

  • 정지훈;김동율;김도훈
    • 한국의사학회지
    • /
    • 제28권2호
    • /
    • pp.37-45
    • /
    • 2015
  • Objectives : A quantitative analysis on the vocabulary in the English translation version of Donguibogam. Methods : This study quantitatively analyzed the English-translated texts of Donguibogam with the Corpus-based analysis, and compared the quantitative results analyzing the texts of original Donguibogam. Results : As the results from conducting the corpus analysis on the English-translation version of Donguibogam, it was found that the number of total words (Token) was about 1,207,376, and the all types of used words were about 20.495 and the TTR (Type/Token Rate) was 1.69. The accumulation rate reaching to the high-ranking 1000 words was 83.54%, and the accumulation rate reaching to the high-ranking 2000 words was 90.82%. As the words having the high-ranking frequency, the function words like 'the, and of, is' mainly appeared, and for the content words, the words like 'randix, qi, rhizoma and water' were appeared in multi frequencies. As the results from comparing them with the corpus analysis results of original version of Donguibogam, it was found that the TTR was higher in the English translation version than that of original version. The compositions of function words and contents words having high-ranking frequencies were similar between the English translation version and the original version of Donguibogam. The both versions were also similar in that their statements in the parts of 'Remedies' and 'Acupuncture' showed higher composition rate of contents words than the rate of function words. Conclusions : The vocabulary in the English translation version of Donguibogam showed that this book was a book keeping the complete form of sentence and an Korean medical book at the same time. Meanwhile, the English translation version of Donguibogam had some problems like the unification of vocabulary due to several translators, and the incomplete delivery of word's meanings from the Chinese character-culture area to the English-culture area, and these problems are considered as the matters to be considered in a work translating Korean old medical books in English.

저출산 대응 정책 비교분석 (육아휴직과 아동수당의 비정형 데이터 중심으로) (Comparative Analysis of Low Fertility Response Policies (Focusing on Unstructured Data on Parental Leave and Child Allowance))

  • 금은영;김도희
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.769-778
    • /
    • 2023
  • 본 연구는 현재의 심각한 저출산 문제의 해결방안 중 두 가지 주요정책인 육아휴직과 아동수당의 비정형 데이터를 활용하여 비교분석하고 이를 토대로 관련 대응 정책의 향후 방향과 시사점을 모색하였다. 수집 키워드는 "저출산+육아휴직", "저출산+아동수당"으로 하였으며, 자료분석은 텍스트 빈도분석, 중심성 분석, 네트워크 시각화, CONCOR 분석 순으로 진행하였다. 분석 결과 첫째, 육아휴직은 아동수당 보다 다각적이고 체계적인 논의들이 데이터 분석상 나타남으로써 저출산 대응 정책에 있어 현실적이고 실질적인 정책임을 알 수 있었다. 둘째, 아동수당은 데이터 분석상 아동수당을 포함한 현금지원급여제도에 대한 정보와 관심도는 높은 것으로 나타났으나 그 이외의 특이점이나 적극적인 논의는 이루어지지 않았다. 향후 개선방안으로 두 정책 모두 기존 제도의 활용에 있어 첫째, 육아휴직은 제도의 확산을 위한 근로환경과 사각지대의 개선이 필요하며, 둘째 아동수당은 지급에 있어 획일적이고 편중된 것에서 벗어난 형식의 변화가 모색되어야 하며, 수급연령 확대를 제안하였다.

인문치료의 진단 및 평가: 감각유형에 따른 말속도와 기본주파수의 실험음성학적 분석 (Diagnosis and Evaluation of Humanities Therapy: The Phonetic Analysis of Speech Rates and Fundamental Frequency According to Preferred Sensation Type)

  • 이찬종;허윤주
    • 한국음향학회지
    • /
    • 제30권4호
    • /
    • pp.231-237
    • /
    • 2011
  • 본 연구에서는 실험음성학적 분석을 통해 선호감각유형과 발화속도 및 기본주파수 (이하, $F_0$)와의 상관성을 연구하였다. 대학생 및 대학원생 36명 (남학생 17명, 여학생 19명)을 대상으로 선호감각유형검사를 실시하였고, 읽기와 그림보고 말하기 과제, 그리고 대화과제를 실시하여 말속도를 측정하였고, 일상대화시의 $F_0$와 말속도를 측정하였다. 연구 결과, D (내부언어) 유형을 제외했을 때 V (시각) 유형의 경우 읽기과제에서 말속도와 상관성이 있었고, D (내부언어) 유형을 포함했을 때 A (청각) 유형과 F0에서 상관성이 있었다. 또한 VAK (시각, 청각, 촉각) 유형의 평균을 분석한 결과 말속도의 경우 인터뷰 과제를 제외한 나머지에서, VAKD (시각, 청각, 촉각, 내부언어) 유형의 평균에서는 전체 과제에서 V (시각) 유형이 A (청각) 유형보다 발화속도가 빠르고 $F_0$가 높았음을 확인할 수 있었다. 이 연구결과에서 선호감각유형과 $F_0$와 말속도가 상관성이 있음을 알 수 있었다. 본 연구는 인문치료 진단 및 평가에서 주관적 감각유형검사와 함께 말소리의 객관적 분석을 통하여 감각유형검사의 보완적 역할이 가능하고, 이를 통해 맞춤형 교육 및 상담에서 유용하게 활용이 될 수 있을 것이다. 또한, 선호감각유형과 발화속도 및 $F_0$의 상관성에 관한 연구의 기초토대를 마련하였다.

중학교 "기술.가정" 교과서의 가정영역에 나타난 Bloom의 인지적 영역 질문 분석 (An Analysis of Bloom's Cognitive Domain Questions in the Home Economics area of the "Technology.Home Economics" Textbooks)

  • 김현희;박미정;채정현
    • 한국가정과교육학회지
    • /
    • 제22권1호
    • /
    • pp.97-115
    • /
    • 2010
  • 본 연구는 제 7차 교육과정 중학교 "기술.가정" 교과서의 가정 영역에 제시된 질문을 Bloom의 인지적 영역의 수준에 따라 질문의 빈도, 수준, 위치를 분석하는 데 목적이 있다. 이에 임의로 5개의 출판사의 교과서를 선정해 총 15권을 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, 가정 교과서에 포함된 Bloom의 인지적 영역 질문은 1학년(36.9%)이 가장 많았고, 2학년(33.6%), 3학년(29.5%)의 순이었으나 그 비율은 세 개의 학년이 비슷하였다. 가정 교과서에 제시된 질문을 Bloom의 인지적 영역에 따라 분류하였을 때 이해 질문(28.9%)과 적용 질문(28.3%)이 많았고, 지식(21.8%), 분석(8.6%), 종합(6.8%), 평가(5.6%) 수준의 질문은 그 비율이 점차 줄어들었다. 학년별로는 1학년과 3학년은 이해 질문과 적용 질문이 많았고, 2학년은 적용 질문이 가장 많은 비중을 차지했다. 둘째, 중학교 가정교과서에서 Bloom의 인지적 영역 질문의 위치는 읽기 후 질문이 49.2%로 가장 많았고, 읽기 중 질문이 36.7%, 읽기 전 질문은 14.1%를 차지하였다. 읽기 전 질문에서는 학습자들의 흥미를 불러일으키고 사전지식을 조성하고 활성화시키는 목적으로써 지식수준(11.4%), 이해수준(43.2%)의 질문이 주로 나타났고, 읽기 중 질문에서는 학습의 이해와 좀 더 폭 넓은 사고를 할 수 있는 수단으로 적용수준(36.7%)의 질문과 이해수준(25.5%)의 질문이 이용되고 있었다 읽기 후 질문에서는 지금까지 학습한 내용의 점검을 하는 역할로서의 질문인 지식수준(33.4%)과 이해수준(26.8%)의 질문이 많이 나타났다.

  • PDF