• 제목/요약/키워드: Text frequency analysis

검색결과 459건 처리시간 0.027초

다중 회귀 분석을 이용한 한자 난이도 예측 기법 연구 (Prediction Techniques for Difficulty Level of Hanja Using Multiple Linear Regression)

  • 최정환;노지우;김순태
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.219-225
    • /
    • 2019
  • 한자 급수와 같이 기존 한자 난이도 선정 방식에 문제점이 있다. 실생활에서 쓰이는 한글 단어와 차이가 나며 해당 급수가 실제로 얼마나 많이 쓰이는지 알 수가 없다. 이러한 문제를 해결하기 위해 빈도수를 이용하여 다중 회귀 분석을 이용하여 한자 난이도를 측정한다. 초등 교과서를 기반으로 한자활용빈도수와 한글의미빈도수를 집계한다. 두 빈도수와 획수를 함께 사용하여 설문지를 작성하여 해당 한자의 학습 적정 시기를 답변 받아 이를 회귀에서 사용할 타겟 변수로 이용한다. 단계별 회귀분석을 이용하여 적절한 피처를 선택하고 다중 선형 회귀 분석을 한다. 모델의 R2는 0.1105가 나왔으며 RMSE는 0.1105의 결과가 나왔다.

소셜 빅데이터를 이용한 영화 흥행 요인 분석 (Movie Box-office Analysis using Social Big Data)

  • 이오준;박승보;정다울;유은순
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.527-538
    • /
    • 2014
  • 수요 예측은 영화 산업에서 매우 중요한 문제이다. 최근 들어 트위터(Twitter), 페이스북(Facebook)과 같은 소셜미디어의 비정형 텍스트 데이터를 이용하여 영화 흥행을 예측하고 분석하는 시도들이 활발하게 이루어지고 있다. 기존에는 주로 데이터의 주기별 변화량을 측정하여 데이터 양과 영화 흥행간의 상관성을 분석하거나 데이터에 대해 감성의 극성 값을 부여하는 오피니언 마이닝을 통해 영화의 흥행 추이를 예측하였다. 하지만 이러한 정량적 접근만으로는 관객들이 영화를 선택하게 된 근거나 영화의 어떤 속성을 선호하는지를 알 수 없기 때문에 영화의 흥행 요인을 밝히는데 한계가 있었다. 따라서 본 연구는 트위터 데이터를 수집한 후 빈도수 측정을 통해 트윗의 내용을 대표하는 토픽(topic) 키워드를 추출하여 관객들의 관심을 반영하는 영화적 속성들이 무엇인지를 밝히고, 그 속성들에 대한 관객들의 반응을 분석함으로써 영화의 흥행에 영향을 미친 요인들을 제시한다.

한반도 맥문동속 집단의 자생지 생육환경과 군락구조 (Community Structure and Habitat Environment of Genus Liriope Group in Korea)

  • 송홍선;이정훈;김성민;신동일;김창호;구한모;박충범;박용진
    • 한국약용작물학회지
    • /
    • 제19권1호
    • /
    • pp.24-30
    • /
    • 2011
  • This text was analyzed and investigated the vegetation and floristic composition by cluster analysis and classification of phytosociological method, to evaluate the species composition, habitat environment and community structure of Liriope platyphylla and Liriope spicata group in Korea. The southeast slope gradient of the habitat of L. platyphylla and L. spicata was 6.7 to 8.4%, and the habitat altitude of L. platyphylla (41.0 m), L. spicata (114.9 m) was different. Habitat distribution of L. spicata was broader than L. platyphylla. Appearing plants of L. platyphylla and L. spicata group was 58 taxa, 99 taxa, respectively, and Coverage of tree layer was 87.5%, 92.5% respectively. In genus Liriope group, the highest appearing frequency of plant grow in the moist valley as Quercus serrata. Thus, plants of genus Liriope growth was better in moist shade. The vegetation of L. platyphylla group was classified into Quercus serrata community, Castanopsis sieboldii community, Pinus densiflora community and Pinus thunbergii community, and the Liriope spicata group was classified into Quercus serrata community, Quercus alien community, Quercus acutissima community, Prunus verecunda community, Robinia pseudoacacia community, Pinus densiflora community and Pinus thunbergii community. In genus Liriope group, Quercus serrata and Pinus densiflora communities was the closest the similarities.

R을 이용한 대학의 학과 명칭 분석 (Analysis of University Department Name using the R)

  • 반재훈;김동현;하종수
    • 한국정보통신학회논문지
    • /
    • 제22권6호
    • /
    • pp.829-834
    • /
    • 2018
  • IT 기술의 발전에 따라 미래를 예측할 수 있는 빅데이터의 중요성이 강조되고 있으며, 다양한 산업에서 이를 활용하고 있다. 이러한 빅 데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 대학은 최고의 학문기관으로서 시대의 발전과 요구에 따라 그에 대응하는 학과를 개설하고 유지해 왔다. 따라서 대학의 학과명을 분석하면 현 시대의 요구와 기술의 발전에 대하여 알 수 있다. 본 논문에서는 빅데이터 분석도구인 R을 이용하여 전국에 2 4년제 대학, 대학원의 학과를 분석한다. 학과 명칭을 수집하고 각 데이터를 분석하여 학과 명칭의 빈도를 조사하며 대학에 어떤 학과 명칭이 자주 사용되는지를 파악한다.

인문사회 과학기술 분야 연구의 학제적 동향 분석 : 토픽 모델링과 네트워크 분석의 활용 (Identifying Interdisciplinary Trends of Humanities, Sociology, Science and Technology Research in Korea Using Topic Modeling and Network Analysis)

  • 최재웅;장재혁;김대환;윤장혁
    • 산업경영시스템학회지
    • /
    • 제42권1호
    • /
    • pp.74-86
    • /
    • 2019
  • As many existing research fields are matured academically, researchers have encountered numbers of academic, social and other problems that cannot be addressed by internal knowledge and methodologies of existing disciplines. Earlier, pioneers of researchers thus are following a new paradigm that breaks the boundaries between the prior disciplines, fuses them and seeks new approaches. Moreover, developed countries including Korea are actively supporting and fostering the convergence research at the national level. Nevertheless, there is insufficient research to analyze convergence trends in national R&D support projects and what kind of content the projects mainly deal with. This study, therefore, collected and preprocessed the research proposal data of National Research Foundation of Korea, transforming the proposal documents to term-frequency matrices. Based on the matrices, this study derived detailed research topics through Latent Dirichlet Allocation, a kind of topic modeling algorithm. Next, this study identified the research topics each proposal mainly deals with, visualized the convergence relationships, and quantitatively analyze them. Specifically, this study analyzed the centralities of the detailed research topics to derive clues about the convergence of the near future, in addition to visualizing the convergence relationship and analyzing time-varying number of research proposals per each topic. The results of this study can provide specific insights on the research direction to researchers and monitor domestic convergence R&D trends by year.

지능 정보검색 서비스를 위한 실시간검색어 변화량 평가 (Evaluating real-time search query variation for intelligent information retrieval service)

  • 정민영
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.335-342
    • /
    • 2018
  • 포털 사이트의 핵심 서비스인 검색서비스는 입력되는 검색어 중에서 짧은 순간에 급상승하는 검색어를 대상으로 순간 검색빈도가 높은 것을 기준으로 순위별로 제시하는 것이므로 일정기간 동안 관심도가 높은 검색어를 곧바로 알려주기는 힘들다. 따라서 이를 극복하고 검색어 변화에 대한 향상된 분석결과가 나오게 하여 보다 지능적인 정보검색 서비스를 제공하기 위한 노력이 필요하다. 이를 위하여 본 논문에서는 실시간검색어의 관심도와 지속도, 그리고 주목도를 측정할 수 있는 기준을 제시한다. 그리고 그 기준에 맞추어 일정기간 동안 시간, 일간, 주간, 월간 실시간검색어에 대한 변화의 측정과 집계를 하고 이를 통해 관심도가 높은 이슈, 관심이 길게 지속된 이슈, 변화가능성이 커서 앞으로 주목해야 할 이슈를 평가한다.

코로나-19관련 웨이보 정서 분석을 통한 중국 주식시장의 주판 및 차스닥의 민감도 예측 기법 (Sensitivity of abacus and Chasdaq in the Chinese stock market through analysis of Weibo sentiment related to Corona-19)

  • 이가기;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-7
    • /
    • 2021
  • 최근 코로나 19발생과 동시에 소셜 미디어의 투자자 정서가 증시 가격 움직임을 주도해 관심을 모으고 있다. 본 연구는 행동금융 이론 기반 빅 데이터 분석을 활용하여 소셜 미디어에서 추출한 정서가 중국 증시의 실시간 및 단기적 가격 모멘텀을 예측하는데 활용될 수 있는 기법을 제안한다. 이를 위해, COVID-19와 관련 200만 건 이상의 시나 웨이보 빅 데이터를 키워드 방식으로 수집 및 분석하고 시간이 따른 영향력이 높은 감정 요인을 추출한다. 최종 결과 도출을 위해 다양한 지도 및 비지도 학습 모델을 다 각도에서 구현 및 성능평가를 비교 분석 후, BiLSTM mdoel이 최적의 결과를 낼 수 있음을 증명했다. 또한, 제안하는 기법을 통해 주가변동과 심리요인 간에도 비슷한 움직임을 보이고 있음을 제안했고 소셜미디어에서 추출한 공공분위기가 어느 정도 투자자들의 심리를 대변할 수 있고, 주식시장에 영향을 미칠 수 있는 특수행사에 몰두할 때 증시변동에 차이를 만들 수 있음을 증명했다.

텍스트 마이닝을 활용한 '가상관광'의 코로나19 전후 트렌드 분석 및 방향성 제언 (A Suggestion and an analysis on Changes on trend of the 'Virtual Tourism' before and after the Covid 19 Crisis using Textmining Method)

  • 성윤아
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.155-161
    • /
    • 2022
  • 코로나19의 확산으로 '가상관광'이 주목받고 있다. 포털 뉴스를 대상으로 '가상관광'을 키워드로 검색하여 데이터 마이닝 기법인 로그오즈비 분석, 명사 빈도분석, 의미망 분석을 통해 추이와 방향성을 고찰하였다. 그 결과, 코로나19 이전부터 '체험'과 '기술'기반의 '가상관광'에 주목하고 있었으며, '콘텐츠의 다양성 확보'에서 코로나19 이후 '지역 경제의 회복을 위한 사업'으로 바뀌었다는 점과 '온라인' 기반의 '상호작용'이 가능한 '가상현실' '확장현실' 등의 정보통신기술 의존성이 커졌다는 점을 명확히 할 수 있었다. 메타버스 등 '가상공간'에 대한 수요가 확대되고 있으므로 정부는 조사결과에 기초한 지원계획과 정책을 수립하고, 지자체와 기업은 AISAS(Attension, Interest, Search, Action, Share)에 주목하여 차별적 콘텐츠를 기획·제작하며, 대학과 연구기관은 콘텐츠에 맞는 기술을 개발하여 적용, 평가, 실용화함으로써 경제적, 체계적, 순환적 구조가 이루어질 수 있도록 해야 한다.

패션 트렌드의 주기적 순환성에 관한 빅데이터 융합 분석 (The Analysis of Fashion Trend Cycle using Big Data)

  • 김기현;변혜원
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.113-123
    • /
    • 2020
  • 본 논문은 과거와 현재의 패션 트렌드와 패션 유행 주기에 관한 빅데이터 분석을 실시하였다. 패션 전문가나 패션쇼가 아닌 일반 사람들의 데일리룩을 위한 패션 트렌드를 분석하는데 집중하였다. 소셜 매트릭스 도구인 텍스톰을 활용하여 빈도수 분석, N-gram 분석, 네트워크 분석 및 구조적 등위성 분석을 수행하였다. 분석 결과, 첫째, 패션 전문가가 아닌 일반 사람들의 데일리 룩을 대상으로 과거(1980년대, 1990년대)와 현재(2019년, 2020년)의 패션 키워드를 도출하였다. 둘째, 과거의 패션이 현재의 패션으로 재현되는 순환성과 순환 주기가 30-40년 정도로 짧아졌음을 빅데이터 분석을 통해 과학적으로 검증하였다. 셋째, 도출된 패션 키워드들의 구조적 등위성 분석을 수행한 결과, 과거 패션에서는 청바지 패션, 레트로 코디, 애슬레저룩, 연예인 복고패션의 4개의 군집으로, 현재 패션에서는 레트로 청바지, 뉴트로, 레이디 쉬크, 레트로 퓨처리즘의 4개의 군집을 확인하였다. 넷째, 과거의 패션이 현재의 패션으로 재현되고 진화하는 네트워크 연결 관계를 확인하고 그 배경에 관한 이슈를 고찰하였다. 이와 같은 연구결과는 과거와 현재의 패션 키워드를 도출하고 이로부터 패션 유행의 순환 주기를 확인함으로써 과거를 통해 미래 패션을 예측하도록 하는데 의의가 있다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.