• 제목/요약/키워드: text-mining technique

검색결과 221건 처리시간 0.027초

텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석 (Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm)

  • 선현석;임창원;이영섭
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.603-613
    • /
    • 2017
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 그러나 대부분 비정형 형태로 구성되어 있는 텍스트 기반의 자료는 기존의 통계 분석이나 데이터 마이닝 기법을 적용하기에 부적합하기 때문에 텍스트 마이닝 기법이 사용되고 있다. 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.

댓글이 음원 판매량에 미치는 차별적 영향에 관한 텍스트마이닝 분석 (The Impact of Comments on Music Download and Streaming: A Text Mining Analysis)

  • 박명석;권영진;이상용
    • 지식경영연구
    • /
    • 제19권2호
    • /
    • pp.91-108
    • /
    • 2018
  • This study mainly focused on measuring the impact of comments for a particular song on the number of streamings and downloads. We modeled multiple regression equations to perform this analysis. We chose digital music market for the object of analysis because of its inherent characteristics, such as experience goods, high bandwagon effect, and so on. We carefully utilized text mining technique in accordance with the algorithm of Naïve Bayes classifier to distinguish whether a comment for a piece of music be regarded as positive or negative. In addition, we used 'size of agency' and 'existence of hit song' as moderating variables. The reason for usage of those variables is that those are assumed to affect users' decision for selecting particular song especially when downloading or streaming via music sites. We found empirical evidences that positive comments for a particular song increase the number of both downloads and streamings. However, positive comments may decrease the number of downloads when the size of agency of the artist is big. As a result, we were able to say that a positive comment for a particular song functioned as 'word-of-mouth' effect, inducing other users' behavioral response. We also found that other features of an artist such as size of the agency that the artist belongs to functioned as an external factor along with feature of the song itself.

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

뉴스 기사 텍스트 마이닝과 네트워크 분석을 통한 폭염의 사회·경제적 영향 유형 도출: 2012~2016년 사례 (Text Mining and Network Analysis of News Articles for Deriving Socio-Economic Damage Types of Heat Wave Events in Korea: 2012~2016 Cases)

  • 정재인;이경준;김승범
    • 대기
    • /
    • 제30권3호
    • /
    • pp.237-248
    • /
    • 2020
  • In order to effectively prepare for damage caused by weather events, it is important to proactively identify the possible impacts of weather phenomena on the domestic society and economy. Text mining and Network analysis are used in this paper to build a database of damage types and levels caused by heat wave. We collect news articles about heat wave from the SBS news website and determine the primary and secondary effects of that through network analysis. In addition to that, based on the frequency with which each impact keyword is mentioned, we estimate how much influence each factor has. As a result, the types of impacts caused by heat wave are efficiently derived. Among these types of impacts, we find that people in South Korea are mainly interested in algae and heat-related illness. Since this technique of analysis can be applied not only to news articles but also to social media contents, such as Twitter and Facebook, it is expected to be used as a useful tool for building weather impact databases.

특허 키워드 시계열 분석을 통한 부상 기술 예측 (Time Series Analysis of Patent Keywords for Forecasting Emerging Technology)

  • 김종찬;이준혁;김갑조;박상성;장동식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.355-360
    • /
    • 2014
  • 오늘날 국가와 기업의 연구 개발 투자 및 경영 정책 전략 수립에서 미래 부상 기술 예측은 매우 중요한 역할을 한다. 기술 예측을 위한 다양한 방법들이 사용되고 있으며 특허를 이용한 기술 예측 또한 활발히 진행되고 있다. 특허를 이용한 기술 예측에는 전문가들의 평가와 견해를 통한 정성적인 방법이 주로 사용되어 왔다. 정성적인 방법은 분석 결과의 객관성을 보장하지 못하고 분석에 많은 비용 및 시간이 요구된다. 이런 문제점을 보완하기 위해 최근에는 텍스트 마이닝을 이용한 특허 데이터의 정량적인 분석이 이루어지고 있다. 텍스트 마이닝 기법을 적용함으로써 특허 문서의 통계적 분석이 가능하다. 본 논문에서는 텍스트 마이닝과 ARIMA 분석을 이용한 기술 예측 방법을 제안한다.

텍스트마이닝을 활용한 자살 관련 논문 토픽 모델링 (Topic Modeling of Suicide Papers using Text Mining)

  • 조경원;김하영;김미리;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.275-277
    • /
    • 2019
  • 본 연구에서는 지금까지 게재된 자살 관련 논문들을 대상으로 주제를 분류하고 주요 주제들의 비중과 20년 동안의 주제들의 변화 추이를 파악하는 것을 연구 목적으로 한다. 이를 위해 등재지 논문에 대한 정보 공유가 가장 활발하게 이루어지는 한국학술지인용색인(KCI)을 자료원으로 빅데이터 분석에 활용되는 텍스트마이닝 기법을 시행하였다. 이러한 시대적 변화에 따른 자살 관련 연구 주제 추이를 파악하는 연구는 향후 자살과 관련한 학문적 방향을 시대 흐름에 적응할 수 있는 전략을 수립하는 데 있어 기초자료가 될 것이다.

  • PDF

텍스트 마이닝 기법을 활용한 컴퓨팅 사고력 연구 동향 분석 (An Analysis of Research Trends in Computational Thinking using Text Mining Technique)

  • 이재호;장준형
    • 정보교육학회논문지
    • /
    • 제23권6호
    • /
    • pp.543-550
    • /
    • 2019
  • 컴퓨팅 사고력에 대한 연구는 2006년 자넷 윙이 이를 정의하고 2014년 영국에서 SW교육을 필수교과로 운영하게 되면서 관련 연구가 본격화 되었다. 본 연구는 최근 중요도가 높아가는 컴퓨팅 사고력을 키워드로 관련 연구논문을 수집하여 텍스트 마이닝 기법으로 분석하였다. 1차는 컴퓨팅 사고력을 키워드로 CONCOR 분석을 하였으며 2차는 국내외 대표 학술지를 선정하여 컴퓨팅 사고력의 구성요소를 텍스트 마이닝 기법으로 분석하였다. 2회에 걸친 분석결과 도출된 시사점은 다음과 같다. 첫째, 추상화, 알고리즘, 데이터처리, 문제분해, 패턴인식은 컴퓨팅 사고력 구성요소에 대한 연구의 핵심을 이루고 있었다. 둘째, 컴퓨팅 사고력과 과학, 수학 교과 중심의 융합 교육에 대한 연구가 활발히 진행되고 있음을 확인하였다. 셋째, 컴퓨팅 사고력에 대한 연구가 2010년 이후 확대되고 있었다. 향후 컴퓨팅 사고력과 구성요소에 대한 분류와 정의를 정립하여 이를 교육현장에 적용하는 연구가 꾸준히 진행되어야 할 필요가 있다.

워라밸 이슈 비교 분석: 한국과 미국 (Comparative Analysis of Work-Life Balance Issues between Korea and the United States)

  • 이소현;김민수;김희웅
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권2호
    • /
    • pp.153-179
    • /
    • 2019
  • Purpose This study collects the issues about work-life balance in Korea and United States and suggests the specific plans for work-life balance by the comparison and analysis. The objective of this study is to contribute to the improvement of people's life quality by understanding the concept of work-life balance that has become the issue recently and offering the detailed plans to be considered in respect of individual, corporate and governmental level for society of work-life balance. Design/methodology/approach This study collects work-life balance related issues through recruit sites in Korea and United States, compares and analyzes the collected data from the results of three text mining techniques such as LDA topic modeling, term frequency analysis and keyword extraction analysis. Findings According to the text mining results, this study shows that it is important to build corporate culture that support work-life balance in free organizational atmosphere especially in Korea. It also appears that there are the differences against whether work-life balance can be achieved and recognition and satisfaction about work-life balance along type of company or sort of working. In case of United States, it shows that it is important for them to work more efficiently by raising teamwork level among team members who work together as well as the role of the leaders who lead the teams in the organization. It is also significant for the company to provide their employees with the opportunity of education and training that enables them to improve their individual capability or skill. Furthermore, it suggests the roles of individuals, company and government and specific plans based on the analysis of text mining results in both countries.

토픽모델링을 이용한 국내 패션디자인 연구동향 분석 (Research Trend Analysis in Fashion Design Studies in Korea using Topic Modeling)

  • 장남경;김민정
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.415-423
    • /
    • 2017
  • 본 연구는 국내 패션 디자인 분야의 연구동향을 파악하기 위해 패션 디자인 분야에 초점을 맞춘 국내 대표적인 학술지인 "한국패션디자인학회지"의 2001년 창간호부터 2015년까지 발표 논문의 주제어와 초록을 수집하여 텍스트 마이닝과 토픽모델링 기법을 수행하였다. 우선 텍스트 마이닝을 통해 총 338편 논문의 주제어와 초록에 사용된 7137개 단어 중 30회 이상의 출현빈도를 가지는 183개의 핵심 용어들을 도출하였다. 그 중 압도적으로 높은 빈도를 보인 핵심 용어는 'fashion'과 'design'이었다. 다음으로 토픽모델링 기법 중 LDA 알고리즘을 사용하여 20개의 연구주제를 도출하였는데 대부분 기존 패션 디자인 분야의 연구주제와 연결할 수 있었지만 패션 브랜드 마케팅 및 디지털 기술 등 최신 트렌드를 반영한 다양한 연구주제들이 추가적으로 발견되었다. 마지막으로 연구주제별로 연도별 트렌드 분석을 통해 상승세와 하강세에 있는 연구주제를 구분하였다. 이러한 국내 패션 디자인 분야의 연구주제 및 트렌드 추이 파악은 지금까지의 국내패션 디자인 연구 내용과 향후 방향성을 이해하는데 유용할 것이다.

텍스트 마이닝 기법을 활용한 자율주행자동차 인식분석연구 (Analysis of the Perception of Autonomous Vehicles Using Text Mining Technique)

  • 임이정;송재인;이자영;황기연
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.231-243
    • /
    • 2017
  • 자율주행자동차는 미래 교통수단으로써 주목받고 있으며, 전 세계적으로 관련 기술 개발 및 수용성 연구가 진행되고 있다. 그러나 자율주행자동차와 같은 신기술의 수용에 대한 인식조사는 부족한 실정이다. 이에 본 연구에서는 자율주행자동차의 법제화와 상용화를 위한 기반 조성 작업의 일환으로 인터넷 기사와 댓글을 활용하여 텍스트 마이닝 기법 중 감성평가기법을 적용하여 자율주행자동차에 대한 시민들의 인식분석연구를 수행하였다. 분석 결과, 자율주행자동차에 대한 긍정적인 시각도 있으나 부정적인 인식이 더 큰 것으로 나타났으며, 대부분 유보적인 판단을 내리는 것으로 나타났다. 이는 자율주행자동차 기술의 불확실성, 탑승 경험 부족으로 인한 것이라 판단되었으며, 사회적 수용성 향상을 위해 도입 이전 해소되어야 할 문제라 사료된다. 또한 지속적인 인식조사 및 설문조사를 통해 사회적 수용성을 확보할 방안을 강구해야할 필요가 있을 것으로 판단된다.