• 제목/요약/키워드: Text mining analysis

검색결과 1,198건 처리시간 0.028초

토픽 모델링 기반 과학적 지식의 불확실성의 흐름에 관한 연구 (The Stream of Uncertainty in Scientific Knowledge using Topic Modeling)

  • 허고은
    • 정보관리학회지
    • /
    • 제36권1호
    • /
    • pp.191-213
    • /
    • 2019
  • 과학적 지식을 얻는 과정은 연구자의 연구를 통해 이루어진다. 연구자들은 과학의 불확실성을 다루고 과학적 지식의 확실성을 구축해나간다. 즉, 과학적 지식을 얻기 위해서 불확실성은 반드시 거쳐가야 하는 필수적인 단계로 인식되고 있다. 현존하는 불확실성의 특성을 파악하는 연구는 언어학적 접근의 hedging 연구를 통해 소개되었으며 컴퓨터 언어학에서 수작업 기반으로 불확실성 단어 코퍼스를 구축해왔다. 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역의 불확실성의 특성을 파악해오는데 그쳤다. 따라서 본 연구에서는 문장 내 생의학적 주장이 중요한 역할을 하는 생의학 문헌을 대상으로 불확실성 단어 기반 과학적 지식의 패턴을 시간의 흐름에 따라 살펴보고자 한다. 이를 위해 생의학 온톨로지인 UMLS에서 제공하는 의미적 술어를 기반으로 생의학 명제를 분석하였으며, 학문 분야의 패턴을 파악하는데 용이한 DMR 토픽 모델링을 적용하여 생의학 개체의 불확실성 기반 토픽의 동향을 종합적으로 파악하였다. 시간이 흐름에 따라 과학적 지식의 표현은 불확실성이 감소하는 패턴으로 연구의 발전이 이루어지고 있음을 확인하였다.

초록데이터를 활용한 국내외 통계학 분야 연구동향 (Research trends in statistics for domestic and international journal using paper abstract data)

  • 양종훈;곽일엽
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.267-278
    • /
    • 2021
  • 시간이 갈 수록, 정부, 기업, 국내, 해외를 막론하고 데이터의 양이 증가하고 있다. 이에따라 학계에서도 빅데이터에 대한 연구들이 늘어나고 있다. 통계학은 빅데이터 연구의 중심이 되는 학문들 중 하나이며, 늘어나는 통계학 분야 논문 빅데이터를 통해 통계학의 연구동향을 파악해 보는 것도 재미있을 것이다. 본 연구에서는 국내와 해외의 통계학 논문들의 초록데이터를 통해 어떤 연구들이 이루어지고 있는지 분석을 진행하였다. 저자들이 선정한 논문들의 키워드 데이터 빈도를 통해 국내외 연구 동향을 분석하였고, Word Embedding 방법을 통해 해당 키워드들의 관계성을 시각화 하였다. 여기서 저자들이 선정한 키워드들 외에 Textrank를 통해 선정된 통계학 분야 논문들에서 중요하게 사용되는 단어들도 추가적으로 시각화 하였다. 마지막으로 초록 데이터에 LDA 기법을 적용하여 10가지 토픽을 알아보았다. 각 토픽들에 대한 분석을 통해 어떤 연구 주제들이 자주 연구되며, 어떤 단어들이 중요하게 사용되는지 알아보았다.

Analysis of Research Topics and Trends on COVID-19 in Korea Using Latent Dirichlet Allocation (LDA)

  • Heo, Seong-Min;Yang, Ji-Yeon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.83-91
    • /
    • 2020
  • 본 연구에서는 DBpia에 등록된 코로나19 관련 논문을 대상으로 연구 토픽을 밝히고 연구 변화 추세를 검토한다. 잠재 디리슐레 할당(Latent Dirichlet Allocation) 알고리즘을 적용한 결과, 7개의 연구 토픽을 도출하였고, 각 토픽은 "International Dynamics", "Technology & Security", "Psychological Impact", "Biomedical-Related", "Economic Impact", "Online Education", "Religion-Related"에 관한 내용이었다. 또한 다범주 로짓모형을 사용하여 연구 토픽의 추세 변화를 살펴본 결과, 2020년 6월 전에는 국제적 역학관계 및 생물 의학 관련 논문이 주를 이루었다면, 이후에는 다양한 분야로 연구 주제가 확대되었다. 특히 경제적인 영향, 온라인 교육, 심리적인 영향에 관한 연구가 꾸준히 증가함을 확인할 수 있었다. 이러한 결과는 향후 코로나19 관련 공동 연구의 가이드 라인을 제시하고, 활발한 연구 활동을 위한 기초자료로 활용될 수 있을 것이다.

A Study on Stock Trend Determination in Stock Trend Prediction

  • Lim, Chungsoo
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.35-44
    • /
    • 2020
  • 본 연구에서는 주가 결정 방법이 주가 경향 예측에 미치는 영향을 확인하기 위한 분석을 수행한다. 주식시장에서 성공적인 투자를 위해서는 주가의 상승과 하락을 정확하게 예측하는 것이 큰 도움이 되므로 주가 경향 예측에 관해 많은 연구가 진행되고 있다. 예를 들어 근래에는 SNS나 뉴스의 내용을 텍스트 마이닝을 이용하여 분석하고, 이를 이용한 주가 등락의 예측 방법이 제안되었으며 다양한 기계학습 기법들이 활용되고 있다. 그러나 주가의 경향을 '상승' 또는 '하락'으로 결정하는 방법은 제대로 분석된 적 없으며 일반적으로 쓰던 방법을 답습하고 있다. 이에 본 논문에서는 주가 경향 결정 방법을 이동평균을 이용해 일반화하고 주가 경향 결정 방법이 예측 정확도에 미치는 영향을 분석한다. 분석 결과, 다음 날의 주가 경향을 예측하는 경우, 주가 경향 결정방법에 따라 예측 정확도가 47%까지 차이가 남을 발견하였다. 또한 경향 결정에 사용되는 기준값 윈도우의 크기와 예측의 정확도는 비례 관계이며, 대상값 윈도우의 크기와 정확도는 반비례 관례임을 알 수 있었다.

건설신기술에 대한 토픽 모델링 및 토픽 변화추이 분석 (Topic modeling and topic change trend analysis for advanced construction technologies)

  • 정성윤;김남곤
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.102-110
    • /
    • 2021
  • 현재 국내 건설기술의 발전을 도모하기 위해 건설신기술 지정 제도를 운영하고 있다. 이 제도를 통해 지정된 건설신기술과 관련하여 중요도가 높은 출현 어휘와 어휘들 간의 관계를 분석함으로써 건설신기술에 내재된 암묵적인 의미를 살펴보고자 하였다. 이를 위해 918건의 건설신기술정보를 수집하였다. 수집된 건설신기술의 고시연도와 요약 내용을 기초로 하여 건설신기술별로 출현어휘의 중요도를 측정하였다. LDA 모형을 기반으로 한 4개의 토픽별로 연관된 어휘들 간의 영향정도를 평가하였다. 기술적용분야에 따른 토픽을 분석하였다. 1990년부터 2021년까지의 토픽별로 영향력이 높은 어휘들의 변화 추이를 유추하였다. 향후 환경·기계·설비 토픽과 구조물의 보수 보강 토픽의 영향정도 변화와 이에 관련한 적용기술 분야를 예측하였다. 토픽의 개발방향을 예측하였다.

R과 LDA 기법을 활용한 클라우드 컴퓨팅 동향에 관한 연구: 해외 연구 동향을 중심으로 (Study on Tendency of Cloud Computing Using R and LDA Technique : Focusing on Tendency of Overseas Studies)

  • 강태구
    • 한국융합학회논문지
    • /
    • 제13권5호
    • /
    • pp.261-266
    • /
    • 2022
  • 4차 산업혁명에서 비롯된 디지털 시대의 본격화와 COVID-19의 영향으로 기업뿐만 아니라 다양한 분야에서 변화가 일어나고 있는 상황이다. 디지털 서비스의 급격한 증가로 인해 클라우드 시장 또한 성장 가속화로 빠르게 변화하는 디지털 환경에서 중요성이 더욱더 강조되고 있는 실정이다. 이에 관련 산업뿐만 아니라 다양한 분야에서 클라우드는 지속적인 성장과 생존전략을 위한 대표적인 전략 중 하나라고 할 수 있다. 클라우드 관련 연구는 다양하게 진행되고 있지만 연구 동향은 미흡한 실정이다. 이에 본 논문은 R과 LDA 기법을 활용한 외국 학술 데이터 베이스인 SCOPUS를 활용하여 클라우드 컴퓨팅의 연구 동향을 분석하였다. 분석 결과 클라우드 컴퓨팅 관련 높은 관심으로 수많은 연구가 진행되고 있는 것으로 나타났고, 키워드 분석 결과 클라우드 컴퓨팅이 가장 많이 도출되었다. 클라우드 컴퓨팅 주제 외에도 클라우드, 클라우드와 컴퓨팅, 데이터, 컴퓨팅의 다양한 주요 키워드들이 도출되었다. 본 연구 결과는 클라우드 컴퓨팅 동향 파악을 위한 실무적인 측면에서 관련 산업 활성화에 밑거름을 제공할 수 있는 기초자료로 활용될 것으로 기대된다.

Selection of Effective Herbal Medicines for Parkinson's Disease Based on the Text Mining of the Classical Korean Medical Literature Donguibogam

  • Bae, Hyo Won;Lee, Tae Wook;Choi, Byung Tae;Shin, Hwa Kyoung;Yun, Young Ju
    • 대한한의학회지
    • /
    • 제42권4호
    • /
    • pp.120-132
    • /
    • 2021
  • Objectives: The prevalence of Parkinson's disease is on an upward trend along with an increase in the aging population but there is no available treatment that halts the progression of neurodegeneration. This study reports a numerical analysis on Donguibogam and suggests novel herbal drugs, which have never been researched before but found to be deemed effective in this study. Methods: Referring to 71 Korean medicine symptom terms that represent the symptoms of Parkinson's disease, 4170 prescriptions described in Donguibogam were classified into two groups based on whether their main effects were effective for Parkinson's disease or not. Comparing the two groups, the chi-square test was performed to select statistically significant herbs, while the t-test, Wilcoxon test, and descriptive statistics were performed to determine the appropriate dose. Results: One hundred and twenty-seven prescriptions effective for Parkinson's disease were identified. The chi-square test determined 17 herbs that are effective for symptomatic treatment. Among the medicinal herbs, the authors suggest Osterici seu Notopterygii Radix et Rhizoma, Ephedrae Herba, Aconiti Tuber, Myrrha, Sinomeni Caulis et Rhizoma, and Aconiti Kusnezoffii Tuber as herbal candidates that have never been studied for Parkinson's disease. Through the statistical tests, it was judged that the mean value of the dose of the entire prescription was the appropriate dose for each herb. Conclusions: Seventeen herbs were selected for Parkinson's disease and the appropriate daily dose were calculated. Furthermore, this study presented a new process that applies a statistical method to traditional medical literature and preselecting herbs deemed effective for specific diseases.

감염병 위기 대응을 위한 소셜 데이터 수집 및 적재 엔진 기반 신뢰도 분석 시스템 개발 (Development of Social Data Collection and Loading Engine-based Reliability analysis System Against Infectious Disease Pandemic)

  • 정두영;이상준;민경일;정석송;한현욱
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.103-111
    • /
    • 2022
  • 감염병 대응과 관련된 기관, 조직, 사이트 등의 다수 운영되고 있으나 코로나-19와 같은 팬더믹 상황이 수년간 지속됨에 따라 초기양상과 현재 양상의 수많은 변화가 있으며 이에 따른 정책과 대응체계도 진화하고 있다. 이에 따른 지역별 격차가 발생하고 정책에 대한 신뢰와 불신, 이행도에 따른 여러 가지 문제들이 산재해 있다. 따라서 본 연구에서는 정보전염이 포함된 소셜 데이터를 분석하는 과정에서 루머가 포함된 데이터를 수집하는 과정에서 팩트 체크가 되는 언론 매체와 다르게 정확한 출처를 알 수 없는 부정확한 정보들이 포함되는 주요 소셜 미디어 플랫폼 중의 하나인 트위터 데이터를 수집하여 사실과 무관한 내용을 사전 차단하는 시스템을 개발했다. 비정형데이터인 소셜데이터를 기반으로 감염병 위협을 자동 감지할 수 있는 알고리즘을 개발하여 감염병 위기 대응과 관련된 객관적인 근거를 창출함으로써 관련 분야 국제경쟁력을 공고히 하고자 한다.

토픽모델링을 활용한 정보활용교육 연구주제 분석 및 교육내용 제안 (A Study of Information Literacy Curriculum Using Topic Modeling)

  • 윤지혜;정유경
    • 정보관리학회지
    • /
    • 제39권4호
    • /
    • pp.1-21
    • /
    • 2022
  • 본 연구는 정보활용교육 분야의 연구주제들을 파악하여 정보활용교육에 제안할 수 있는 요소들이 있는지를 살펴보는데 연구의 목적이 있다. 우선, 정보활용교육과 관련된 문헌정보학 분야의 논문 97편을 대상으로 토픽모델링을 적용하여 '미디어 리터러시', '정보활용교육의 교수학습방법', '정보원 이용 및 판단' 등의 주요 주제를 파악하였다. 분석 결과를 바탕으로, 교육내용 측면에서는 Big 6 정보모형, 교육방법과 관련해서는 미국 사서교사협회의 정보활용 능력기준과 미국 대학 및 연구도서관협회의 정보활용교육 개발지침을 고려하여 정보활용교육 교육내용을 제안하였다. 본 연구는 정보활용교육 전반의 연구주제와 연관된 교육 요소들을 파악하였으며, 이를 바탕으로 '정보원 이용 및 판단', '정보윤리'와 관련된 교육내용을 보다 강조하였다는 점에서 의의가 있다.

빅데이터 분석을 활용한 워터파크 현황 및 인식 분석 (Analysis of Waterpark Status and Recognition Using Big Data Analysis)

  • 김재환;이재문
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.525-535
    • /
    • 2017
  • 본 연구는 최근 워터파크와 관련된 키워드를 통해 소비자 인식, 워터파크 현황을 살펴보고자 한다. 본 연구는 네이버와 다음을 수집채널로 선정하였으며, 키워드는 '워터파크'를 사용하였다. 자료 분석기간은 2015년 1월 1일부터 2016년 12월 31일까지 총 2년간을 연구기간으로 한정하였다. 분석결과 첫째, 빈도수를 살펴본 결과, 2015년 몰래카메라, 롯데워터파크, 검거, 용의자, 김해 2016년 롯데워터파크, 물놀이, 여름, 개장, 입장권 순으로 나타났다. 둘째, 연결정도 중심성 분석결과, 2015년 몰래카메라, 검거, 용의자, 여성, 샤워실 2016년 물놀이, 롯데워터파크, 여름, 원마운트, 입장권 순으로 나타났다. 셋째, N-GRAM 네트워크 그래프를 실시한 결과, 2015년 워터파크/몰래카메라, 몰래카메라/몰래카메라, 용의자/검거, 김해/롯데워터파크, 워터파크/용의자, 2016년 원마운트/워터파크, 김해/롯데워터파크, 워터파크/입장권, 워터파크/워터파크, 워터파크/개장 순으로 나타났다. 넷째, CONCOR분석을 실시한 결과, 2015년 3개의 그룹과 2016년 2개의 그룹이 형성되었다.