• 제목/요약/키워드: Text mining analysis

검색결과 1,198건 처리시간 0.027초

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

토픽모델링을 활용한 학교도서관 연구동향 분석 (A Study on the School Library Research Trends Using Topic Modeling)

  • 정영주;김혜진
    • 한국도서관정보학회지
    • /
    • 제51권3호
    • /
    • pp.103-121
    • /
    • 2020
  • 본 연구는 학교도서관의 연구동향을 살펴보기 위해 토픽모델링을 적용하였다. 분석 대상은 4대 문헌정보학회지 한국도서관·정보학회지, 한국문헌정보학회지, 한국비블리아학회지, 정보관리학회지의 1990년부터 2020년 7월까지 학교도서관 관련 논문 498편이다. 연구 결과 토픽모델링을 통한 주제는 27개의 토픽으로 8개의 영역 일반, 제도·체제, 건물·설비, 운영·경영, 자료조직, 서비스, 교육, 기타로 묶어 정리하였고, 하위단계 주제는 22개로 나누었다. 텍스트 정제와 토픽모델링 분석은 넷마이너(NetMiner) V.4를 사용하여 수행하였고 토픽모델링을 위한 토픽 개수의 결정을 위해 로그우드 추정치를 사용하였다. 연구 결과 27개 토픽의 주제에 제목을 부여하였고 제일 많은 연구가 이루어진 토픽은 도서관 활용수업(T27)이 35편, 정보활용(T2)에 관한 연구가 30편이고, 20편 이상의 연구는 평가지표개발(T13), 학교 사서교사 배치(T24), 학습정보 매체 활용(T3), 지역사회·공공도서관(T7), 도서관 협력(T9), 도서관 이용(T17), 도서관 연구(T11), 독서교육(T4), 장서개발(T5), 교육효과·교육방법(T18)이 있었다.

토픽모델링을 활용한 국내외 수학교육 연구 동향 비교 연구 (A comparative study of domestic and international research trends of mathematics education through topic modeling)

  • 신동조
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제59권1호
    • /
    • pp.63-80
    • /
    • 2020
  • 본 연구는 2000년부터 2019년까지 7종의 KCI 등재지에 게재된 3,114편의 수학교육 논문와 5종의 SSCI 등재지에 게재된 1,636편의 수학교육 논문의 연구 동향을 텍스트 마이닝 기술의 하나인 토픽모델링을 사용하여 비교·분석하였다. 연구 결과, 국내외 수학교육 연구는 16개의 유사한 주제와 7개의 상이한 주제로 분류할 수 있었다. 연구 결과, 예비교사와 관련된 주제는 국내와 해외 수학교육 연구에서 모두 높은 비중을 차지하고 있는 연구주제였다. 현직교사 재교육에 관한 연구주제는 국내 연구에서는 하나의 독립된 주제로 나타나지 않았지만, 해외 연구에서 많은 관심을 받는 주제로 나타났다. 해외 수학교육 연구에 비해 국내에서는 수학적 역량에 관한 연구의 관심이 높았지만, 이는 문제해결역량과 창의·융합역량에 치중되는 경향이 있었다. 반면, 해외 수학교육에서는 정체성과 공정성에 관한 연구가 강조되었다.

빅데이터 분석을 통한 프라이버시 인식에 관한 연구 (A Study on the Privacy Awareness through Bigdata Analysis)

  • 이송이;김성원;이환수
    • 디지털융복합연구
    • /
    • 제17권10호
    • /
    • pp.49-58
    • /
    • 2019
  • 4차 산업혁명시대에 접어들면서 정보기술의 발전으로 인해 다양한 편익과 함께 프라이버시 이슈에 대한 사회적 관심 또한 증가해 왔다. 빅데이터를 통한 개인의 프라이버시 침해 위협 가능성이 높아지게 됨에 따라, 프라이버시에 대한 관리 및 보호에 대한 학술적 논의 또한 활발해지기 시작하였다. 전통적인 관점의 프라이버시는 기본적 인권으로 다양한 차원에서 정의된 반면, 최근의 연구 동향에 따르면 대부분 온라인상에서의 개인정보보호라는 정보 차원의 프라이버시에 대해서만 주로 논의하고 있다. 이러한 제한적 논의는 이론적 개념과 실제 인식 간의 왜곡을 초래할 뿐만 아니라 프라이버시 개념의 학술적 정의 및 사회적 합의를 더욱 어렵게 만드는 요인이 될 수 있다. 이에 본 연구에서는 최근 1년 동안 포탈 사이트 12,000건의 뉴스데이터를 바탕으로 온라인상에서 노출되는 프라이버시 개념을 분석하여 이론적 개념과 사회적으로 통용되는 개념의 차이를 비교 분석한다. 이러한 실증적 접근은 변화하고 있는 프라이버시 개념에 대한 이해와 국내 상황에 맞는 프라이버시 개념화를 위한 연구 방향을 제시할 수 있을 것으로 기대한다.

뉴스 빅데이터를 통해 검토한 대학교육의 토픽 분석 (A Topic Analysis of College Education Using Big Data of News Articles)

  • 양지연;구정호
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.11-20
    • /
    • 2021
  • 본 연구는 신문기사 빅데이터를 통해 대학교육 관련 보도의 토픽을 추출하고, 토픽별 특징 및 신문사별 보도양상을 분석한다. 2016년-2021년 상반기 주요 중앙지와 지역지의 기사를 빅카인즈를 통해 추출하였고, 잠재디리슐레할당을 이용하여 총 9개의 토픽을 발견하였다. 토픽1과 토픽3은 교육에 대한 대학지원사업에 관련된 것이나 토픽3은 지역대학에 초점이 맞추어져 있다. 토픽2는 코로나19 이후 대학교육, 토픽4는 교수-학습법, 토픽5는 정부정책, 토픽6은 고교교육기여대학 지원사업, 토픽7은 대학교육 비전, 토픽8은 국제화, 토픽9는 입시 등을 논하고 있다. 조선일보, 경향신문, 한겨레는 코로나19 이후 강의, 정부정책 관련, 대학교육에 대한 기사와 논평을 많이 보도한 반면 동아일보, 중앙일보, 한라일보, 부산일보, 대전일보, 경인일보는 대학지원사업, 고교교육기여대학 지원사업 등 광고·홍보성 기사가 상대적으로 많았다. 2016년부터의 관련기사를 신문사별 뿐 아니라, COVID-19 발생 전후로도 분석하여 관련 보도의 토픽 차이를 살펴볼 수 있었다. 사회적으로 주요 관심 사항인 대학교육이 언론에 어떻게 보도되고 있는지 확인함으로써 미래의 대학교육 정책 방향과 미디어의 순기능과 역기능 등 언론의 역할에 대해 고찰할 필요가 있음을 시사한다.

소셜미디어와 대법원 판결의 상관 관계에 대한 분석 (The Correlation between Social Media and the Behaviors of the Supreme Court in Korea)

  • 허준홍;서예은;이서영;이상용
    • 지식경영연구
    • /
    • 제22권3호
    • /
    • pp.31-53
    • /
    • 2021
  • 소셜미디어는 사회적 분위기를 나타내는 지표로서, 비즈니스, 경제, 정치 및 사회 전반을 아울러 다양한 현상들에 대해 분석하기 위한 목적으로 많이 사용되고 있다. 소셜미디어를 이용한 분석들은 사회적 분위기와 관련된 변화의 설명 변수로 활용되어 왔으며, 이에 대한 분석을 소셜 애널리틱스라 부르고 있다. 일반적인 국민들의 법감정과 사회적 분위기에 대한 지표로 활용되고 있는 소셜 애널리틱스를 이용한 연구는 많은 분야에서 이루어지고 있지만, 아직 충분한 연구가 이루어지지 않고 있던 영역이 법과 관련된 영역이다. 이에 본 연구는 대법원 판결과 관련하여 소셜미디어로부터 다양한 정보를 수집하고 소셜미디어가 법적 판결에 미치는 영향, 그 중에서도 한국의 현실에 맞게 상고 기각 여부 및 판결 기간에 어떠한 영향을 미치는지 알아보는 것을 목표로 한다. 본 연구는 법적 판결에 관하여 가장 활발히 소통하는 인터넷 기사 플랫폼을 대상으로 정보들과 댓글 및 대중의 반응에 대한 정보를 수집하여 진행되었다. 소셜미디어를 통해 확인된 대중들의 관심의 증가가 상고 기각 여부 영향을 미치지는 않았지만, 대중의 반응이 부정적일수록 대법원 최종 판결에 이르기까지의 재판 기간이 짧아지는 것을 확인하였다. 따라서, 소셜미디어는 제한적이지만 법적 판결에 영향을 미침을 확인하였다. 본 연구는 기존의 질적 연구에 의한 사례 연구와 달리, 법적 판결에 대한 소셜미디어의 다양한 정보를 수집하고 그 영향력을 빅데이터 관점에서 분석한 최초의 국내 연구라는 점에서 학문적 의의가 있다. 또한, 학술적 목적뿐만 아니라 필드에서도 쓰일 수 있는 법적 판결과 관련된 소셜미디어의 데이터베이스를 구축하였다는 점에서 실무적 의의도 있다고 할 수 있다.

교사연수 성과평가를 통한 2015 통합과학 교육과정 현장 정착 방안 탐색 (Exploration of Support Plans for 2015 Integrated Science Curriculum through the Performance Evaluation of Implemented Teacher Training Programs)

  • 곽영순
    • 한국과학교육학회지
    • /
    • 제39권2호
    • /
    • pp.197-205
    • /
    • 2019
  • 본 연구의 목적은 2015 개정 교육과정의 신설과목인 통합과학의 현장안착을 지원하기 위해 교육부에서 실시한 통합과학 선도교원 연수에 대한 성과평가를 통해 통합과학 교육과정 지원 방안을 도출하려는 것이다. 2017년도 통합과학 선도교원연수를 중심으로 연수에 참여한 교사들이 개발한 연수 산출물, 연수강사로 참여한 과학교사들과의 심층면담 등을 분석하여 통합과학 선도교원 연수에서 드러난 통합과학 교육과정의 특성과 통합과학 교육과정 현장 안착을 위한 지원 방안을 도출하였다. 2017년도 통합과학 선도교원 연수에 참여한 교사들은 연수를 통해 통합과학 교수 학습 및 평가 계획을 개발하였는데, 교사들이 가장 많이 선택한 성취기준은 [10통과08-03]과 [10통과 09-04]였다. 이들 성취기준에 대해 텍스트마이닝 분석을 통해 성취기준 재해석, 교수학습 방법, 학습소재, 평가방법, 교과역량 등의 구현 실태를 탐색하였다. 또한 2015 통합과학 교육과정의 성취기준 재구성 모델 사례를 통합 우수 사례, 학생 참여형 수업 우수 사례, 교과역량 신장 우수 사례 등으로 구분하여 각각의 특징을 분석하였다. 연구결과를 토대로, 통합과학 교육과정 현장 안착을 위한 연수 지원방안과 후속 연구를 제안하였다.

토핑 모델링을 활용한 동해안 관광의 변화 분석 (The Analysis of Changes in East Coast Tourism using Topic Modeling)

  • 정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.489-495
    • /
    • 2020
  • 4차혁명이 진행되고 있는 초연결사회에선 다양한 IT기기를 통해 데이터량이 증가하고 있고, 이렇게 생산된 데이터를 분석하여 새로운 가치를 창출 할 수 있다. 본 연구에서는 빅카인즈에서 2017년부터 2019년까지 중앙지, 경제지, 지역조합지, 주요방송사 등에서 "(동해안 관광 또는 동해안 여행) 그리고 강원도"라는 키워드로 기사를 총 1,526건을 수집하였다. 수집된 1,526건의 기사를 분석하기 위해 R언어로 구현된 LDA 알고리즘을 이용하여 토픽 모델링을 수행하였다. 2017년부터 2019년까지 각각의 년도별 키워드를 추출하고, 각 년도별로 빈도수가 높은 키워드를 분류하여 비교하였다. Log Likelihood와 Perplexity를 이용하여 최적의 토픽 수를 8로 설정한 후, 깁스 샘플링 방법으로 8가지의 토픽을 추론하였다. 추론된 토픽들은 강릉과 해변, 고성과 금강산, KTX와 동해북부선, 주말바다여행, 속초와 통일전망대, 양양과 서핑, 체험관광, 교통망 인프라이다. 추론된 8개의 토픽의 비중을 이용해 동해안 관광에 대한 기사들의 변화를 분석하였다. 그 결과, 통일전망대와 금강산의 비중은 큰 변화가 없는 것으로 나타났고, KTX와 체험관광의 비중은 증가하였고, 그 외의 토픽들의 비중은 2017년에 비해 2018년에 감소하였다. 2019년에는 KTX와 체험관광의 비중은 감소하였으나, 나머지 토픽들의 비중은 큰 변화가 없는 것으로 나타났다.

AI 윤리와 규제에 관한 표준 프레임워크 설정 방안 연구 (A Study on How to Set up a Standard Framework for AI Ethics and Regulation)

  • 남문희
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.7-15
    • /
    • 2022
  • 정보와 기술의 탈중앙화/분권, 공유/개방, 연결을 통한 개별 맞춤 시대의 지능화 세계 지향으로 그 어느 때 보다도 인공지능에 대한 관심과 기술적 담론 속에 기대와 우려가 교차하는 경향을 자주 보게 된다. 최근에는 2045년 전, 후로 AI의 특이성(Singularity)이 나타날 것이라는 미래학자들의 주장도 쉽게 찾아볼 수 있다. 이제는 다가올 인공지능 시대에서 AI와 함께 상생하고 번영하는 공존 패러다임을 만들기 위한 준비의 일환으로 보다 올바른 AI 윤리와 규제 설정을 위한 표준 프레임워크가 요구되고 있다. 주요지침 설정 누락의 위험성 배제와 타당하고 보다 합리적인 지침 항목과 평가 기준을 가늠 할 수 있는 방안이 점차 큰 연구문제로 나타나고 있기 때문이다. 이런 연구문제 해결과 동시에 AI 윤리와 규제 설정에 대한 지속적인 경험과 학습효과가 연결 발전될 수 있도록 국제기구/국가/기업의 AI 윤리와 규제에 대한 가이드 라인 자료 등을 수집하여 설정 연구모형과 텍스트 마이닝 탐색 분석을 통해 표준 프레임워크(SF: Standard Framework) 설정 방안을 연구 제시한다. 본 연구결과는 향후 보다 발전적인 AI 윤리와 규제지침 항목 설정과 평가 방안연구에 기초 선행연구 자료로 기여될 수 있을 것이다.

스포츠시설에 관한 연구 동향 분석: SCOPUS DB를 중심으로 (Analysis on Research Trends in Sport Facilities: Focusing on SCOPUS DB)

  • 김일광;박성택;박수선;김미숙;박종철
    • 산업융합연구
    • /
    • 제19권6호
    • /
    • pp.11-19
    • /
    • 2021
  • 본 연구의 목적은 "스포츠시설" 관련 국내외 연구의 동향을 탐색적으로 파악하여 향후 연구 방향을 모색하는 데 있다. 이를 위해 2016년부터 2020년까지 SCOPUS DB에서 "스포츠시설"이 포함된 논문의 초록을 수집하였으며, 그 결과 총 1,801편이 자료 분석에 사용되었다. 자료 분석 수행을 위해 LDA 기반 토픽 모델링 기법과 TD-IDF 기법을 활용하였으며, Tagxedo를 활용한 워드클라우드 분석을 수행하였다. 분석 결과, 8가지 토픽이 최적으로 결정되었으며, 각 토픽의 주요 키워드로는 "sports", "facilities", "health", "physical", "data" 및 "using" 등이 도출되었다. 이를 통해 최근에 국내외적으로 스포츠시설과 관련하여 신체활동, 건강 및 시설 이용 등을 주제로 한 연구들이 활발하게 이루어져 왔음을 확인할 수 있었다. 이는 최근 SCOPUS 논문들은 건강 증진과 삶의 질 향상 등과 같은 스포츠시설의 도구적 가치에 주목하고 있음을 의미한다. 따라서, 건강한 삶을 위해 스포츠시설을 이용하는 참여자들에게 도움이 될 수 있는 다양한 연구들이 향후 지속적으로 수행되어야 할 것이다.