• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,095건 처리시간 0.036초

텍스트 마이닝 기법을 이용한 학습 수요자 요구에 관한 연구 : SNS를 중심으로 (A Study on Learners' Needs Analysis Using Text Mining Techniques : Focusing on SNS)

  • 이명숙;이경미;임영규;한경임;박혜정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.259-261
    • /
    • 2016
  • 본 연구는 교양교육에 대한 학습 수요자의 요구와 현재 편성되어 있는 교양교육 교과목들에 대한 차이를 알아본다. 학습 수요자의 다양한 생각들을 SNS를 통해 데이터를 수집하고, 텍스트 마이닝 기법을 이용하여 유용한 정보를 발견하고 시각화 분석을 통해 학습자의 요구를 제시한다. 분석 결과로는 학습자는 교수자와 상호작용 잘되는 수업 방식, 학습자가 참여할 수 있는 수업, 자기주도 학습을 선호하였다. 또한 교양교육 교과목 개설로서는 취업에 필요한 외국어, 자격증 취득이 가능한 과목, 실생활에 적용할 수 있는 실용적인 과목들을 요구하여 실제 균형에 맞게 개설된 교과목과는 차이를 보임을 알 수 있었다.

  • PDF

발신번호 특징 및 음절단위 기계학습을 통한 모바일 스팸 SMS 필터링 시스템 (A Mobile Spam SMS Filtering System using Machine learning about syllable and the features of caller ID)

  • 유환일;채동규;임을규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.219-222
    • /
    • 2011
  • 본 논문에서는 스팸 SMS 발신번호와 메시지 텍스트의 특징을 기계학습한 스팸 필터링 시스템을 논한다. 최근 변화하는 스팸SMS에 대한 적응력을 위해서, 각 트레이닝 셋의 수신 텍스트를 음절단위로 분석 할 것을 제안한다. 그리고 기존의 분류기는 성능이 미흡하거나 구현의 복잡성으로 인해 실제로 스펨 필터엔진으로 활용되지 않는 점을 극복하기 위해서 보다 단순한 분류기를 사용한다. 제안하는 시스템은 트레이닝 셋의 발신번호 및 수신 텍스트의 음절단위를 빈도수와 묶어 학습데이터를 구성하고, 테스트 셋을 스팸적 논스팸적으로 분석하여 스팸일 확률을 계산한다. 또한 Naive baysian를 바탕으로 한 경계값 기반 분류기를 통해, 타 분류기에 비해 구현 및 활용면에서 실용성이 높으면서도 성능이 뒤처지지 않는 시스템을 제안한다.

빅데이터 분석을 통한 발명 교육 센터에 대한 사회적 인식 (Social Perception of the Invention Education Center as seen in Big Data)

  • 이은상
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.71-80
    • /
    • 2022
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 발명 교육 센터에 대한 사회적 인식을 확인해 보는 데 있다. 이를 위해 TEXTOM 사이트를 이용하여 네이버와 다음 사이트의 블로그, 카페, 뉴스 채널에서 '발명+교육+센터'를 검색 키워드로 2014년 1월부터 2021년 9월까지의 데이터를 수집하였다. 수집된 데이터는 TEXTOM 사이트에서 정제하였으며, 텍스트 마이닝 분석과 의미 연결망 분석을 위해 TEXTOM 사이트, Ucinet 6, Netdraw 프로그램을 이용하였다. 수집된 데이터는 1차와 2차의 정제 과정을 거쳐 단어빈도를 바탕으로 주요 키워드 60개를 선정하였으며, 선정된 주요 키워드는 매트릭스 데이터로 변환하여 의미 연결망 분석을 실시하였다. 이 연구의 텍스트 마이닝 분석 결과 '학생', '운영', '한국발명진흥회', '특허청' 등이 의미 있는 키워드임을 확인하였다. 의미 연결망 분석 결과 발명 교육 센터와 관련된 '교육 운영', '발명 대회', '교육 과정 및 진행', '사업 모집 및 지원', '주관 및 선정 기관' 등 5개의 군집을 확인할 수 있었다. 이 연구의 결과는 발명 교육 센터에 대한 연구를 수행하는 연구자나 정책 입안자의 학술 연구에 활용될 수 있을 것이다.

온라인 관광정보의 내용 및 텍스트 네트워크 (제주 공식 웹사이트와 중국 개인블로그를 중심으로) (Tourism Information Contents and Text Networking (Focused on Formal Website of Jeju and Chinese Personal Blogs))

  • 장림;윤희정
    • 한국콘텐츠학회논문지
    • /
    • 제18권1호
    • /
    • pp.19-30
    • /
    • 2018
  • 본 연구는 온라인 관광정보의 내용 및 텍스트 네트워크 분석을 주요한 연구목적으로 한다. 이를 위해 본 연구는 한국의 대표 관광지 중 하나인 제주도를 연구대상지로 선정하였으며, 제주 DMO의 공식 관광정보 웹사이트와 중국 소셜네트워크 중 하나인 Sina Weibo 개인 블로그의 제주관련 관광정보를 수집하였다. 분석은 중국어 빅데이터 분석 프로그램 중 하나인 ROST Content Mining System을 이용하여 관광정보의 내용분석과 텍스트 네트워크 분석을 진행하였다. 내용분석 결과 제주 공식 웹사이트의 경우 자연, 지리, 시설자원과 관련된 명사, 자원의 존재가치와 관련된 동사, 자원의 아름다움과 깨끗함, 편리함 등과 연계된 형용사들이 주로 나타났다. 반면, 개인 블로그의 경우 한류, 음식, 지역특산물, 연계관광지, 쇼핑과 관련된 명사, 제주에서의 활동과 느낌에 대한 동사, 제주관련 경험이나 느낌과 연계된 형용사들이 주로 나타나고 있었다. 텍스트 네트워크 분석결과, 공식 웹사이트의 경우 자연성 및 지리적 속성 위주의 다양한 중심성이 확인되었으나, 개인 블로그의 경우 중심성과 연계성이 매우 미약하였다. 이상의 연구결과는 관광목적지의 수요기반 마케팅 전략 수립에 다양하게 활용될 수 있을 것이다.

서비스 분야의 주요 이슈와 주제에 대한 흐름 분석: 유튜브 동영상과 학술연구 비교 (Analysis of Trends of Critical Issues and Topics in the Service Sector: Comparing YouTube Videos and Research Publications)

  • 정의범;이돈희
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.59-76
    • /
    • 2023
  • 본 연구는 유튜브 동영상과 학문적 연구결과를 활용하여 서비스에 대한 주요 이슈와 주제를 파악하는데 목적이 있다. 2013년부터 2023년 6월까지 서비스 분야와 관련된 2,853편의 유튜브 동영상 콘텐츠와 19,973편의 연구논문을 텍스트 마이닝과 텍스트 네트워크 분석을 활용하였다. 또한, 수집된 데이터를 COVID-19 팬데믹 이전과 이후로 구분하여 서비스에 대한 주요 이슈와 주제가 어떻게 변화되는지를 분석하였다. 수집된 데이터는 텍스트 마이닝과 네트워크 구성 및 분석 절차를 통해 분석을 실시하였다. 분석결과, 유튜브 동영상 콘텐츠와 학술연구를 구분하여 연결 중심성 분석결과, 유튜브 동영상 콘텐츠에서 중심성이 높은 단어는 IT, data, solution 순으로 나타났고, 학술연구 분야에서는 서비스 품질, 품질, 고객만족 순으로 나타났다. 에고 네트워크 분석결과, 유튜브 동영상 콘텐츠의 경우 주요 이슈는 서비스 산업과 관련된 단어를 중심으로 나타났지만, 상대적으로 산업별 세부 분야를 포함하지 않고 있는 것으로 분석되었다. 그러나 학술연구 분야에서는 상대적으로 서비스 분야별 주요 이슈를 다양하게 포함하고 있는 것으로 분석되었다. 본 연구 결과는 서비스 산업에서 고객의 주요 관심사에 대한 변화를 학문적 실무적 관점에서 이해하는데 활용될 수 있다.

비대면 교육 문제점 파악을 위한 빅데이터 텍스트 마이닝 분석 (Big data text mining analysis to identify non-face-to-face education problems)

  • 박성재;황욱선
    • 한국교육논총
    • /
    • 제43권1호
    • /
    • pp.1-27
    • /
    • 2022
  • 세계적으로 코로나19 바이러스가 만연해짐에 따라 다양한 분야에서 비대면화를 시행하게 되었고, 교육 시스템 또한 급격한 비대면화로 인해 많은 관심이 집중되기 시작하였다. 본 연구의 목적은 현재까지 계속적으로 변화하고 있는 교육환경에 맞추어 비대면 교육이 나아가야 하는 방향성에 대해서 분석하는 것이다. 본 연구에서는 다양한 의견들이 존재하는 소셜네트워크 빅데이터를 수집하기 위하여 텍스톰(Textom), 유씨넷6(Ucinet6) 분석 도구 프로그램을 사용하여 데이터를 시각화하였다. 연구 결과 '코로나'와 관련된 키워드가 주를 이루었으며 '기사', '뉴스'등의 높은 빈도의 키워드들이 존재했다. 분석 결과 네트워크 장애 및 보안 문제와 같은 비대면 교육에 관련한 다양한 이슈들을 확인해 볼 수 있었고, 분석 이후 교육 시장의 성장과 교육 환경의 변화에 따른 비대면 교육 시스템의 방향성에 관하여 연구하였다. 또한 빅데이터를 이용하여 분석한 비대면 교육시의 보안 강화 필요성과 수업 방식에 대한 피드백의 필요성이 존재한다.

캐시 서버를 위한 웹 트래픽 데이터 분석 (Web Traffic Data Analyze for Cache Server)

  • 정슬기;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.1303-1306
    • /
    • 2008
  • 전체 웹 트래픽 요소 중 가장 큰 비중을 차지하는 HTTP 트래픽을 대상으로 하여 과거의 데이터와 비교 분석해 보았다. 현재의 웹 페이지의 경우 최소 10개~ 20개 이상의 또 다른 객체를 요청 하게 되고 있음을 발견했다. 이는 텍스트가 주를 이루었던 과거의 객체들과 매우 다른 양상을 보인다. 최근의 웹 트레이스 로그를 분석하여 기존 알고리즘들의 문제점을 발견하여 지적 하며 새로운 캐싱 알고리즘의 개념을 제안한다.

학교폭력과 자살사고를 예방하기 위한 감성분석 시스템의 설계 (Design of a Sentiment Analysis System to Prevent School Violence and Student's Suicide)

  • 김영택
    • 컴퓨터교육학회논문지
    • /
    • 제17권6호
    • /
    • pp.115-122
    • /
    • 2014
  • 현 청소년들의 학교내 생활환경에서 문제점으로 대두되는 폭력 및 자살사고 발생률 증가에 대한 예방차원의 빅 데이터 처리 분석 시스템을 목표로 연구하였고 설계의 경제성과 용이성, 적용의 신속성 등을 고려해서 많은 이용률을 가지고 있는 오픈 소스인, 하둡 시스템(Hadoop system)의 맵리듀스(MapReduce) 알고리즘과 분산 병렬 환경을 위한 HDFS(Hadoop Distibuted File System) 구성을 사용하여 실험하였다. 연구에서 사용된 분석기법은 기존의 통계적인 분석기법들이 가지는 난이도를 피하기 위해 상업적인 사회 망의 비정형 대화 자료를 이용해서 폭력성 어휘에 대한 단어 수(word count) 분석을 적용하여 폭행, 자살사고를 사전에 감지하여 예방하는 감성분석(sentiment analysis) 시스템을 텍스트 마이닝 관점에서 제안하여 실험하였다.

  • PDF

빅데이터 분석 기법을 활용한 도서관발전종합계획 동향 분석 연구 (Analysis Study on Trends of Library Development Plan by Using Big Data Analysis)

  • 김동석;노영희
    • 한국비블리아학회지
    • /
    • 제29권2호
    • /
    • pp.85-108
    • /
    • 2018
  • 본 연구에서는 도서관발전종합계획에 대한 언론보도를 빅데이터 분석 기법을 활용하여 시기별 동향과 시사점을 도출하고자 하였다. 이를 위해 국내 주요 포털 사이트를 통해 2009년부터 2017년까지 관련 데이터를 수집하였다. 수집된 데이터는 텍스트 마이닝 과정을 통해 정제된 단어를 도출하였고 이를 바탕으로 빈도분석 및 중심성 분석, 구조적 등위성 분석 등을 수행하였다. 분석 결과 제1 2차 도서관발전종합계획이 시행되는 동안 도서관 정책의 흐름이 외연적 성장에서 도서관 운영의 내실화 고도화의 흐름으로 변화하고 있었으며, 도서관 시설 확충과 같은 특정 정책에 국한되어 언론보도가 이루어짐을 확인할 수 있었다. 이러한 연구 결과는 도서관발전종합계획으로 대변되는 도서관 정책을 어떤 관점에서 인식하고 이해하고 있는지 확인하는데 유용한 자료로 사용될 수 있으며, 향후 도서관발전종합계획의 비전을 모색하는데 활용되기를 바란다.

정박 중 발생한 준해양사고 원인에 대한 통계 분석 연구 (A Statistical Analysis of the Causes of Marine Incidents occurring during Berthing)

  • 노범석;강석용
    • 한국항해항만학회지
    • /
    • 제45권3호
    • /
    • pp.95-101
    • /
    • 2021
  • 하인리히의 법칙에 근거한 준해양사고는 사고를 미리 방지할 수 있는 수단으로서 매우 중요하다. 이에 본 연구에서는 정성적 데이터가 주를 이루는 정박 중 발생한 준해양사고에 대해 다양한 통계 분석 방법을 활용하여 정량적 결과를 도출하고자 하였다. 이를 위해 다양한 해운회사로부터 준해양사고 자료를 수집하여 분석에 쉽도록 재분류하였고, 텍스트마이닝 분석기법을 활용하여 1차 분석하여 주요 키워드를 도출하였다. 도출된 키워드는 전문가 집단의 검증을 거쳐 의미 있는 단어만 선택되었고, 시계열 및 군집 분석을 시행하여 정박 중 발생할 수 있는 준해양사고를 예측하였다. 이를 통해, 데이터 분석기술을 활용하면 정성적 준해양사고 자료를 정량화된 데이터 전환과 통계적 분석이 가능함을 확인할 수 있었다. 또한, 발생 가능한 준해양사고의 경향을 파악함으로써 원인과 예방 대책에 대한 정보 제공도 가능함을 확인할 수 있었다.