• 제목/요약/키워드: 연관 마이닝

검색결과 488건 처리시간 0.033초

비정형 문서에서 감정과 상황 정보를 이용한 감성 예측 (Sentiment Prediction using Emotion and Context Information in Unstructured Documents)

  • 김진수
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.40-46
    • /
    • 2020
  • 인터넷의 발전으로 사용자들은 자신의 경험이나 의견을 공유한다. 영화평과 같은 비정형 문서의 전체적인 감정이나 장르 등의 정보를 고려하지 않고 연관된 키워드를 사용하기 때문에 적절한 감정 상황에 따른 감성 정확도를 저해한다. 따라서 사용자들이 작성한 비정형 문서가 속한 장르나 전반적인 감정 등의 정보를 기반으로 감성을 예측하는 시스템을 제안한다. 먼저, 비정형 문서로부터 기쁨, 화남, 공포, 슬픔 등의 감정 집합과 연관된 대표 키워드를 추출하고, 감정 특징단어들의 정규화된 가중치와 비정형 문서의 정보를 훈련 집합으로 CNN과 LSTM을 조합한 시스템에 훈련한다. 최종적으로 영화 정보와 형태소 분석기와 n-gram을 통해 추출한 정제된 단어들과 이모티콘, 이모지 등을 테스트함으로써 감정을 이용한 감성 예측 정확도와 F-measure 측면에서 향상됨을 보였다. 제안한 예측시스템은 슬픈 영화에서 슬픈 단어의 사용과 공포 영화에서 무서운 단어 등의 사용으로 인해 부정으로 판단하는 오류를 피함으로써, 감성을 상황에 따라 적절하게 예측할 수 있다.

빅데이터 분석을 이용한 문단 내의 감정 예측 (Emotion Prediction of Paragraph using Big Data Analysis)

  • 김진수
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.267-273
    • /
    • 2016
  • 모바일의 확산과 더불어 정형화된 자료뿐만 아니라 다양한 형태의 비정형화된 자료로부터 정보가 생성되고 정보 전달 및 공유가 활발히 이루어지고 있다. 최근에는 다양한 SNS 매체들로부터 생산 및 배포되는 많은 자료들 중에서 유의미한 정보를 추출하는 기술로 빅데이터 기술을 많이 사용하며, 빅데이터 분석 기법 중 하나인 데이터 마이닝 기법을 사용한다. 특히, SNS로부터 수집된 방대하고 다양한 자료들을 이용하여 대중의 집단지성에 표출된 일반적인 감정을 분석하여 다양한 분야에 활용한다. 본 논문에서는 SNS를 통해 작성된 짧은 문단 내 함축된 키워드와 키워드들 간의 연관성을 이용하여 문단에 나타난 감정을 예측하고 사용자별 감정에 따른 적절한 답변이나 예측된 감정과 유사한 상품이나 영화 등 다양한 추천시스템에 사용될 수 있도록 형태소 분석과 변형된 n-gram방법을 혼합하여 효율적인 감정 예측 시스템을 제안한다. 제안된 시스템은 평균 82.25%의 재현율을 보여 기존의 시스템에 비해 더욱 향상된 성능을 보여 주었고, 형태소분석을 통해 의미 있는 키워드 추출에 도움이 될 것으로 기대한다.

인적재난사고사례기반의 새로운 재난전조정보 등급판정 연구 (Developing an Intelligent System for the Analysis of Signs Of Disaster)

  • 이영재
    • 한국재난관리표준학회지
    • /
    • 제4권2호
    • /
    • pp.29-40
    • /
    • 2011
  • 본 연구는 인적재난 분야에 다양한 재난전조자료를 수집 분석하여 재난 위험등급을 결정하는 의사결정체계를 구축할 목적으로 재난전조 정의, 재난전조정보를 분석하기 위한 분류체계, 재난전조정보 위험등급을 판단하기 위한 논리적 알고리즘, 대응 조치사항을 포함한 권고사항 등을 연구하였다. 본 연구에서 의사결정체계를 위해 적용된 온톨로지 기법은 기본요소들의 분류 및 3계층 속성 분류만을 도입하였고, 텍스트 마이닝 기법에서는 용어의 빈도수 분석 및 신뢰도 계산 부분을 도입하여 연관성 규칙의 기본구조를 밝혀냈다. 이 기본구조에 과거 재난사례를 적용하여 연관성 규칙을 생성하였으며, 새로운 재난전조정보와 비교하여 위험등급을 추론하는 사례기반추론 기법을 사용하였다. 본 연구에서 제시된 지능형 의사결정체계는 의사결정자가 재난전조정보를 바탕으로 위험등급을 결정하여 사전예방조치를 할 수 있도록 도와주며, 궁극적으로 재난발생 가능성을 줄일 수 있다.

  • PDF

데이터 마이닝 기반 침입탐지 패턴 알고리즘의 설계 및 구현 (Design and Implementation of the Intrusion Detection Pattern Algorithm Based on Data Mining)

  • 이상훈;소진
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.717-726
    • /
    • 2003
  • 본 논문에서 우리는 방대한 패킷 데이터로부터 침입탐지를 위한 규칙들을 자동으로 생성하는 방법으로 기존 연관규칙을 연역적 알고리즘을 분석하고, 그 결과를 기반으로 침입탐지 시스템에 적용되기 위한 침입 패턴 규칙들을 빠르게 생성할 수 있도록 연연적 알고리즘을 제안하였다. 본 논문에서 제안한고 있는 연역적 알고리즘은 대량의 데이터를 항목별로 분류하고 제거하는 클러스터링 개념에 적합하도록 설계하였다. 이 알고리즘은 적용될 침입탐지 시스템 패턴 생성 및 분석 모듈 방식에 직접적으로 연계되어 있으며, 이것은 침입탐지 시스템에 관한 패턴관리를 위한 규칙 데이터베이스를 구축함으로서 응용범위의 확장은 물론 기존 침입탐지 시스템의 탐지속도를 높일 수 있다. 제안된 연역적 알고리즘의 패텅 생성 기법은 침입탐지 시스템에서 생성되는 데이터의 지원율에 따라 적절히 변경될 수 있는 알고리즘을 사용하였으며, 이 기법에 의한 규칙 생성율의 향상에 따른 규칙생성 속도개선 가능성에 대해 알고리즘 시뮬레이션을 통하여 분석하였다.

다차원 데이터 큐브 모델을 이용한 구제역의 위기 대응 방안 분석 (Crisis Management Analysis of Foot-and-Mouth Disease Using Multi-dimensional Data Cube)

  • 노병준;이종욱;박대희;정용화
    • 한국콘텐츠학회논문지
    • /
    • 제17권5호
    • /
    • pp.565-573
    • /
    • 2017
  • 재난 재해 발생 시, 정부의 위기 대응방식에 대한 사후 평가는 향후 유사한 위기 상황이 발생할 경우를 대비하고 국가의 장기적인 위기관리의 초석이 되는 필수적인 단계이다. 본 논문에서는 국내에서 발생한 구제역에 관하여 정부에서 어떠한 대응 전략을 펼쳤는지를 언론에 보도된 기사 내용을 통해 분석한 연구로써, 먼저 온라인 뉴스 기사로부터 구제역에 관한 키워드들을 추출하여 데이터 큐브를 구성한 후, OLAP 연산과 연관규칙 분석을 수행함으로써 시간 축에 따른 정부의 위기상황 대응행동 및 그에 따른 사회적 파급 효과들을 분석한다. 구제역이 가장 심각했던 2010년 11월부터 2011년 12월까지 국내에서 발생한 구제역에 관한 정부의 위기 상황 대응 방법을 사례분석을 통해 분석하였다.

변경 유형의 유사도 및 커밋 시간을 이용한 파일 변경 결합도 (A Technique to Detect Change-Coupled Files Using the Similarity of Change Types and Commit Time)

  • 김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.65-72
    • /
    • 2014
  • 변경 결합도는 두 요소들 사이의 향후 변경 연관성을 알려준다. 만약, 소스 파일들이 자주 함께 변경된다면, 그 소스 파일들의 변경 결합도는 높다고 볼 수 있으며, 나중에 다시 함께 변경될 확률이 높다. 일반적으로 소스 파일들 사이의 변경 결합도는 공통 변경 횟수에 기반하여 정의되었다. 그런데 연관성이 낮은 변경들이 일괄적으로 함께 커밋되는 경우, 즉 뒤얽힌 변경(tangled change)과 같은 경우들이 빈번히 발생한다. 따라서 함께 변경된 횟수만으로 소스 파일의 변경 결합도를 결정하는 것은 한계가 있다. 본 논문에서는 기존의 방법을 보완하기 위해, 소스 파일의 변경 시간뿐 아니라 소스 코드 변경 유형의 유사성을 함께 고려하는 것을 제안하였다. 이를 위하여, 우선 추출된 변경 유형 정보를 이용하여 변경 유형 빈도 벡터를 정의하고, 다음에 코사인 유사도 측정을 통해서 각 소스 파일 버전에서 적용된 코드 변경 유사성을 계산한다. 이후 Eclipse 프로젝트인 JDT와 CDT에 대한 사례 연구를 통해 제안된 방법의 효용성을 보였다.

N-Block substring 가중 선형모형을 이용한 단백질 CDS의 특징 추출 및 분류 (Feature Selection and Classification of Protein CDS Using n-Block substring weighted Linear Model)

  • 최성용;김진수;한승진;최준혁;임기욱;이정현
    • 한국지능시스템학회논문지
    • /
    • 제19권5호
    • /
    • pp.730-736
    • /
    • 2009
  • 방대한 유전 정보를 분석, 가공하는 생명정보학의 중요성은 더욱 높아지고 있다. 본 논문에서는 단백질의 1차 구조만으로 단백질의 구조와 기능을 예측하는 새로운 데이터마이닝 방법을 제안한다. 단백질 서열만으로 특징 추출시 발생할 수 있는 문제점인 방대한 탐색공간을 효과적으로 축소하기 위해 n-Block substring 탐색 알고리즘을 제안한다. 또한 선별된 각 substring의 도메인 연관도를 결정하는 가중치를 구하여 가중 선형모형을 구축함으로써 구조와 기능에 관련이 있을 것으로 예상되는 단백질 도메인의 특징을 추출하고 분류에 효과적임을 보인다. 도메인에 포함되는 각각의 CDS(coding sequence)에 대해 모형으로부터 구한 점수를 통해 해당 도메인과의 연관성의 정도를 추정하며, 분류 효율을 더욱 향상시킬 수 있음을 보인다.

과학기술분야 정부출연연구기관 연구성과계획 분석: 한국과학기술정보연구원을 중심으로 (Analysis of R&D Performance Management Plans of a Government-funded Research Institute in the Science and Technology Field: The Case of Korea Institute of Science and Technology Information)

  • 정용일;정도범;윤병성
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.488-499
    • /
    • 2022
  • 본 연구는 우리나라의 과학기술정책과 정부출연연구기관(이하, 출연(연))의 연구계획 사이의 연관 관계에 관한 분석을 시도하였다. 국가과학기술혁신체제(NIS)에서 주요 행위자인 출연(연)이 수행하는 연구사업은 정부의 과학기술정책 방향과 밀접한 관계를 가진다. 특히, 우리나라의 출연(연)은 1973년 '특정연구기관육성법'에 근거하여 전략기업의 기술수요를 해결하는 등 과학기술입국의 구심축 역할을 해왔다. 이에 출연(연)의 연구개발(R&D) 전략 변화에 영향을 주는 주요 요인 중 정부의 과학기술정책이 어떠한 영향을 미치는가를 살펴보고자 한다. 이를 위해 텍스트 마이닝(text mining), 군집군석(cluster analysis) 등의 계량정보분석을 통해 과학기술정책과 과학기술 분야 출연(연)인 한국과학기술정보연구원(KISTI)의 연구성과계획 간의 연관 관계를 분석했다. KISTI R&D 성과계획 핵심어에 대한 계량분석 분석결과 정부의 과학기술 정책변화가 출연(연)의 R&D 사업계획에 영향을 미치는 것으로 나타났다. 과학기술기본계획은 시기별 각 정부가 추구한 과학기술 비전에 따라 정책 패러다임, 과학기술 행정체계가 변화하였고, 그에 따라 출연(연)에 대한 관리체계 변화와 역할·임무의 변화에 영향을 미친 것으로 나타났다. 본 연구를 통해 기존 연구에서 제시한 과학기술정책이 출연(연)의 연구성과계획에 영향을 미치는 요인에 대한 상관관계를 실증적으로 분석한 데에 그 의의가 있다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.