• 제목/요약/키워드: 연관 마이닝

검색결과 488건 처리시간 0.033초

텍스트마이닝을 활용한 북한 관련 뉴스의 기간별 변화과정 고찰 (An Investigation on the Periodical Transition of News related to North Korea using Text Mining)

  • 박철수
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.63-88
    • /
    • 2019
  • 북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.

기술 문헌 분석 테스트베드 툴킷 개발 (Developing a Test-Bed Toolkit for Scientific Document Analysis)

  • 최성필;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권8호
    • /
    • pp.13-19
    • /
    • 2012
  • 본 논문은 논문, 특허, 연구보고서 등과 같은 다양한 과학 기술 문헌에 포함된 기술 지식을 효과적으로 추출하는데 필요한 텍스트 분석 엔진들의 효과적인 모니터링 및 성능 최적화를 위한 테스트베드 도구를 소개한다. 이 도구는 과학 기술 분야의 전문 용어를 비롯한 인명, 지명, 기관명 등을 자동으로 인식하는 기술 개체 인식 엔진을 위한 테스트베드와 인식된 기술 개체 간의 의미적 연관 관계를 자동으로 추출하는 기술개체 간 관계 추출 테스트베드로 구성되어 있다. 이를 활용함으로써 사용자 및 개발자들은 기술 문헌 분석 엔진의 실행 모니터링은 물론 오류 분석을 효율적으로 수행할 수 있다.

웹마이닝을 이용한 M-Commerce 추천시스템 설계 및 구현 (A Design and Implementation of the M-Commerce Recommendation System using Web Mining)

  • 이경호;윤창현;박두순
    • 컴퓨터교육학회논문지
    • /
    • 제6권3호
    • /
    • pp.27-36
    • /
    • 2003
  • 추천 시스템들은 고객들이 E-Commerce 사이트에서 상품들을 사는 것을 도와주기 위해서 지속적인 증가추세로 사용되었다. 추천시스템들은 다양한 고객들의 선호도에 따라 유사성과 비유사성에 대한 정보의 기초위에서 고객들의 잠재적인 관심 항목들에 대해 개인의 취향에 맞게 추천하는 기술들을 제공한다. 그러나 추천시스템에 많은 관심을 가짐에도 불구하고 그들의 성능에 대한 공개된 기술이나 정보는 매우 제한적이다. 본 논문에서는 과거 고객들의 구매행동, 고객정보, 데이터마이닝의 연관규칙을 이용한 M-Commerce 추천시스템을 설계하고 구현하였다.

  • PDF

효과적인 의견 자질 결합을 위한 실험적 연구 (Experimental Study for Effective Combination of Opinion Features)

  • 한경수
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.227-239
    • /
    • 2010
  • 의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 '의견' 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.

연관규칙 마이닝과 나이브베이즈 분류를 이용한 악성코드 탐지 (Detection of Malicious Code using Association Rule Mining and Naive Bayes classification)

  • 주영지;김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제20권11호
    • /
    • pp.1759-1767
    • /
    • 2017
  • Although Open API has been invigorated by advancements in the software industry, diverse types of malicious code have also increased. Thus, many studies have been carried out to discriminate the behaviors of malicious code based on API data, and to determine whether malicious code is included in a specific executable file. Existing methods detect malicious code by analyzing signature data, which requires a long time to detect mutated malicious code and has a high false detection rate. Accordingly, in this paper, we propose a method that analyzes and detects malicious code using association rule mining and an Naive Bayes classification. The proposed method reduces the false detection rate by mining the rules of malicious and normal code APIs in the PE file and grouping patterns using the DHP(Direct Hashing and Pruning) algorithm, and classifies malicious and normal files using the Naive Bayes.

데이터 마이닝을 이용한 대변과 약물간의 연관성 분석 -방약합편을 중심으로- (A study of relationship between excrement and materia medica in Bangyakhappyeon based on the data mining analysis)

  • 송영섭;양동훈;박영재;박영배
    • 대한한의진단학회지
    • /
    • 제16권2호
    • /
    • pp.33-46
    • /
    • 2012
  • Purpose : Nowadays excrement-related disease that repeats constipation and diarrhea is on the increase due to the change of dietary and lack of exercise, etc. We analyzed Bangyakhappyeon in order to find out the materia medica which is used for the excrement patterns. Methods : The database used in present thesisis consist of disease pattern, nature of medicinals and materia medica from Bangyakhappyeon was constructed. We analyzed the nature of medicinals of excrement patterns(or symptom) by frequency analysis and network analysis, and also searched main materia medica of excrement patterns(or symptom) by frequency analysis and rule mining. Results : We analyzed the nature of medicinals of excrement patterns(or symptom) in Bangyakhappyeon. And we researched the high frequency materia medica, high specificity materia medica and high frequent paired-drugs as main materia medica of excrement patterns(or symptom). Conclusion : This study found the information about frequency relationship between excrement patterns(or symptoms) and materia medica.

Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 (Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents)

  • 장정호;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석 (Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment)

  • 최성필;송사광;맹성현
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.135-148
    • /
    • 2012
  • 본 논문에서는 Predicate-Argument Tuple (PAT)를 기반으로 텍스트 간 심층적 근사 정렬(Approximate Alignment)을 통한 문장 단위 바꿔쓰기표현(sentential paraphrase) 식별 모델을 제안한다. 두 문장 간의 PAT 기반 근사 정렬 결과를 바탕으로, 두 문장의 의미적 연관성을 효과적으로 표현하는 다양한 정렬 자질(alignment feature)들을 정의함으로써, 바꿔쓰기표현 식별 문제를 지도 학습(supervised learning) 기반의 자동 분류 모델로 접근하였다. 실험을 통해서 제안 모델의 가능성을 확인할 수 있었으며, 시스템의 오류 분석을 통해 제안 방법이 아직 해결하지 못하는 다양한 바꿔쓰기표현 유형들을 식별함으로써 향후 시스템의 성능 개선 방향을 도출하였다.

의미적 시각미디어 웹 서비스를 위한 온톨로지 반자동 생성 (Semiautomatic Ontology Construction for Semantic Visual Media Web Service)

  • 김하영;이충우;황재일;서보원;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.12-16
    • /
    • 2007
  • 웹 서비스는 사용자의 요청에 적합한 서비스 제공자의 정보를 제공하여 주는 시스템으로 사용자는 원하는 서비스를 웹 서비스에서 검색, 통합하는 등으로 새로운 서비스를 조합할 수 있다. 이러한 웹 서비스는 다양한 형태의 검색자원을 가질 수 있는데 HERMES는 웹 서비스 시각미디어 검색 시스템의 일종이다. 오늘날의 웹 서비스는 시맨틱 개념을 접목시켜 검색 성능을 향상시키고 정확성을 증대시키기 위해 온톨로지를 주로 활용한다. 시맨틱 개념의 핵심기술인 온톨로지는 단어와 관계들로 구성된 사전으로서 어느 특정분야에 관련된 단어들을 계층적 구조로 표현한 것이다. 본 논문은 온톨로지의 반자동 생성을 위해 Mining Extractor를 구축하여 HERMES를 개선하는 방법을 제안한다. Mining Extractor는 대상 도메인을 필터링하고 도메인간의 계층구조를 파악하여 온톨로지를 구축하는 것을 목적으로 한다. 이를 위해 워드넷(WordNet)과 데이터 마이닝 기법의 연관규칙을 적용하였다.

  • PDF

VOC 기반 연관규칙 마이닝을 이용한 통신선로설비의 장애 예측 (Fault Prediction of a Telecommunications Network using Association Rules Mining based on Voice of the Customer)

  • 나기주;한인섭;조남욱
    • 디지털산업정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.13-24
    • /
    • 2015
  • Customer complaints handling helps organizations to retain existing customers and attract new customers, as well. As Voice of the Customer (VOC) is one of the main sources of customer complaints, many organizations utilize VOC to enhance customer satisfaction. Effective management of VOC has been proved as one of the best ways to maintain organization's brand image and reputation. In spite of its importance, little has been reported on the utilization of VOC to detect faults in a telecommunication industry. In this paper, association rule mining based on VOC is used to identify root fault causes of a telecommunications network. To do that, VOC of a Communication Service Provider has been collected first. Then, association rule mining has also been conducted with various support and confidence levels. As a result, root fault causes of the telecommunications network can be identified. It is expected that this study can be used as a basis for decisions about customer satisfaction management such as preventive maintenances or reduction of the customer maintenance cost.