• Title/Summary/Keyword: 키워드추출 시스템

Search Result 287, Processing Time 0.035 seconds

Comparison Speed of Data Filtering for Log Analysis (로그분석을 위한 데이터 필터링 속도 비교 분석)

  • Kim, Sung-Jun;Lee, Jae-Kook;Woo, Jun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.181-183
    • /
    • 2015
  • 시스템 로그의 분석은 장애의 원인 분석 및 발생 가능성을 예측하는데 중요한 행위이다. 하지만, 로그의 특성상 관련 로그만을 추출하고 이를 대상으로 분석을 진행하는 것이 분석의 시간을 단축하는데 도움이 된다. 본 논문에서는 대용량의 로그파일에서 원하는 키워드를 포함하는 로그를 추출하는 여러 방식 중에서 가장 빠르게 추출할 수 있는 방식을 선택하기 위해서 슈퍼컴퓨터에서 생성된 실제 로그 파일을 대상으로 로그 필터링 속도를 비교하였다. 이를 통해서 선택된 방식을 이용하여 대규모 로그를 필터링하고 이를 기반으로 향후 구축할 로그 분석 솔루션을 구축할 예정이다.

Human Evaluation of Keyword Extraction System Using Lexical Chains (어휘 체인을 이용한 키워드 추출 시스템 성능 평가)

  • 강보영;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.190-192
    • /
    • 2001
  • In Information Retrieval or Digital Library, one of the most important factors is to find out the exact information which users need. Exact keywords which represent the content of a document can be much help to find the exact information. In this paper, we evaluate an efficient keyword extraction system by recall and precision. The results presented here are based on the human evaluations of the quality and the appropriateness of keywords.

  • PDF

Remote Video Evaludation System Using Scene Change Detection and User Profile (장면전환검출과 사용자 프로파일을 이용한 원격 비디오 학습 평가 시스템)

  • J.H, Lim;N-Y, Kook;S.Y, Kwag;Y.W, Lee
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.787-790
    • /
    • 2003
  • 전통적인 원격 평가 시스템들은 학생 개개인의 특성과 성향을 고려하지 않기 때문에 단순하고 획일적이라는 문제점을 갖고 있다. 돈 논문에서는 이러한 문제점을 해결하고 비디오를 통한 평가를 위하여 장면전환검출과 사용자 프로파일을 이용한 원격 비디오 평가 시스템을 제안하고 구현한다 비디오 문제 출제를 위한 장면 전환 검출을 통하여 키 프레임과 문제 출제 구간을 추출한다. 문제 출제 방법은 평가에 사용자 프로파일의 적용을 위하여 카테고리 기반 시스템과 키워드 기반 시스템을 합성한 방법을 이용하였다. 이 시스템을 통하여 학생들은 자신의 부족한 영역을 보충하고 관심 영역을 유지할 수 있으며 학업 성취도를 향상시킬 수 있다 사용자 프로파일을 이용한 본 시스템은 사용자의 문제 풀이 결과에 따라 영역별 문제 수를 조절하고 평가의 질과 효율성을 최대화시킨다.

  • PDF

Keyword Network Analysis for Technology Forecasting (기술예측을 위한 특허 키워드 네트워크 분석)

  • Choi, Jin-Ho;Kim, Hee-Su;Im, Nam-Gyu
    • Journal of Intelligence and Information Systems
    • /
    • v.17 no.4
    • /
    • pp.227-240
    • /
    • 2011
  • New concepts and ideas often result from extensive recombination of existing concepts or ideas. Both researchers and developers build on existing concepts and ideas in published papers or registered patents to develop new theories and technologies that in turn serve as a basis for further development. As the importance of patent increases, so does that of patent analysis. Patent analysis is largely divided into network-based and keyword-based analyses. The former lacks its ability to analyze information technology in details while the letter is unable to identify the relationship between such technologies. In order to overcome the limitations of network-based and keyword-based analyses, this study, which blends those two methods, suggests the keyword network based analysis methodology. In this study, we collected significant technology information in each patent that is related to Light Emitting Diode (LED) through text mining, built a keyword network, and then executed a community network analysis on the collected data. The results of analysis are as the following. First, the patent keyword network indicated very low density and exceptionally high clustering coefficient. Technically, density is obtained by dividing the number of ties in a network by the number of all possible ties. The value ranges between 0 and 1, with higher values indicating denser networks and lower values indicating sparser networks. In real-world networks, the density varies depending on the size of a network; increasing the size of a network generally leads to a decrease in the density. The clustering coefficient is a network-level measure that illustrates the tendency of nodes to cluster in densely interconnected modules. This measure is to show the small-world property in which a network can be highly clustered even though it has a small average distance between nodes in spite of the large number of nodes. Therefore, high density in patent keyword network means that nodes in the patent keyword network are connected sporadically, and high clustering coefficient shows that nodes in the network are closely connected one another. Second, the cumulative degree distribution of the patent keyword network, as any other knowledge network like citation network or collaboration network, followed a clear power-law distribution. A well-known mechanism of this pattern is the preferential attachment mechanism, whereby a node with more links is likely to attain further new links in the evolution of the corresponding network. Unlike general normal distributions, the power-law distribution does not have a representative scale. This means that one cannot pick a representative or an average because there is always a considerable probability of finding much larger values. Networks with power-law distributions are therefore often referred to as scale-free networks. The presence of heavy-tailed scale-free distribution represents the fundamental signature of an emergent collective behavior of the actors who contribute to forming the network. In our context, the more frequently a patent keyword is used, the more often it is selected by researchers and is associated with other keywords or concepts to constitute and convey new patents or technologies. The evidence of power-law distribution implies that the preferential attachment mechanism suggests the origin of heavy-tailed distributions in a wide range of growing patent keyword network. Third, we found that among keywords that flew into a particular field, the vast majority of keywords with new links join existing keywords in the associated community in forming the concept of a new patent. This finding resulted in the same outcomes for both the short-term period (4-year) and long-term period (10-year) analyses. Furthermore, using the keyword combination information that was derived from the methodology suggested by our study enables one to forecast which concepts combine to form a new patent dimension and refer to those concepts when developing a new patent.

A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree (난이도 자동제어가 구현된 객관식 문항 생성 시스템)

  • Kim, Young-Bum;Kim, Yu-Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

  • PDF

지능형 전자상거래를 위한 온톨로지의 효율적인 생성

  • Kim, Tae-Seok;Yang, Jin-Hyeok;Lee, Ji-Hong;Son, Jong-Su;Jeong, In-Jeong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2005.11a
    • /
    • pp.273-279
    • /
    • 2005
  • 월드와이드웹 (WWW) 기반의 전자상거래는 주로 데이터베이스를 기반으로 서비스를 제공하고 있다. 그러나 월드와이드웹 기반의 전자상거래는 단순 키워드 검색에만 의존하고 있다. 이러한 검색은 데이터베이스 자체로는 의미적인 정보를 효과적으로 처리하기에는 많은 문제점이 있다. 1999년 말에 의미적인 정보를 효과적으로 처리하기 할 수 있는 시맨틱 웹 이 제안되었다. 시맨틱 웹은 의미적인 정보를 담고 있는 지식베이스(Knowledge Bases)인 온톨로지를 기반으로 하고 있다. 그러나 온툴로지의 생성은 많은 부분을 휴리스틱에 의존하고 있기 때문에 많은 시간과 비용이 소비된다. 따라서 우리는 이와 같은 문제를 해결하기 위하여 데이터베이스에서 온톨로지를 생성하는 방법을 제안한다. 데이터베이스는 도메인을 잘 나타내고 있는 정보의 저장소이므로 데이터베이스로부터의 온톨로지 생성은 분석, 설계 등의 사전 작업이 필요하지 않아 시간과 비용의 소비를 줄 일 수 있는 장점이 있다. 우리는 데이터베이스에서 스키마를 추출, 뼈대그래프$^{1}$ 를 생성하고 개념그래프로 확장하여 도메인을 잘 나타낼 수 있는 온톨로지를 생성하는 알고리즘을 제안하고 제안된 알고리즘을 통하여 온톨로지를 생성을 함으로서 제안된 생성 방법을 검증한다. 제안한 방법으로 생성된 온톨로지는 단순 키워드 검색에서 의미적인 검색을 할 수 있는 시맨틱 웹 서비스의 기반이 되므로 의미적 검색이 가능한 전자상거래 서비스를 구축하는데 시간과 비용의 소비를 줄임으로 차세대 전자상거래의 초석이 된다.

  • PDF

A Method for Improving Recall Precision on Information Retrieval Systems Using Multiple Terms (다중단어를 사용한 정보검색 시스템에서의 재현정확도 향상방법)

  • 최종희;최동시;박세영;오희국
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.150-152
    • /
    • 1998
  • 정확한 정보를 검색하기 위해 단일단어를 사용하는 대신에 다중단어를 사용하는 정보검색 시스템에 대한 연구가 활발히 진행되고 있다. 그러나 아직까지 다중단어를 이용한 검색시스템은 그리 많지 않다. 다중단어를 이용한 정보검색시스템의 한 예가 키팩트를 이용한 정보검색 시스템이다. 키팩트란 키워드뿐만 아니라 관련정보를 같이 포함하고 있는 다중단어의 하나다. 키팩트에 기반한 정보검색 시스템은 현재 문서의 색인과정과 질의어의 키팩트 추출과정에서 같은 가중치를 가진 키팩트를 생성한다. 그러나, 하나의 명사구는 그것이 갖는 의미에 따라 각기 다른 다양한 키팩트를 생성하기 때문에, 이들의 결과에 기존의 정보검색 방법을 적용하는 것은 문제가 많다. 따라서 본 논문에서는 색인시에 생성되는 각각의 키팩트에 적절한 가중치를 부여함으로써 보다 정확한 정보검색이 이루어지도록 하는 방법을 제안한다.

  • PDF

Dynamic ontology construction algorithm from Wikipedia and its application toward real-time nation image analysis (국가이미지 분석을 위한 위키피디아 실시간 동적 온톨로지 구축 알고리즘 및 적용)

  • Lee, Youngwhan
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.4
    • /
    • pp.979-991
    • /
    • 2016
  • Measuring nation images was a challenging task when employing offline surveys was the only option. It was not only prohibitively expensive, but too much time-consuming and therefore unfitted to this rapidly changing world. Although demands for monitoring real-time nation images were ever-increasing, an affordable and reliable solution to measure nation images has not been available up to this date. The researcher in this study developed a semi-automatic ontology construction algorithm, named "double-crossing double keyword collection (or DCDKC)" to measure nation images from Wikipedia in real-time. The ontology, WikiOnto, can be used to reflect dynamic image changes. In this study, an instance of WikiOnto was constructed by applying the algorithm to the big-three exporting countries in East Asia, Korea, Japan, and China. Then, the numbers of page views for words in the instance of WikiOnto were counted. A collection of the counting for each country was compared to each other to inspect the possibility to use for dynamic nation images. As for the conclusion, the result shows how the images of the three countries have changed for the period the study was performed. It confirms that DCDKC can very well be used for a real-time nation-image monitoring system.

A Design of Intelligent Web Image Retrival System using Texture and Color Information (질감과 칼라 정보를 이용한 지능적 웹 이미지 검색 시스템 설계)

  • 홍성용;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.61-63
    • /
    • 2001
  • 최근들어, 인터넷상의 E-business나 쇼핑몰사이트와 같은 웹 사이트에서 멀티미디어 정보를 많이 사용하고 있다. 멀티미디어 정보 중에서도 이미지 정보가 가장 많이 사용되고 있으며, 이는 사용자들이 가장 많이 접하는 정보이다. 기존의 이미지 검색 기법은 내용 기반 검색이나 키워드를 이용한 검색 방법을 지원하지만, 사용자의 의도를 적용하지는 못하고 있다. 본 논문에서는 웹에서 사용자가 이미지를 검색하고 접근하는 패턴을 이미지의 칼라와 질감을 특징으로 한 벡터를 기반으로 시스템에 학습 시키고 사용자의 검색 성향을 분석하여 시스템에 적용한다. 이미지 검색의 효율을 높이기 위하여 질감을 기반으로 비트 벡터 인덱스(bit vector index) 기법을 적용하며, 인덱스에 의한 이미지 자동 분류 기법을 제안한다. 또한 이미지 칼라의 정보를 영역별로 추출하여 칼라 부분매칭 검색을 가능하게 한다. 이러한 이미지 검색 시스템을 사용하는 사용자의 정보를 시스템에 학습시키고 학습된 결과를 이용해서 사용자가 검색 하고자 하는 이미지 정보에 편리성을 제공하고 검색의 효율성을 증대시킨다.

  • PDF

A Systematic Evaluation of Intrusion Detection System based on Modeling Privilege Change Events of Users (사용자별 권한이동 이벤트 모델링기반 침입탐지시스템의 체계적인 평가)

  • 박혁장;정유석;노영주;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.661-663
    • /
    • 2001
  • 침입탐지 시스템은 내부자의 불법적인 사용, 오용 또는 외부 침입자에 의한 중요 정보 유출 및 변경을 알아내는 것으로서 각 운영체제에서 사용자가 발생시킨 키워드, 시스템 호출, 시스템 로그, 사용시간, 네트워크 패킷 등의 분석을 통하여 침입여부를 결정한다. 본 논문에서 제안하는 침입탐지시스템은 권한 이동 관련 이벤트 추출 기법을 이용하여 사용자의 권한이 바뀌는 일정한 시점만큼 기록을 한 후 HMM모델에 적용시켜 평가한다. 기존 실험에서 보여주었던 데이터의 신뢰에 대한 단점을 보완하기 위해 다량의 정상행위 데이터와 많은 종류의 침입유형을 적용해 보았고, 그 밖에 몇 가지 단점들을 수정하여 기존 모델에 비해 향상된 성능을 보이는지를 평가하였다 실험 결과 호스트기반의 침입에 대해서 매우 좋은 탐지율을 보여 주었고 F-P error(false positive error) 또한 매우 낮은 수치를 보여 주었다.

  • PDF