• Title/Summary/Keyword: 지식추출엔진

Search Result 32, Processing Time 0.027 seconds

Developing a Test-Bed Toolkit for Scientific Document Analysis (기술 문헌 분석 테스트베드 툴킷 개발)

  • Choi, Sung-Pil;Song, Sa-Kwang;Jung, Hanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.51-52
    • /
    • 2012
  • 본 논문은 논문, 특허, 연구보고서 등과 같은 다양한 과학기술문헌에 포함된 기술 지식을 효과적으로 추출하는데 필요한 기반 텍스트 분석 엔진들의 성능 평가 및 개선을 위한 테스트베드 툴킷을 소개한다. 이 툴킷은 과학기술분야의 전문용어를 비롯한 인명, 지명, 기관명 등을 자동으로 인식하는 기술개체인식엔진을 위한 테스트베드와 인식된 기술개체 간의 의미적 연관관계를 자동으로 추출하는 기술개체 간 관계추출 테스트베드 로 구성되어 있다.

  • PDF

A Study on the Profiling of Collect Site for the Effective Reputation Analysis (효과적인 평판분석을 위한 수집사이트 프로파일링에 관한 연구)

  • Song, Eun-Jee;Kang, Min-Sik
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.05a
    • /
    • pp.617-618
    • /
    • 2014
  • 본 논문에서는 보다 정확하고 효과적인 평판분석을 위하여 서비스 산업별 타겟으로 하는 수집사이트를 프로파일링 하는 방법을 제안한다. 먼저 각 서비스에 특화된 타겟 사이트를 추출하고 등록하고 각 서비스에 관련한 정보 및 의견 공유 게시판과 지식인 추천/질문 등 지식 공유 사이트를 추출한다. 또한 업종별 주요 사이트를 선택하고 등록하여 유효 데이터 수집한다. 이를 통해 실시간 수집 데이터의 활용 기술을 이용하여 수집원 프로파일링을 통한 미디어별 수집 주기 산정하고 수집 엔진의 유연한 확장성을 활용한 실시간 수집 제반 기술 확대할 수 있다. 또한 지속적인 수집원 변경관리를 수행한다. 즉, 신규 생성, 변경, 삭제되는 사이트에 대한 변경관리를 수행하고 지속적인 수집량 모니터링을 통한 수집여부를 점검하며 수집 필터링 규칙에 대한 튜닝으로 데이터 품질 확보하도록 한다.

  • PDF

A Study on Information Map based on Hypertext (하이퍼텍스트 기반의 정보 지도에 관한 연구)

  • Ryu, Cheol;Lee, Kang-Chan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.755-758
    • /
    • 2001
  • 웹 문서는 하이퍼텍스트의 특성을 가지는 문서 형태를 가지며, 일반적인 문서의 특성 보다는 사용자에 의하여 쉽게 생성, 변경, 삭제되는 특성을 가지고 있다. 본 논문은 WWW 검색 엔진이 WWW의 확장성과 역동성을 반영하지 못하는 단점을 보완하는데 그 의의가 있다. 본 논문에서 제시하는 시스템은 기존의 WWW 검색 엔진을 통하여 얻은 검색 결과를 출발점으로 한 실시간 검색을 통하여 WWW 문서의 현재 상태를 정확하게 파악할 수 있는 장정이 있다. 또한 탐색 결과의 가시화를 통하여 웹 문서에 대한 정보 지도(information map)를 추출할 수 있으며, 이러한 기능을 통하여 기존의 정보 검색 엔진에서 제공하지 못하던 자신의 정보 요구에 맞는 정보 지도를 제공함으로써 새로운 지식의 전달을 꾀할 수 있다.

  • PDF

Design and Implementation of A Data Mining System for One-to-One Marketing in EC Merchant Systems (전자상거래 머천트 시스템에서의 원투원 마케팅을 위한 데이터마이닝 시스템의 설계 및 구현)

  • 김종달;홍정희;김성민;남도원;이동하;김성훈;이전영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.117-119
    • /
    • 1999
  • 전자상거래에서 판매 실적을 높이기 위한 효과적인 방법의 하나는 사용자에 따라 개별화된 정보의 제공, 즉 원투원 마케팅의 개념을 도입하는 것이다. 이를 위해서는 사용자의 구매 성향이나 사용자의 특성에 대한 지식베이스가 있어야 한다. 이러한 지식베이스로 데이터마이닝 기법중의 하나인 연관규칙을 도입하였다. 본 논문에서는 연관규칙을 기본 연산으로 하는 데이터마이닝 시스템의 설계와 구현을 기술하였다. 사용자와 제품간의 연관규칙을 추출하여 동적으로 제공되는 웹 문서를 생성하는데 필요한 지식베이스를 구축하였다. 또한 구축된 데이터마이닝 시스템은 연관규칙 탐사 엔진과 개념 계층 관리기로 구성되어 있으며, 대용량의 데이터를 다루기 위해 기존의 방법과는 다른 파일을 기반으로 한 빈번항목집합 인덱싱 기법을 제시하였다.

  • PDF

A Framework for Q&A Community based Vertical Search (Q&A 커뮤니티 기반 전문영역 검색을 위한 프레임워크)

  • Jeong, Ok-Ran;Oh, Je-Hwan;Lee, Eun-Seok
    • The Journal of Society for e-Business Studies
    • /
    • v.16 no.2
    • /
    • pp.143-158
    • /
    • 2011
  • This study suggests a framework which extracts features of collective intelligence from social Q&A community sites and takes advantage of those features upon vertical search for domain specific knowledge or information retrieval. One source of collective intelligence on the internet is the question and answer(Q&A) data available from many Q&A sites. Vertical search is focused on searching special areas or specific domains. This paper proposes a framework for extending the relevant terms by using Q&A information connected with query that the user wants to retrieve, and then applies them to specific domain field that requires professional and detailed knowledge.

Automatic Extract User Intention from Web Search Log (웹 정보 검색 이력을 이용한 사용자 의도 자동 추출)

  • Park, Kinam;Jung, Soonyoung;Suh, Taewon;Ji, Hyesung;Lee, Taemin;Lim, Heuiseok
    • The Journal of Korean Association of Computer Education
    • /
    • v.12 no.6
    • /
    • pp.21-32
    • /
    • 2009
  • This paper proposes a method to extract a user's intention automatically and implementation of intention map that support a user can appropriate search results using a user' information need accurately. It selects user intention based on searching history obtained from previous users' same queries and extracts user intentions by using clustering algorithm and user intention extraction algorithm, extracted user intentions are represented in an intention map base on a theory of knowledge representation. For the efficiency analysis of intention map, we extracted user intentions using 2,600 search history data which provided by a current domestic commercial search engine. The experimental results using the information intention map search when using general search engines represent more than satisfaction was statistically significant.

  • PDF

Implementation of Document Classification Engine by Using Associative Knowledge (연상 지식을 이용한 문서 분류 엔진의 구현)

  • Jang Jung-Hyo;Son Ju-Sung;Lee Sang-Kon;Ahn Dong-Un
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.625-628
    • /
    • 2006
  • 인간은 문서 내용의 적절성을 파악하기 위해서는 문서 전체를 읽어 보아야 그 적절성 여부를 알 수 있다. 그러나 문서의 양이 많은 경우나 문서 내에 여러 화제가 산재되어 있으면 문서의 분야를 파악하기 위해 많은 시간과 노력이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 이러한 비용을 절감하기 위해 카테고리의 트리 정보와 문서의 내용에서 추출한 분야연상어를 지식사전으로 구축하고 이를 이용하는 분류기를 설계하여 수집과 분류에 소요되는 비용을 절감하는 자동 분류기를 구현하였다.

  • PDF

A Document Collection Method for More Accurate Search Engine (정확도 높은 검색 엔진을 위한 문서 수집 방법)

  • Ha, Eun-Yong;Gwon, Hui-Yong;Hwang, Ho-Yeong
    • The KIPS Transactions:PartA
    • /
    • v.10A no.5
    • /
    • pp.469-478
    • /
    • 2003
  • Internet information search engines using web robots visit servers conneted to the Internet periodically or non-periodically. They extract and classify data collected according to their own method and construct their database, which are the basis of web information search engines. There procedure are repeated very frequently on the Web. Many search engine sites operate this processing strategically to become popular interneet portal sites which provede users ways how to information on the web. Web search engine contacts to thousands of thousands web servers and maintains its existed databases and navigates to get data about newly connected web servers. But these jobs are decided and conducted by search engines. They run web robots to collect data from web servers without knowledge on the states of web servers. Each search engine issues lots of requests and receives responses from web servers. This is one cause to increase internet traffic on the web. If each web server notify web robots about summary on its public documents and then each web robot runs collecting operations using this summary to the corresponding documents on the web servers, the unnecessary internet traffic is eliminated and also the accuracy of data on search engines will become higher. And the processing overhead concerned with web related jobs on web servers and search engines will become lower. In this paper, a monitoring system on the web server is designed and implemented, which monitors states of documents on the web server and summarizes changes of modified documents and sends the summary information to web robots which want to get documents from the web server. And an efficient web robot on the web search engine is also designed and implemented, which uses the notified summary and gets corresponding documents from the web servers and extracts index and updates its databases.

A Clustering Technique Using Association Rules for The Library and Information Science Terminology (연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구)

  • Seung, Hyon-Woo;Park, Mi-Young
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.37 no.2
    • /
    • pp.89-105
    • /
    • 2003
  • In this paper, an effective method for clustering terminologies extracted from text is proposed, in order to develope a search engine to extract relevant information from large web documents. To prevent frequency of the meaningless association rules among general terminologies, only useful association rules among terminologies are produced using database tables which consist of domain-specific terminologies. Such association rules are produced by applying the Apriori algorithm after forming transaction units from groups of association rules in a document. A group of association rules produced from a terminology forms in a cluster.

Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method (도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.95-103
    • /
    • 2007
  • This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existing translation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving.