• Title/Summary/Keyword: TREC

Search Result 83, Processing Time 0.023 seconds

A Multi-Agent MicroBlog Behavior based User Preference Profile Construction Approach

  • Kim, Jee-Hyun;Cho, Young-Im
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.1
    • /
    • pp.29-37
    • /
    • 2015
  • Nowadays, the user-centric application based web 2.0 has replaced the web 1.0. The users gain and provide information by interactive network applications. As a result, traditional approaches that only extract and analyze users' local document operating behavior and network browsing behavior to build the users' preference profile cannot fully reflect their interests. Therefore this paper proposed a preference analysis and indicating approach based on the users' communication information from MicroBlog, such as reading, forwarding and @ behavior, and using the improved PersonalRank method to analyze the importance of a user to other users in the network and based on the users' communication behavior to update the weight of the items in the user preference. Simulation result shows that our proposed method outperforms the ontology model, TREC model, and the category model in terms of 11SPR value.

Query Expansion based on Word Graph using Term Proximity (단어 근접도를 반영한 단어 그래프 기반 질의 확장)

  • Jang, Gye-Hun;Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.754-757
    • /
    • 2010
  • 질의 확장은 초기 검색결과에서 질의와 연관된 단어를 선택하여 질의를 확장함으로써 검색 성능을 향상시키는 기법이다. 페이지 랭크(PageRank) 알고리즘은 웹문서 사이의 링크구조를 이용하여 문서들의 상대적인 중요성을 측정하기 위해 제안되었다. 본 논문에서는 문서들 사이의 관계가 아니라 문서 안에서 단어 그래프(Word Graph)를 통해 단어들 사이의 상대적인 중요성을 계산하였다. 질의와 가까이 위치한 단어들 사이의 관계를 단어 그래프에 적용하여 중요도를 계산하고 확장단어를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 집합인 TREC WT10g 에 대해 실험하였고, 적합모델(Relevance Model)보다 MAP(Mean Average Precision)가 4.1% 향상되었다.

Information Retrieval Based on Word Relationships and Degree of Query Concept (어휘관계 정보와 질의개념연관도를 반영한 정보검색 성능 향상 기법)

  • Kim, Jun-Gil;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.451-454
    • /
    • 2010
  • 정보검색 분야에서 어휘 불일치 문제를 해결하기 위해 질의에서의 어휘 사이의 관계를 반영하는 것은 필수적인 요구사항이 되었다. 본 논문에서는 문장-문장 번역쌍을 이용하여 어휘 번역확률을 계산하였고, 어휘관계 정보를 반영하는 번역기반 언어모델에 어휘와 질의 개념과의 연관 정도를 반영한 모델을 제안한다. 뉴스 컬렉션 집합인 TREC AP 컬렉션에 대한 비교실험을 하였다. 실험결과에서 언어모델보다 어휘 관계를 반영한 번역기반 언어모델의 성능이 향상되었고 어휘의 질의개념 연관도를 반영한 모델이 번역기반 언어모델보다 성능이 향상됨을 보였다.

Reranking Clusters based on Query Term Position and Context (질의의 위치와 문맥을 반영한 클러스터 기반 재순위화)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.471-474
    • /
    • 2010
  • 질의와 질의 주변에 나오는 어휘는 의미적으로 연관되어있다는 가정하에 질의뿐만 아니라 질의 주변에 나오는 문맥 어휘들도 가중치를 높여준다면 검색에 효율을 높일 수 있을 것이다. 본 논문에서는 질의와 질의 주변에 나오는 문맥 어휘들에게 가중치를 주어 질의 어휘의 위치 가중치를 반영한 문서를 표현하고, 위치 가중치가 반영된 문서 벡터들 사이의 유사도를 계산하여 클러스터 기반 재순위화를 하여 성능을 향상시키는 방법을 제안한다. 뉴스 집합인 TREC AP 문서를 이용하여 언어모델, 위치 가중치를 이용한 언어모델, 클러스터 기반 재순위화 모델의 비교실험을 통해 유효성을 검증한다.

Core Document Selecting Method Using Core Query Term and Proximity (핵심 질의 어휘와 근접도를 이용한 핵심 문서 선택 기법)

  • Jang, Gye-Hun;Kim, Seol-Young;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.463-466
    • /
    • 2010
  • 길이가 긴 질의에는 검색에 불필요한 단어가 포함되어 있어서 사용자가 원하지 않는 문서가 검색결과에 포함된다. 질의에서 불필요한 단어를 제거하고 핵심 단어만 선택한다면 검색에 효율을 높일 수 있다. 본 논문에서는 질의 조합을 기반한 클러스터를 이용해 핵심 단어를 찾고 핵심 단어와의 근접도를 이용해 상위 문서의 정확율을 향상시키는 기법을 제안한다. 실험은 뉴스 집합인 TREC AP 문서를 검색한 결과를 제안한 알고리즘으로 재순위화하여 초기 검색 결과의 상위 문서의 정확율을 비교함으로써 제안된 알고리즘의 유효성을 검증한다.

Query Expansion Based on Word Graph Using Core Query Clusters (핵심질의 클러스터를 이용한 어휘 그래프 기반 질의 확장)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.430-432
    • /
    • 2011
  • 본 논문에서는 질의 조합을 기반한 핵심질의 클러스터와 비핵심질의 클러스터를 각각 어휘 그래프로 표현한다. 이 때, 핵심질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 핵심질의 클러스터의 어휘 그래프에서 비핵심질의 클러스터의 어휘 그래프를 빼서 확장어휘를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 테스트컬렉션인 TREC WT10g 에 대해 실험하였고, 언어모델보다 평균정확률의 평균(MAP)이 9.4% 향상되었다.

Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity (잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.3
    • /
    • pp.189-194
    • /
    • 2012
  • In this paper, we propose a query expansion method based on word graphs using pseudo-relevant and pseudo non-relevant documents to achieve performance improvement in information retrieval. The initially retrieved documents are classified into a core cluster when a document includes core query terms extracted by query term combinations and the degree of query term proximity. Otherwise, documents are classified into a non-core cluster. The documents that belong to a core query cluster can be seen as pseudo-relevant documents, and the documents that belong to a non-core cluster can be seen as pseudo non-relevant documents. Each cluster is represented as a graph which has nodes and edges. Each node represents a term and each edge represents proximity between the term and a query term. The term weight is calculated by subtracting the term weight in the non-core cluster graph from the term weight in the core cluster graph. It means that a term with a high weight in a non-core cluster graph should not be considered as an expanded term. Expansion terms are selected according to the term weights. Experimental results on TREC WT10g test collection show that the proposed method achieves 9.4% improvement over the language model in mean average precision.

A Study on the Visual Representation of TREC Text Documents in the Construction of Digital Library (디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구)

  • Jeong, Ki-Tai;Park, Il-Jong
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.3
    • /
    • pp.1-14
    • /
    • 2004
  • Visualization of documents will help users when they do search similar documents. and all research in information retrieval addresses itself to the problem of a user with an information need facing a data source containing an acceptable solution to that need. In various contexts. adequate solutions to this problem have included alphabetized cubbyholes housing papyrus rolls. microfilm registers. card catalogs and inverted files coded onto discs. Many information retrieval systems rely on the use of a document surrogate. Though they might be surprise to discover it. nearly every information seeker uses an array of document surrogates. Summaries. tables of contents. abstracts. reviews, and MARC recordsthese are all document surrogates. That is, they stand infor a document allowing a user to make some decision regarding it. whether to retrieve a book from the stacks, whether to read an entire article, etc. In this paper another type of document surrogate is investigated using a grouping method of term list. lising Multidimensional Scaling Method (MDS) those surrogates are visualized on two-dimensional graph. The distances between dots on the two-dimensional graph can be represented as the similarity of the documents. More close the distance. more similar the documents.

Performance Improvement by Cluster Analysis in Korean-English and Japanese-English Cross-Language Information Retrieval (한국어-영어/일본어-영어 교차언어정보검색에서 클러스터 분석을 통한 성능 향상)

  • Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.2
    • /
    • pp.233-240
    • /
    • 2004
  • This paper presents a method to implicitly resolve ambiguities using dynamic incremental clustering in Korean-to-English and Japanese-to-English cross-language information retrieval (CLIR). The main objective of this paper shows that document clusters can effectively resolve the ambiguities tremendously increased in translated queries as well as take into account the context of all the terms in a document. In the framework we propose, a query in Korean/Japanese is first translated into English by looking up bilingual dictionaries, then documents are retrieved for the translated query terms based on the vector space retrieval model or the probabilistic retrieval model. For the top-ranked retrieved documents, query-oriented document clusters are incrementally created and the weight of each retrieved document is re-calculated by using the clusters. In the experiment based on TREC test collection, our method achieved 39.41% and 36.79% improvement for translated queries without ambiguity resolution in Korean-to-English CLIR, and 17.89% and 30.46% improvements in Japanese-to-English CLIR, on the vector space retrieval and on the probabilistic retrieval, respectively. Our method achieved 12.30% improvements for all translation queries, compared with blind feedback in Korean-to-English CLIR. These results indicate that cluster analysis help to resolve ambiguity.

Query Expansion Using Augmented Terms in an Extended Boolean Model

  • Nguyen, Tuan-Quang;Heo, Jun-Seok;Lee, Jung-Hoon;Kim, Yi-Reun;Whang, Kyu-Young
    • Journal of Computing Science and Engineering
    • /
    • v.2 no.1
    • /
    • pp.26-43
    • /
    • 2008
  • We propose a new query expansion method in the extended Boolean model that improves precision without degrading recall. For improving precision, our method promotes the ranks of documents having more query terms since users typically prefer such documents. The proposed method consists of the following three steps: (1) expanding the query by adding new terms related to each term of the query, (2) further expanding the query by adding augmented terms, which are conjunctions of the terms, (3) assigning a weight on each term so that augmented terms have higher weights than the other terms. We conduct extensive experiments to show the effectiveness of the proposed method. The experimental results show that the proposed method improves precision by up to 102% for the TREC-6 data compared with the existing query expansion method using a thesaurus proposed by Kwon et al.