Search | Korea Science

Document Reranking Model Using Clusters (문서 클러스터를 이용한 재순위화 모델)

Lee, Kyung-Soon;Park, Young-Chan;Choi, Key-Sun
- Annual Conference on Human and Language Technology
- /
- 1998.10c
- /
- pp.81-87
- /
- 1998
본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.
PDF

Efficient Processing of Multipoints MAX/MIN Queries in OLAP Environment (OLAP 환경에서 다중점 MAX/MIN 질의의 효율적인 처리기법)

Yang, Woo-Suk;Kim, Myoung-Ho
- Journal of KIISE:Databases
- /
- v.27 no.1
- /
- pp.13-21
- /
- 2000
Online analytical processing (OLAP) systems are introduced to support decision support systems. Many researches focussed on efficient processing of aggregate functions that usually occur in OLAP queries. However, most previous researches in the literature are deal with the situation in which aggregate functions arc applied to all the values in a given range. Since those approaches utilize characteristic of aggregate functions applied to a range, they are difficult to be applied to a muitipoint query that is a query considering only some points in a given range. In this paper, we propose the Ranking Index and the flanking Decision Tree (RDT) for efficient evaluation of multipoints MAX/MIN queries. The ranking of possible MAX/MIN values are computed with RDT Then MAX/MIN values can be acquired from the Ranking Index. We show through experiments that our method provides high performance in most situations. In other words, the proposed method is robust as well as efficient. A single common set of precomputed results for both MAX and MIN values is another advantage of the proposed method.
PDF

Priority based Load Shedding Method using Range Overlap of Spatial Queries on Data Stream (데이터 스트림에서 공간질의의 영역 겹침을 이용한 우선순위 기반의 부하 분산 기법)

Ho Kim;Sung-Ha Baek;Yan Li;Dong-Wook Lee;Weon-Il Chung;Hae-Young Bae
- Proceedings of the Korea Information Processing Society Conference
- /
- 2008.11a
- /
- pp.401-404
- /
- 2008
u-GIS 환경에서 발생하는 시공간 데이터는 지속적으로 발생하는 데이터 스트림의 특성을 갖으며, 그런 특성으로 인하여 데이터 발생량이 급격히 증가함에 따라 데이터 손실 및 시스템 성능 저하현상이 발생한다. 이를 해결하기 위해 부하 분산 연구들이 활발히 진행되어 오고 있다. 그러나 기존의 연구 방식인 랜덤 부하 분산 방식과 의미적 부하 분산 방식은 현 u-GIS 환경에서 부하 분산 속도 및 질의 결과의 정확도 측면에 만족스럽지 못한 결과를 준다. 그래서 본 논문에서는 우선순위를 이용한 차등적 부하 분산(DLSM : Different Load Shedding using MAP table)기법을 제안한다. DLSM 기법은 등록된 공간질의의 공간연산을 통해 영역의 우선순위를 미리 부여하고, 데이터가 발생하여 질의 처리기로 유입되기 전 우선순위를 파악한다. 데이터는 우선순위 단계에 따라 유입량을 확인 후 삭제 여부가 결정된다. 결과적으로 부하 분산 속도와 질의 결과의 정확도를 향상시켰다.
https://doi.org/10.3745/PKIPS.y2008m011a.401 인용 PDF

An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback (유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성)

An, Hong-Guk;Ko, Young-Joong;Seo, Jung-Yun
- 한국HCI학회:학술대회논문집
- /
- 2007.02a
- /
- pp.174-181
- /
- 2007
정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.
PDF

Cooperative Query Answering Using the Metricized Knowledge Abstraction Hierarchy (계량화된 지식 추상화 계층을 이용한 협력적 질의 처리)

Shin, Myung-Keun
- Journal of the Korea Society of Computer and Information
- /
- v.11 no.3
- /
- pp.87-96
- /
- 2006
Most conventional database systems support specific queries that are concerned only with data that match a query qualification precisely. A cooperative query answering supports query analysis, query relaxation and provides approximate answers as well as exact answers. The key problem in the cooperative answering is how to provide an approximate functionality for alphanumeric as well as categorical queries. In this paper, we propose a metricized knowledge abstraction hierarchy that supports multi-level data abstraction hierarchy and distance metric among data values. In order to facilitate the query relaxation, a knowledge representation framework has been adopted, which accommodates semantic relationships or distance metrics to represent similarities among data values. The numeric domains also compatibly incorporated in the knowledge abstraction hierarchy by calculating the distance between target record and neighbor records.
PDF

Mean Shift Clustering을 이용한 영상 검색결과 개선

Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Young-Rae;Kim, Eun-Yi
- Proceedings of the Korea Society for Industrial Systems Conference
- /
- 2009.05a
- /
- pp.138-143
- /
- 2009
본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.
PDF

Search Re-ranking Through Weighted Deep Learning Model (검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델)

Gi-Taek An;Woo-Seok Choi;Jun-Yong Park;Jung-Min Park;Kyung-Soon Lee
- The Transactions of the Korea Information Processing Society
- /
- v.13 no.5
- /
- pp.221-226
- /
- 2024
In information retrieval, queries come in various types, ranging from abstract queries to those containing specific keywords, making it a challenging task to accurately produce results according to user demands. Additionally, search systems must handle queries encompassing various elements such as typos, multilingualism, and codes. Reranking is performed through training suitable documents for queries using DeBERTa, a deep learning model that has shown high performance in recent research. To evaluate the effectiveness of the proposed method, experiments were conducted using the test collection of the Product Search Track at the TREC 2023 international information retrieval evaluation competition. In the comparison of NDCG performance measurements regarding the experimental results, the proposed method showed a 10.48% improvement over BM25, a basic information retrieval model, in terms of search through query error handling, provisional relevance feedback-based product title-based query expansion, and reranking according to query types, achieving a score of 0.7810.
https://doi.org/10.3745/TKIPS.2024.13.5.221 인용 PDF

Data-Aware Priority-Based Energy Efficient Top-k Query Processing in Sensor Networks (센서 네트워크를 위한 데이터 인지 우선순위 기반의 에너지 효율적인 Top-k 질의 처리)

Yeo, Myung-Ho;Seong, Dong-Ook;Yoo, Jae-Soo
- Journal of KIISE:Databases
- /
- v.36 no.3
- /
- pp.189-197
- /
- 2009
Top-k queries are important to many wireless sensor applications. Conventional Top-k query processing algorithms install a filter at each sensor node and suppress unnecessary sensor updates. However, they have some drawbacks that the sensor nodes consume energy extremely to probe sensor reading or update filters. Especially, it becomes worse, when the variation ratio of top-k result is higher. In this paper, we propose a novel Top-k query processing algorithm for energy-efficiency. First, each sensor determines its priority as the order of data gathering. Next, sensor nodes that have higher priority transmit their sensor readings to the base station until gathering k sensor readings. In order to show the superiority of our query processing algorithm, we simulate the performance with the existing query processing algorithms. As a result, our experimental results show that the network lifetime of our method is prolonged largely over the existing method.
PDF KSCI

Technique and Implementation of Dynamic Global Load Balancing using Rank Table (순위 테이블을 이용한 동적 글로벌 로드벨런싱 기법 제안 및 구현)

김성;김경훈;남지승
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04a
- /
- pp.517-519
- /
- 2001
멀티미디어 서비스를 제공하는 서버의 부하분산을 위해 로드밸런싱 방식을 제안한다. 서버를 지역적으로 분산시키고 분산된 서버는 하나의 클러스터 같이 동작하면서 서버의 시스템 정보(CPU, M/M 사용량)를 체크하여 순위테이블을 작성한다. 작성된 순위테이블을 서버는 교환하면서 도일한 순위테이블을 서버는 갖고 있게 된다. 클라이언트의 연결요청이 있으면 서버는 클라이언트에게 에이전트를 배포하고 에이전트는 클라이언트로 전송되게 된다. 전송된 에이전트는 서버에서 클라이언트간의 전송속도, 유동적으로 변하는 트래픽, 순위테이블을 체크하여 서버를 결정한 후 결정된 서버로 연결을 설정하고 상황에 따라 연결을 재 설정한다. 그 결과 서버 부하를 균등하게 배분하고 그에 따른 서비스 질의 향상을 얻을 수 있다.

Open-domain Question Answering Using Lexico-Semantic Patterns (Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템)

Lee, Seung-Woo;Jung, Han-Min;Kwak, Byung-Kwan;Kim, Dong-Seok;Cha, Jeong-Won;An, Joo-Hui;Lee, Gary Geun-Bae;Kim, Hark-Soo;Kim, Kyung-Sun;Seo, Jung-Yun
- Annual Conference on Human and Language Technology
- /
- 2001.10d
- /
- pp.538-545
- /
- 2001
본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.
PDF

Search Result 28, Processing Time 0.021 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)