• Title/Summary/Keyword: 키워드 기반 모델

Search Result 205, Processing Time 0.03 seconds

Multi Concept Network based on User's Web Usage Data (사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크의 생성)

  • Yun, Gwang-Ho;Yun, Tae-Bok;Lee, Ji-Hyeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.179-182
    • /
    • 2008
  • 웹의 방대한 데이터에서 사용자에게 유용한 정보를 제공하기 위하여 다양한 연구가 시도되고 있다. 웹 사용 마이닝은 웹 사용자의 로그 정보를 기반으로 웹페이지를 평가할 수 있는 유용한 방법이다. 하지만 웹 사용 마이닝을 이용한 웹 페이지 평가에는 사용자들의 다양한 성향 패턴을 무시한 일괄적인 모델을 생성하는데 주를 이루고 있다. 본 논문은 사용자 관심 키워드에 대한 웹 페이지 사용 정보를 수집하고 분석하여 멀티 컨셉 네트워크(Multi Concept Network : MC-Net)를 생성한다. MC-Net은 사용자 관심 키워드에 기반한 다양한 성향 정보에 따른 웹 페이지 연결망을 제공한다. 생성된 MC-Net은 웹 페이지 추천을 위하여 유용하게 사용할 수 있으며, 실험을 통하여 제안하는 방법의 유효함을 확인하였다.

  • PDF

고객선호도 모델 기반의 사이버 쇼핑몰 의사결정지원 시스템에 관한 연구

  • 황현숙;어윤양
    • Proceedings of the CALSEC Conference
    • /
    • 1999.11a
    • /
    • pp.108-116
    • /
    • 1999
  • 최근 사이버 쇼핑몰에서 기업과 고객간의 제품 구매 활동을 도와주는 검색 에이전트 시스템에 대한 연구가 활성화되고 있다. 그러나 많은 비교 검색 에이전트 시스템들은 고객이 입력한 키워드 기반의 검색 목록만을 체공하고 있으며, 검색된 유사상품 목록 중에서 어떤 상품이 적합한지 선정해 주는 의사결정지원 기능은 충분히 제공하지 못하고 있다 본 논문에서는 인터넷 쇼핑몰 환경을 기반으로 키워드 입력에 의한 제품 검색뿐만 아니라 고객 선호도가 높은 제품 선정을 지원해 주는 의사결정지원 시스템을 제안한다. 제안한 의사결정지원 시스템은 고객이 입력한 각 속성들의 표준계수와 가중치를 점수화 하여 선호도가 높은 상품을 우선적으로 제시함으로써 고객의 상품 선정을 위한 의사결정을 지원하도록 하였으며, 또한 각 속성별 다양한 반영 비율에 따라 어느 제품이 전체적으로 적합한지를 분석하는 민감도 분석 기능을 추가하였다.

  • PDF

KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models (KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋)

  • Jungseob Lee;Junyoung Son;Taemin Lee;Chanjun Park;Myunghoon Kang;Jeongbae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.9-13
    • /
    • 2023
  • 본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

  • PDF

Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model (확률적 정보 검색 모델에서의 유사 적합성 피드백 실험)

  • Cho, Bong-Hyun;Lee, Chang-Kee;An, Joo-Hui;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

Construct ion of Keyword Index and Improved Search Methods for e-Catalogs Eased on Semantic Relationship (의미적 연결 관계에 기반한 전자 카탈로그에서의 확장된 어휘 인덱스 구축 및 이를 이용한 검색 성능 향상 기법)

  • Lee Dongjoo;Lee Taehee;Lee Sang-goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.67-69
    • /
    • 2005
  • 본 논문에서는 기 구축된 전자 카탈로그를 의미적 연결 관계에 기초한 확장된 전자 카탈로그로 변환하는 방법을 제안한다. 이를 통해 구축된 확장된 전자 카탈로그에서 의미적 태깅에 의한 확장된 어휘 인덱스 구축 방안과, 이를 이용한 검색 성능 향상 기법을 제안한다. 기존의 전자 카탈로그는 상품 정보가 분류별로 생성된 테이블에 저장되고 저장된 테이블로부터 생성된 키워드 인덱스로부터 검색이 이루어 졌다. 이러한 검색은 상품이 가지는 정보를 데이터베이스에 구축된 테이블에만 한정하게 되어 전자 카탈로그에 포함된 상품이나 분류간의 의미적 연결 관계들을 충분히 이용하지 못하였다 전자 카탈로그에 내재된 의미적 요소를 충분히 활용하기 위해서는 전자 카탈로그를 의미적 연결 관계에 기초한 모델로 구성할 필요가 있다. 본 논문에서는 의미적 모델 기반 전자 카탈로그 시스템으로의 전환 과정을 XML형태의 명세를 이용해 반자동적으로 전환할 수 있는 툴을 구현하며, 단순 키워드 어휘 인덱스 구축이 아닌, 어휘 인덱스의 의미적 확장을 제안하고, 이를 위한 태그 요소로써 어휘에 대한 형태소 분석 결과, 수치 환산 및 확장 요소, 속성간의 도메인 정보 등을 제시하였다. 이를 기반으로 최적의 검색 결과를 얻어 내도록 하는 인접도 평가 함수에 적용하는 방법을 제시한다.

  • PDF

An Efficient Index Structure for Semantic-based XML Keyword Search (의미 기반의 XML키워드 검색을 위한 효율적인 인덱스 구조)

  • Lee, Hyung-Dong;Kim, Sung-Jin;Kim, Hyoung-Joo
    • Journal of KIISE:Databases
    • /
    • v.33 no.5
    • /
    • pp.513-525
    • /
    • 2006
  • Search results of XML keyword search are defined generally as the most specific elements containing all query keywords in the literature. The labels of XML elements and semantic information such as ontology, conceptual model, thesaurus, and so on, are used to improve the preciseness of the search results. This paper presents a hierarchical index for an efficient XML keyword query processing on the condition that returnable search concepts are defined and users' query concepts can be interpreted with the help of the semantic information. The hierarchical index separately stores the XML elements containing a keyword on the basis of the hierarchical relations of the concepts that the XML elements belong to, and makes it possible to obtain least common ancestors, which are candidates for the search results, with selectively reading the elements belonging to the concepts relevant to query concepts and without considering all the combinations of the elements having been read. This paper deals with how to organize the hierarchical index and how to process XML keyword queries with the index. In our experiment with the DBLP XML document and the XML documents in the INEX2003 test set, the hierarchical index worked well.

A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree (구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가)

  • Kim Young-Chul;Choi Jaeyoung
    • The KIPS Transactions:PartA
    • /
    • v.12A no.2 s.92
    • /
    • pp.109-116
    • /
    • 2005
  • In this paper, we introduce the method that a user analyses the similarity of the two programs by using keyword from the syntactic tree, created after the syntax analysis, and its implementation. The main advantage of the method is the performance improvement through using only keyword of syntax tree. In the paper, we propose the similarity evaluation model and how we extract keyword from syntax tree. In addition, we also show the improvement in the performance in analysis and in the system's structure. We expect that our system will be utilized in the similarity evaluation in text and XML documents.

Design of a QA System based on Information Retrieval (정보검색기반 질의응답 시스템 설계)

  • Kim, MinKyoung;Ahn, HyeokJu;Kim, Harksoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.816-818
    • /
    • 2015
  • 본 논문에서는 질의유형을 통한 검색기반 질의응답 시스템을 구현하기 위한 설계방법을 제안한다. 이를 위해 위키피디아 문서의 링크 데이터를 이용하여 색인 대상문서와 데이터베이스를 구축하는 색인 모델과 2-포아송 모델을 이용하여 얻은 문서들을 색인 데이터베이스를 통해 필터링하여 정답 후보문장을 추출하는 검색모델, 키워드 패턴 매칭 기반 질의유형 분류 모델을 설계하였다.

Cost-based Optimization of Extended Boolean Queries (확장 불리언 질의에 대한 비용 기반 최적화)

  • 박병권
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.29-40
    • /
    • 2001
  • In this paper, we suggest a query optimization algorithm to select the optimal processing method of an extended boolean query on inverted files. There can be a lot of methods for processing an extended boolean query according to the processing sequence oh the keywords con tamed in the query, In this sense, the problem of optimizing an extended boolean query it essentially that of optimizing the keyword sequence in the query. In this paper, we show that the problem is basically analogous to the problem of finding the optimal join order in database query optimization, and apply the ideas in the area to the problem solving. We establish the cost model for processing an extended boolean query and develop an algorithm to filled the optimal keyword-processing sequence based on the concept of keyword rank using the keyword selectivity and the access costs of inverted file. We prove that the method selected by the optimization algorithm is really optimum, and show, through experiments, that the optimal method is superior to the others in performance We believe that the suggested optimization algorithm will contribute to the significant enhancement of the information retrieval performance.

  • PDF

Web Document Classification Based on Hangeul Morpheme and Keyword Analyses (한글 형태소 및 키워드 분석에 기반한 웹 문서 분류)

  • Park, Dan-Ho;Choi, Won-Sik;Kim, Hong-Jo;Lee, Seok-Lyong
    • The KIPS Transactions:PartD
    • /
    • v.19D no.4
    • /
    • pp.263-270
    • /
    • 2012
  • With the current development of high speed Internet and massive database technology, the amount of web documents increases rapidly, and thus, classifying those documents automatically is getting important. In this study, we propose an effective method to extract document features based on Hangeul morpheme and keyword analyses, and to classify non-structured documents automatically by predicting subjects of those documents. To extract document features, first, we select terms using a morpheme analyzer, form the keyword set based on term frequency and subject-discriminating power, and perform the scoring for each keyword using the discriminating power. Then, we generate the classification model by utilizing the commercial software that implements the decision tree, neural network, and SVM(support vector machine). Experimental results show that the proposed feature extraction method has achieved considerable performance, i.e., average precision 0.90 and recall 0.84 in case of the decision tree, in classifying the web documents by subjects.