• 제목/요약/키워드: 텍스트 검색

검색결과 677건 처리시간 0.031초

HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램 (File Content Retrieval Program Using HashMap-based Trie)

  • 김성완;이우순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

내용분석을 통한 향산된 링크기반 검색 (Improved Link-based Retrival with Content Analysis)

  • 이경희;김민수;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2004
  • 정보검색이 발달함에 따라 인터넷 환경에서의 정보 검색은 하이퍼링크 정보를 분석하여 이용하는 추세에 있다. 최근에는 주어진 주제어나 질의어에 대해 가장 적합한 검색 방법을 결정하기 위해 하이퍼텍스트 기반 링크 구조를 분석하는 알고리즘이 늘어나고 있는 실정이다. Bharat〔2〕은 HITS 알고리즘의 문제점을 지적하고 이를 개선하기 위한 방법을 제안하였다. 본 논문에서는 Bharat이 제시한 확장 질의어를 만드는 방법에 대한 문제점 제기와 이 문제에 대한 개선 안을 제시하고자 한다.

  • PDF

토픽모델링과 주성분 분석을 활용한 온라인 쇼핑 검색 질의 유형 분류 (A Study on the Types of Online Shopping Queries using Topic Modeling and Principal Components Analysis)

  • 강현아;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.765-768
    • /
    • 2020
  • 검색 질의 연구 분야의 대부분 선행 연구는 검색 질의 주제 분류에 집중되어 있으며 질의 자체에 대한 연구자의 정성적인 판단으로 분석되었다. 이는 검색 이후 클릭 된 문서를 고려하지 않고 진행되었다는 점과 분석 주제 및 활용 데이터가 제한적이라는 것에 한계가 있다. 이에 본 연구는 국내 대형 온라인쇼핑몰의 1년간의 검색로그를 활용하여 검색 질의와 검색 이후 조회한 문서명 정보를 기반으로 토픽모델링을 수행하여 검색 질의 주제를 정의하였다. 또한 검색 행동특성에 따른 주제별 성격을 정의하기 위하여 주성분 분석을 통해 주요 변수 추출 후 각 주제별 검색 행동특성을 분석하였다. 본 연구 결과는 효과적인 검색 서비스 구축 및 검색 시스템 개발에 기여 할 것으로 기대된다. 향후 연구로는 텍스트 분류기 모델링 실험을 통해 자동 분류 시스템을 구현할 수 있을 것이다.

효과적인 이미지 검색을 위한 태그 기반의 폭소노미 이미지 카테고리화 기법 (A Categorization Scheme of Tag-based Folksonomy Images for Efficient Image Retrieval)

  • 하은지;김용성;황인준
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권6호
    • /
    • pp.290-295
    • /
    • 2016
  • 최근 사용자들이 협동적으로 이미지 주석인 태그를 만들고 활용하는 폭소노미 기반의 이미지 공유 사이트들이 많은 인기를 얻고 있다. 이러한 사이트는 사용자 질의에 대해 단순한 텍스트 매칭 기반의 검색을 수행하고 매칭되는 결과 이미지들을 포토 스트림 형태로 나열하여 보여 준다. 하지만 이러한 태그들은 매우 개인적이고 주관적이며, 이미지 역시 카테고리로 분류되어 있지 않기 때문에 검색의 정확도나 사용자 만족도가 떨어진다는 문제점이 있다. 본 연구에서는 태그를 기반으로 하는 이미지 검색에서 검색의 정확도를 높일 수 있는 폭소노미 이미지의 카테고리화 기법을 제안하고, 폭소노미 환경에서 생성된 태그와 이미지 정보를 모두 이용하며 의미적으로 유사한 이미지들끼리 분류된 검색 결과를 생성한다. 제안하는 기법의 성능 평가를 위해 폭소노미 이미지를 수집하고 텍스트, 이미지 특성에 따른 카테고리 분류를 수행하여 기존 검색 기법과 이미지 검색의 정확도를 비교한다.

사무실 이벤트 검색을 위한 베이지안 네트워크 기반 사용자 선호도 모델링 (Modeling User Preference based on Bayesian Networks for Office Event Retrieval)

  • 임수정;박한샘;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.614-618
    • /
    • 2008
  • 인터넷 서비스의 급속한 발전으로 멀티미디어 데이타의 양이 크게 증가함에 따라, 이를 분석하여 유용한 정보를 얻기 위해 사용자 개개인에 초점을 맞춘 효율적인 검색기술이 필요하게 되었다. 하지만 최근 웹사이트에서 제공하는 사용자 모델링 서비스는 텍스트 기반 페이지 구성이나 추천 검색 등에만 국한되어 있는 단점이 있다. 본 논문에서는 사용자 모델링 기법을 동영상 검색에 적용하기 위해 사용자의 선호도를 베이지안 네트워크로 모델링하고, 추론된 확률 값을 검색에 반영하는 방법을 제안한다. 이를 위해 실제 연구실 환경 내에 존재하는 컨텍스트 정보를 정의하였고, 설치된 카메라로부터 얻어진 동영상이 포함하는 컨텍스트 정보를 텍스트의 형태로 주석을 달았다. 사용자로부터 입력받은 사용자 개인의 정보는 설계된 베이지안 네트워크 모델의 증거 값으로 사용되어, 그로부터 사용자의 선호도를 추론하도록 하였다. 베이지안 네트워크의 추론 결과로 얻어진 확률 값은 검색에 반영되어 각 사용자의 선호도에 맞는 검색 결과를 보여준다. 사용자 평가 결과, 제안하는 모델을 사용하여 선택된 결과의 만족도가 일반적인 검색의 결과에 비해 높음을 확인하였다.

콘텐트 기반의 이미지검색을 위한 분류기 접근방법 (Image Classification Approach for Improving CBIR System Performance)

  • 한우진;손경아
    • 한국통신학회논문지
    • /
    • 제41권7호
    • /
    • pp.816-822
    • /
    • 2016
  • 콘텐트 기반 이미지 검색은 기존의 태그 또는 레이블이 있는 텍스트 기반의 검색이 아닌 이미지의 특징을 이용하여 검색하는 방법이다. 실생활 이미지 데이터는 태그나 레이블이 달려있는 경우가 많지 않기 때문에 텍스트 기반의 검색 방법을 사용하기 힘든 경우가 있다. 또한, 기존에 주로 사용되는 이미지 특징 벡터의 유사도를 사용하여 검색하는 방법은 추출 벡터의 유사도 기준으로 사용자가 의도한 결과가 나올지 확신할 수 없다. 예를 들어 사용자가 입력한 질의 이미지와 검색된 이미지들의 종류가 일치하는지의 문제가 있다. 본 논문에서는 사용자가 질의 이미지의 클래스를 예상하고 결과도 동일한 클래스를 원한다는 가정에 착안하여 이미지 검색 엔진의 성능을 개선하였다. 기존의 유사도 기반의 검색에 머신 러닝 기법을 사용한 이미지 분류기를 적용하여 질의와 동일한 클래스의 결과를 찾는 방법을 제안하였으며, 그 성능을 20개 카테고리에 속하는 11,530개의 이미지로 구성되어 있는 PASCAL VOC 공개 데이터를 이용하여 검증하였다.

텐서공간모델 기반 시멘틱 검색 기법 (A Tensor Space Model based Semantic Search Technique)

  • 홍기주;김한준;장재영;전종훈
    • 한국전자거래학회지
    • /
    • 제21권4호
    • /
    • pp.1-14
    • /
    • 2016
  • 시멘틱 검색은 검색 사용자의 인지적 노력을 최소화하면서 사용자 질의의 문맥을 이해하여 의미에 맞는 문서를 정확히 찾아주는 기술이다. 아직 시멘틱 검색 기술은 온톨로지 또는 시멘틱 메타데이터 구축의 난제를 갖고 있으며 상용화 사례도 매우 미흡한 실정이다. 본 논문은 기존 시멘틱 검색 엔진의 한계를 극복하기 위하여 이전 연구에서 고안한 위키피디아 기반의 시멘틱 텐서공간모델을 활용하여 새로운 시멘틱 검색 기법을 제안한다. 제안하는 시멘틱 기법은 문서 집합에 출현하는 '단어'가 텐서공간모델에서 '문서-개념'의 2차 텐서(행렬), '개념'은 '문서-단어'의 2차 텐서로 표현된다는 성질을 이용하여 시멘틱 검색을 위해 요구되는 온톨로지 구축의 필요성을 없앤다. 그럼에도 불구하고, OHSUMED, SCOPUS 데이터셋을 이용한 성능평가를 통해 제안 기법이 벡터공간모델에서의 기존 검색 기법보다 우수함을 보인다.

콘텐츠 명성 및 사용자 명성 평가를 이용한 UCC 검색 품질 개선 (Improving the Performance of the User Creative Contents Retrieval Using Content Reputation and User Reputation)

  • 배원식;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.83-90
    • /
    • 2010
  • 본 논문에서는 콘텐츠 명성 및 사용자 명성 평가를 통해 신뢰성 높은 UCC 검색을 가능하게 하는 방법에 대해 기술한다. 기존 정보검색과 달리 UCC에서는 얻을 수 있는 텍스트 정보가 한정적이기 때문에 텍스트 외적인 정보의 사용이 필요하다. 콘텐츠 명성과 사용자 명성은 비텍스트 정보를 이용하여 평가되는데, 평가된 명성을 자질로 사용하여 UCC 검색을 수행하면 기존 검색 방법보다 향상된 검색 성능을 기대할 수 있다. 콘텐츠 명성은 영상 자체 정보와 영상과 관련된 소셜활동 정보로부터 콘텐츠의 명성, 즉 가치를 평가한다. 또한 사용자 명성은 콘텐츠와 사용자, 사용자와 사용자 사이의 소셜활동 하나하나에 주목하여 네트워크를 구축하여 사용자의 명성을 평가한다. 각각의 명성을 평가하여 UCC 검색에 사용하는 두 개의 시스템을 구현하고, 유튜브로부터 수집한 UCC와 사용자 정보를 이용하여 두 시스템의 비교 실험을 수행하였다. 실험 결과, 콘텐츠 명성을 활용한 시스템에서 조금 더 높은 사용자의 동의를 이끌어 낼 수 있었으며, 이 결과는 향후 UCC 검색에 활용할 수 있을 것이라 기대된다.

웹 로봇 에이전트의 효율적인 인터넷 정보검색 (Efficient Information Retrieval of A Web Robot Agent on the Internet)

  • 김동범;곽병정;김연옥;오용철;이재영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.574-576
    • /
    • 2002
  • 인터넷상에서의 정보검색은 검색엔진을 이용하여 이루어지는데, 방대한 사이트들을 검색하여야 하므로 검색효율이나 검색된 정보의 유용성에 문제가 있게 된다. 만약 이러한 정보들을 미리 자동적으로 검색, 분류해서 저장한다면 위의 두 가지 문제들을 해결할 수 있을 것이다. 자동적으로 이런 일을 처리하도록 고안된 것이 웹 로봇 에이전트라고 하며 현재국내에도 여러 개의 웹 로봇 에이전트를 이용한 검색엔진이 사용되고 있다. 본 논문에서는 검색엔진을 구현하기 위해 하이퍼텍스트 전송규약에 대한 연구와 웹 로봇 에이전트에 대한 연구를 하여 올바른 로봇 에이전트를 구현하여, 구현된 검색엔진을 통한 효율적인 정보검색을 실현하는데 목적이 있다.

  • PDF

구조 및 의미 검색을 지원하는 비디오 데이타의 모델링 (Video Data Modeling for Supporting Structural and Semantic Retrieval)

  • 복경수;유재수;조기형
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.237-251
    • /
    • 2003
  • 이 논문에서는 비디오 데이타의 논리적 구조와 의미적 내용을 효과적으로 검색하기 위한 비디오 검색 시스템을 제안한다. 제안하는 검색 시스템은 비정형화된 비디오 데이타를 원시 데이타 계층, 내용 계층 그리고 키프레임 계층의 세 계층으로 구성하는 계층화된 모델링을 사용한다. 계층화된 모델링에 존재하는 내용 계층은 비디오 데이타에 대한 논리적인 계층 구조와 의미적 내용을 표현한다. 제안하는 검색 시스템은 모델링에 따라 텍스트 기반의 검색은 물론 시각적인 특징 기반의 유사도 검색을 지원한다. 또한 시공간 관계에 기반한 의미적 내용 검색과 유사도 검색을 지원한다.