• 제목/요약/키워드: 잠재적 질의어

검색결과 9건 처리시간 0.024초

사용자 검색이력 기반의 잠재적 질의어 추천 시스템 개발 (Development of the Potential Query Recommendation System using User's Search History)

  • 박정배;박기남;임희석
    • 디지털융복합연구
    • /
    • 제11권7호
    • /
    • pp.193-199
    • /
    • 2013
  • 본 논문에서는 정보검색 시스템 사용자가 자신의 잠재적 정보욕구를 질의어로 표현하고, 원하는 정보가 검색될 수 있도록 사용자 검색이력 기반의 잠재적 질의어 추천 시스템을 제안한다. 제안하는 시스템은 사용자의 검색 질의어를 기반으로 기존 사용자들의 검색이력과의 연관관계를 분석하고, 사용자 잠재적 정보욕구를 추출하였다. 추출된 잠재적 정보욕구는 추천 질의어로 표현되어 사용자에게 추천된다. 본 논문에서는 제안한 시스템의 효용성 분석을 위하여 27,656건의 검색이력 데이터를 이용하여 행동실험을 실시하였다. 실험결과 피험자들은 제안한 시스템을 사용할 때 일반 검색엔진을 사용할 때 보다 높은 통계적으로 유의미한 만족도를 나타내었다.

잠재적 의미 색인을 이용한 유사 질의어 확장 (Query expansion by Similar words Using LSI)

  • 임태훈;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-169
    • /
    • 2009
  • 오늘날 인터넷 검색은 하루가 다르게 발전되고 있다. 주로 키워드 매칭에 의존을 둔 지금의 검색 서비스들은 사용자 중심의 아이템들을 개발해 정보검색의 경과시간 및 결과의 분류면에서 우수함을 보여주고 있다. 질의어의 의미에 유사한 검색은 아직은 발전하는 단계로, 내용에 기반을 둔 검색 환경에 초점이 맞춰지고 있다. 이와 관련하여 행렬의 특이치 분해(SVD)를 이용한 잠재적 의미 색인 기법(LSI)을 본 연구에서 다루고자 한다. 구축한 시스템의 성능 평가는 재현도 계산으로 비교되었는데 작은 크기의 특이값(singular value)들 생략에 의한 SVD의 성능과 그것을 재이용, 질의어에 대한 의미 구조상 근접한 용어들을 찾아 질의어를 확장한 후 적합한 문서들의 검색을 사용한 특이값 개수, 유사단어 확장 개수를 달리하여 실험하였다. 실험 결과, 특이값 2개를 사용한 잠재적 의미 색인이 특이값 3개를 사용한 잠재적 의미 색인보다 보다 나은 성능을 보였다. 그리고 조건을 달리한 모든 잠재적 의미 색인의 경우 단어 매칭에 의한 적합문서 검색보다 별 뚜렷한 나은 결과는 보이지 않았다. 하지만 의미적으로 관계가 깊은 유사어들을 찾아냈고, 의미적으로 가장 관계 깊은 문서를 대부분의 경우에서 순위 1위로 찾아내는 부분적 우수함을 보였다.

  • PDF

사용자 선호도 분석을 통한 검색어 조합 추출 (Finding Correlated Keyword b Analyzing User's Implicit Feedback)

  • 심철우;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.229-232
    • /
    • 2008
  • 웹 정보량이 급속히 늘어나면서 원하는 정보를 효율적으로 찾는 검색 기술의 중요성이 커지고 있다. 검색의 정확성을 높이기 위해서는 검색 질의어와 함께 사용자의 환경, 검색 만족도와 같은 다양한 정보가 필요하다. 사용자의 명시적 피드백을 요구하는 것은 거부감을 줄 수 있으므로 사용자의 잠재적 피드백과 연관 검색어 분석을 통해 검색 질의어를 확장하는 연구가 이뤄지고 있다. 그러나 이러한 검색어 확장과 검색 정확성 사이의 상관관계에 대한 분석이 없어 연관 검색어를 정량적으로 평가할 수 없었다. 본 논문에서는 사용자가 검색 질의어를 변경하면서 검색을 반복하는 과정을 사용자의 잠재적 피드백의 하나로 보고 사용자 만족도를 반영하는 페이지 방문 시간과 함께 분석하여 연속적으로 입력된 검색어가 검색 결과 순위와 사용자 만족도에 미치는 영향을 분석하는 방법을 제안하였다. 마우스 클릭 정보 분석을 통하여 사용자의 검색 만족도를 정량화하였고 특정 주제어에서 관련 검색어가 확장되어 가는 과정은 트리 구조로 표현하였다. 이를 통해 하나의 주제어와 관련해 연속적으로 입력된 검색어 집합으로부터 연관검색어를 추출하고 검색 결과의 정확성을 높일 수 있으며 제안된 트리 구조를 다양한 방향으로 분석하여 검색어, 검색 결과, 사용자 만족도, 배경 지식 등 단순 검색어 분석에서는 나타나지 않는 다양한 정보를 얻을 수 있다.

잠재적 의미와 k-means 군집화를 이용한 개념추출 검색 (Extraction of Concept by Latent Semantic Indexing and k-means Clustering)

  • 장유진;임호섭;박기림;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.22-24
    • /
    • 2001
  • 정보검색 시스템에서 사용자의 질의어가 불완전함에 따라 생기는 검색 효율의 저하를 줄이기 위하여 용어의 상호관련성을 반영함과 동시에 벡터의 공간을 축소하는 LSI 모델을 사용하여 문서 집합으로부터 잠재적 의미 공간을 구축하였다. 또한 의미 공간상에 있는 문서의 분포에 따라 \"개념\"을 추출하기 하기 위해 k-means algorithm을 사용하여 군집화 시켰다. 이로부터 불완전한 초기 사용자 질의어를 의미 공간에 구축된 클러스터링 정보로 수정하여 새로운 질의어를 생성함으로 검색의 효율을 높이고자 하였다. 검색 효율을 측정하기 위해 TREC 데이터를 이용하여 분석하였으며 결과는 질의어의 성격에 따라 달라졌으나 대체적으로 우수한 성능을 보였다.한 성능을 보였다.

  • PDF

정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가 (Extended Query Search Performance Evaluations for Vector Model and Probabilistic Model of Information System)

  • 전유정;변동률;박순철
    • 한국산업정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.36-42
    • /
    • 2004
  • 본 논문은 벡터모델과 확률모델의 성능 비교에 관한 연구이다. 벡터모델로써는 잠재적 의미를 적용한 검색 결과를 찾기 위해 사용되는 LSI 모델을 이용하였다. 확률모델로써는 현재 상용화 단계에 있는 콘도르 정보검색 시스템을 적용하였다. 각 모델 시스템의 검색 성능 비교를 위한 실험은 사용자가 입력한 원래 질의어에 관한 검색 결과를 바탕으로 성능을 비교한 후에, 사전적 의미를 적용한 확장 질의어에 대한 검색 결과를 추가하여 비교하였다. 본 연구에서는 입력된 질의어와 관련된 용어를 추가하여 검색하였을 경우, 확률모델에 비해 벡터모델에서 성능이 대부분의 질의어에 대해서 향상됨을 보인다.

  • PDF

인터넷에서 잠재적 의미 분석을 이용한 지능적 정보 검색 (Intelligne information retrieval using latent semantic analysis on the internet)

  • 임재현;김영찬
    • 한국통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1782-1789
    • /
    • 1997
  • 인터넷에서 분산 정보를 검색하는 대부분의 시스템들은 사용자가 요구하는 검색 용어의 의미를 반영하지 못해 관련된 정보를 정확히 찾지 못하고 있다. 본 논문에서는 정보 검색 성능을 향상시키는 방안으로 검색 용어의 의미를 반영할 수 있는 용어 분포에 기반한 자동화된 질의어 확장을 제안한다. 먼저, 사용자가 부여한 질의어와 전체 문서에서 용어의 중요도를 반영한 가중치(weight)를 계산하고, LSI의 SVD기법을 이용해 모든 문서에서 질의어와 유사하게 출현하는 용어의 분포를 측정하여, 이들 수치와 질의어 용어의 유사성을 측정하였다. 또한 자동적으로 추가할 용어를 줄이기 위한 방안을 연구하였으며 본 논문에서 제안한 방법을 사용해 검색 성능을 평가하였다.

  • PDF

인문전산학 활용을 위한 데이터마이닝기법 (Data Mining Technology for Application in Humanistic Computing)

  • 곽호형;방혜자
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.593-596
    • /
    • 2005
  • 데이터마이닝은 대량의 실제 데이터로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업으로, 본 논문은 최근 인문학 정보 자료가 전산화되고 있는 가운데 대량의 정보와 특정 체계를 갖춘 ‘조선왕조실록’ 전산자료를 분석하고 기존의 단순한 정보 검색이 아닌 데이터마이닝 기법을 적용한 상세하고 예측가능 한 정보자료 추출법을 제시한다. 먼저 텍스트화 되어 있는 컨텐츠를 형태소분석기법을 사용하여 색인어를 추출하고 집계를 낸다. 질의어와 유관한 색인어의 군집정도와 출현시점을 분석하는데, 사용된 마이닝 기법은 연관규칙분석과 클러스터링 분석기법이다. 최종 결과치는 기존의 인문학연구 결과물과 비교하여 그 정확도를 분석해 보인다.

  • PDF

시간 데이타마이닝 프레임워크 (Temporal Data Mining Framework)

  • 이준욱;이용준;류근호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.365-380
    • /
    • 2002
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 "시간값을 가진 대용량 데이타로부터 이전에 잘 알려지지는 않았지만, 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술"로 정의된다. 시간 지식이란 주기적 패턴, 캘린더 패턴, 경향 등과 같이 시간 의미와 시간 관계를 가진 지식을 말한다. 실세계에서는 환자의 병력, 상품 구매 이력, 웹 로그 등과 같은 다양한 시간 데이타가 존재하며 이로부터 여러 형태의 유용한 시간 지식을 찾아낼 수 있다. 데이타마이닝에 대한 연구가 진행되면서 순차 패턴, 유사 시계열 탐사, 주기적 연관규칙 탐사 등과 같이 시간 지식을 탐사하고자 하는 시간 데이타마이닝에 대한 부분적인 연구가 수행되었다. 그러나 기존 연구는 단순히 데이타의 발생 순서 및 유사한 패턴을 찾아내는데 중점을 두고 있어 데이타가 포함하고 있는 시간 의미와 시간 관계를 탐사하는데 부족하며, 시간 지식의 전체적인 측면보다는 연관 규칙과 같은 일부분만을 다루고 있다는 문제점을 가지고 있다. 따라서 이 논문에서는 시간 데이타마이닝에 대한 체계적인 연구를 위하여 시간 데이타마이닝에 대한 기존 연구 내용과 해결해야 할 문제점을 분석하고 이를 바탕으로 전체적인 프레임워크를 제시하였다. 또한 그 구현 방안 및 적용평가를 수행하였다. 프레임워크에서는 시간 데이타마이닝 모델을 제안하고, 이를 바탕으로 시간 데이타마이닝 질의어와 시간 지식을 탐사할 수 있는 시간 데이타마이닝 시스템을 설계하였다.

신문지 재활용 공정의 일차 점착성 이물질 실시간 정략을 위한 새로운 방법

  • 김동호;류정용;김용환;송봉근
    • 한국펄프종이공학회:학술대회논문집
    • /
    • 한국펄프종이공학회 2002년도 춘계학술발표논문집
    • /
    • pp.46-48
    • /
    • 2002
  • 본 연구는 신문지 고지의 점착성 이물질 중 Primary Stickies의 정 량에 관한 것으로 서, 실제 신문지료를 화상분석하여 실시간으로 매크로크기의 점착성 이물질올 측정할 때 효율적인 측정조건을 탐색하여 제지공정의 l 현장에서 일차 점착성 이물질을 정량 하는 새로운 측정기의 측정 기준을 제시하고자 하였다. 이물질이란 제지공정에 의도적으로 첨가되지 않은 불질의 총칭으로 dirt 및 각종 점착 성 이물질 즉, stickies를 들 수 있다. 이 가운데 스틱키{stickies}란 부드럽고, 점착성을 나타내는 이물질의 총청으로 주로 점착제와 확스에 의해 형성된다. 스틱키는 고지 재활 용의 효율성을 가장 크게 저해하는 이물질로 와이어, 펠트 및 기타 공정요소에 부착되 어 초지 시 지절을 발생시킴으로써 생산성을 저하시킬 뿐 아니라, 외관상 상품가치와 인쇄적성올 저하시키며, 최종 제품의 강도적 물성 및 가공적성에도 영향을 미친다. 특 히 국내에서는 원가절감을 위해 고지의 재활용율올 증대시키고자 전력을 다하고 있으 며 환경보호 및 용수 절감올 위해 공정수를 절감하고 궁극적으로는 무방류화를 목표로 하고 있어 토지 계 내의 점착성 이물질의 투입과 농축 현상이 심각하게 진행되고 있는 실정이다. 초지공정에서 발생하는 스틱키 즉 점착성 이물질은 미세한 스크린의 슬롯 폭인 0.15 - -0.3mm 이상의 크기를 가져 스크린에 의해 분리될 수 있는 매크로 스틱키{macro s stickies}와 이보다 작은 마이크로 스틱키(micro stickies)로 크게 분류된다. 즉 매크로 스틱키는 스크린에 의해 분리될 수 있으나 마이크로 스틱키는 스크린을 통하여 기계적 으로 분리할 수 없다는 문제점을 지니고 있다. 스틱키는 또 거동 특성에 따라 primary s stickies와 secondary stickies로 구분할 수 있다. primary stickies는 펄핑과정에서 점착 성 이물질이 파괴됨에 따라 나타나지만, secondary stickies는 지류 제지공정의 백수에 용해 되거나 분산된 상태인 1때1 이하의 콜로이 드로 폰재 한다. 이 러 한 secondary stickies 는 pH, 온도의 변화나 각종의 첨가제에 의해 웅집이나 홉착 등을 발생할 수 있는 잠재 적 문제점 등을 가지고 있다. 예를 들어 양성 고분자의 첨가는 펄프 섬유를 웅집시킬 뿐 아니라 지료에 함유된 secondary dtickies의 안정성을 저하시켜 응집, 침적시키는 작용을 한다. 따라서 분리가 어렵고, 제지공정에서 문제를 일으키기 쉬운 2차 스퇴키를 적절히 제어하기 위한 기술 개발은 용수절감 뿐 아니라, 초지공정의 침적물 절감을 통 한 공정개선에도 매우 중요한 요소기술이라 할 수 있다.

  • PDF