• 제목/요약/키워드: 링크기반검색엔진

검색결과 33건 처리시간 0.024초

실시간 MP3 파일 검색 엔진을 위한 지원 시스템의 설계와 구현

  • 김우진;최문기
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.307-316
    • /
    • 2000
  • MP3(MPEG 1 layer 3) 파일 형식(file format)은 최근 높은 압축율과 뛰어난 음질 복원 능력으로 주목을 받고 있다. 실제로 MP3의 압축율은 CD의 약 50분의 1 정도이고 음질은 CD 음질을 동일한 수준으로 유지할 수 있다.한편, 이러한 MP3의 장점 때문에 web을 통해 MP3 파일을 찾으려는 수요는 폭발적으로 증가하고 있지만 기존의 검색 엔진들이 가지고 있는 프로세스는 급속하게 update되고 있는 MP3 컨텐츠에 효과적으로 대응하지 못하고 있는 실정이다. 특히, 기존의 검색 엔진들은 미디어 파일을 위한 검색이 아닌 문자 기반의 검색 기능을 위해 개발되어 MP3 검색에는 부적절하거나, 파일 중심이 아닌 사이트 중심의 링크 변동에 대하여 수동적인 업데이트만을 수행하여 빠른 변화에 능동적으로 대응하기 어려운 경우가 많다.현재 미디어 파일을 위한 검색 엔진들은 여럿 서비스 중이지만, 텍스트 중심의 탐색 방법을 사용하고, 정기적인 DB update 방법에 관해서도 문자 기반의 검색 엔진과 동일한 방법을 사용하고 있다. 또한, 국내에서는 web 서비스를 위한 미디어 파일 탐색 알고리즘과 지능형 탐색 방법에 등에 관한 연구 역시 거의 전무한 상태이다.본 논문은 MP3 파일 전문 검색을 위한 지능형 프로세스를 설계와 구현 결과에 관한 것으로, 기존의 미디어 검색 엔진들이 가지는 문제점을 지적하고 보다 효율적이고 능동적인 미디어 파일 탐색을 위한 방법을 제시한다. 특히, MP3 파일에 대한 미디어 파일 검증 알고리즘과 verification method을 제안하고, 이러한 메커니즘에 따라 구현된 지능형 robot과 spider 등으로 구성된, 신뢰성 있고 지능적인 MP3 검색 엔진 지원 시스템의 설계와 구현 결과 그리고 성능 등을 종합적으로 요약한다.실어증 환자들은 화시적 대명사를 조응적 대명사보다 더 잘 처리하는 동일한 결과를 보였다. 이러한 실험 결과들은 실어증 환자들이 뇌손상으로 인해 문법적 언어처리에는 어려움을 보이지만 비언어적인, 세상 지식과 관련된 화시적 대명사의 처리는 가능할 것이라는 가설을 뒷받침 해준다. 또한 이러한 실험 결과를 통해 대명사의 기능적인 측면에서 화시와 조응의 처리가 구분되어 있음을 보여준다.l mechanism is concentrate on only the reaction zone. As strain rate and CO2 quantity increase, NO production is remarkably augmented.our 10%를 대용한 것이 무첨가한 것보다 많이 단단해졌음을 알 수 있었다. 혼합중의 반죽의 조사형 전자현미경 관찰로 amarans flour로 대체한 gluten이 단단해졌음을 알수 있었다. 유화제 stearly 칼슘, 혹은 hemicellulase를 amarans 10% 대체한 밀가루에 첨가하면 확연히 비용적을 증대시킬 수 있다는 사실을 알 수 있었다. quinoa는 명아주과 Chenopodium에 속하고 페루, 볼리비아 등의 고산지에서 재배 되어지는 것을 시료로 사용하였다. quinoa 분말은 중량의 5-20%을 quinoa를 대체하고 더욱이 분말중량에 대하여 0-200ppm의 lipase를 lipid(밀가루의 2-3배)에 대하여 품질개량제로서 이용했다. 그 결과 quinoa 대량 7.5%에서 비용적, gas cell이 가장 긍정적 결과를 산출했고 반죽의 조직구조가 강화되었다. 또 quinoa 대체에 의해 전분-지질 복합제의 흡열량이 증대된 것으로부터 전분-지질복합제의 형성 촉진이 시사되었다.이것으로 인하여 호화억제에 의한 노화 방지효과가 기대되었지만

  • PDF

효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스 (Related domain service by effective categorization)

  • 허형욱;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

C-rank: 웹 페이지 랭킹을 위한 기여도 기반 접근법 (C-rank: A Contribution-Based Approach for Web Page Ranking)

  • 이상철;김동진;손호용;김상욱;이재범
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.100-104
    • /
    • 2010
  • 수많은 웹 문서로부터 웹 서퍼가 원하는 정보를 찾기 위해 다양한 검색 엔진들이 개발되어왔다. 검색 엔진에서 가장 중요한 기능 중 하나는 사용자 질의에 대해서 웹 문서를 평가하고 랭킹을 부여하는 것이다. PageRank등의 기존 하이퍼링크 정보를 이용한 웹 랭킹 알고리즘은 토픽 드리프트 현상을 발생시킨다. 이러한 문제를 해결하기 위하여 연관성 파급 모델이 제안되었지만, 기존의 연관성 파급 모델을 기반으로 하는 랭킹 알고리즘은 성능상의 이유로 실제 웹 검색 엔진에서 사용하기 어렵다. 본 논문에서는 이러한 토픽 드리프트 현상을 완화하면서 좋은 성능을 제공하는 새로운 랭킹 알고리즘을 제안한다. 다양한 실험을 통하여 기존 알고리즘들과 비교한 제안하는 알고리즘의 우수성을 검증한다.

고속 라우터의 기가비트 포워딩 검색을 위한 비트-맵 트라이 구조 (The Bit-Map Trip Structure for Giga-Bit Forwarding Lookup in High-Speed Routers)

  • 오승현;안종석
    • 한국정보과학회논문지:정보통신
    • /
    • 제28권2호
    • /
    • pp.262-276
    • /
    • 2001
  • 최근들어 특별한 하드웨어나 새 프로토콜의 도움없이 고속 라우터의 포워딩 검색을 지원하는 포워딩 테이블에 대한 연구가 다양하게 진행되고 있다. 본 논문에서는 소프트웨어를 기반으로 일반적인 펜티엄 프로세서에서 기가비트급 포워딩 검색을 지원할 수 있는 새포워딩 테이블 자료구조를 제시한다. 포워딩 검색은 테이블의 크기에 비례해서 복잡도가 증가하는 라우터 성능의 병목지점으로 알려져 있다. 기존의 소프트웨어를 기반으로 하는 포워딩 검색 연구들은 포워딩 테이블 자료구조로 패트리샤 트라이와 그 변형을 이용하거나 프리픽스 길이를 키로 해서 함수를 구성하는 방법등을 사용하여 왔다. 본 논문에서 제안된 포워딩 테이블 자료구조는 라우팅 테이블의 프리픽스를 완전이진 트라이로 구성한후 트라이의 구조와 각 노드별로 링크 되어있는 라우팅 테이블 포인터 정보를 비트열로 표현하여 포워딩테이블을 구성한다. 트라이의 구조와 라우팅 프리픽스 포인터 정보는 배열이나 링크드-리스트로 표현하면 대량의 저장공간을 필요로하지만 제안된 자료구조에서는 각 정보가 하나의 비트로 표현되므로 작은 저장공간으로 충분하며 또한 트라이를 중간 레벨에서부터 검색할 수 있는 방법을 라우팅 테이블을 펜티엄 프로세서의 L2 캐쉬에 저장할 수 있는 작은 크기로 압축하고 검색경로를 단축함으로써 일반적인 펜티엄 프로세서를 이용하여 고속의 포워딩 엔진을 구현할 수 있음을 보여준다. 제안된 방법의 성능을 평가하기 위해서 실제 라우팅 테이블을 대상으로 실험한 결과 초당 5.7백만 번의 라우팅검색성능을 기록하였다.

  • PDF

문서 특성에 대한 선호도 기반 웹 검색 개인화 (Web Search Personalization based on Preferences for Page Features)

  • 이수정
    • 정보교육학회논문지
    • /
    • 제15권2호
    • /
    • pp.219-226
    • /
    • 2011
  • 웹 상에서 사용자가 원하는 정보를 효율적으로 검색하는데 도움을 주기 위하여 웹 개인화는 사용자에게 흥미있는 웹 문서들을 추출해내는데 초점을 두고 있다. 이를 실현하기 위한 주요 방법들 중 하나는 문서에 포함된 질의어, 링크 및 사용자의 선호어를 이용하는 것이다. 본 연구에서는 이들 요소 외에 사용자들이 웹문서를 선택할 때 중요하게 생각하는 문서 특성들을 설문을 통하여 조사하였다. 설문 결과 문서의 내용이 가장 중요한 특성이었으나, 일부 사용자들에게는 문서에 포함된 이미지와 가독성도 내용과 마찬가지로 중요하게 간주되었다. 이를 바탕으로 각 사용자를 위한 문서의 주요 특성들의 상대적 가중치를 프로필에 유지 관리하고, 검색 결과의 개인화에 반영하는 방안을 제시한다. 제안한 개인화 방법의 성능을 분석한 결과, 일반 검색 엔진에 비해 최대 약 2.3배의 성능 향상을 보였고, 사용자 질의어와 선호어를 모두 이용하여 검색 결과를 산출하는 방법보다 약 1.5배의 성능 향상을 나타내어 그 우수성을 입증하였다.

  • PDF

검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 - (A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern)

  • 변제연
    • 한국문헌정보학회지
    • /
    • 제52권3호
    • /
    • pp.289-334
    • /
    • 2018
  • 웹상에서 영어 이외의 언어들로 이루어진 정보가 빠르게 증가하고 있지만, 여전히 영어 정보가 가장 큰 비중을 차지함에 따라 공통어(lingua franca)로서의 지배적인 영향을 미치고 있다. 따라서 영어가 비모어인 이용자들이 보다 다양하고 풍부한 정보를 획득할 수 있도록 하기 위해서는 비영어권 화자의 모어 정보검색행위와 영어 정보검색행위에 대한 조사를 통해 주요 특징 및 차이점을 살펴볼 필요가 있다. 본 연구에서는 국내 한 사립대학의 대학생 24명을 대상으로 동시적 사고구술 기법을 적용한 정보검색 실험을 실시해 한글 정보검색행위 및 영어 정보검색행위와 인지과정을 조사하였다. 관찰데이터 및 사고구술데이터의 정성적 데이터를 기반으로, 검색 언어에 따른 웹 정보검색행위의 양상 차이에 대한 빈도분석을 실시하였다. 연구 결과, 한글 검색에서 능동적이고 적극적이며 독립적인 특성의 양상이, 영어 검색에서 수동적이고 소극적이며 의존적인 특성의 양상이 나타났다. 한글 검색에서는 이용자, 태스크, 시스템 등 다양한 출처에서 용어를 추출 조합한 검색어 구성, 여러 수준에서의 검색범위 조정, 검색엔진 검색결과페이지 내 탐색대상 아이템의 선택과 관련한 원활한 필터링, 다수 아이템의 탐색 및 비교, 웹 페이지의 전체 내용 브라우징 등이 주요 특징으로 확인되었다. 반면, 영어 검색에서는 주로 태스크 추출 용어 중심 검색어 구성, 제한된 검색범위 선호, 카테고리나 링크 등 아이템과 아이템 간 관련성에 의존한 탐색 대상 아이템 선택, 동일 아이템의 반복적 탐색, 웹 페이지의 일부 내용 브라우징, 그리고 사전 및 번역기와 같은 언어지원도구의 빈번한 사용 등이 두드러진 특징으로 파악되었다.

PageRank 변형 알고리즘들 간의 순위 품질 평가 (Ranking Quality Evaluation of PageRank Variations)

  • 팜민득;허준석;이정훈;황규영
    • 전자공학회논문지CI
    • /
    • 제46권5호
    • /
    • pp.14-28
    • /
    • 2009
  • PageRank 알고리즘은 구글(Google)등의 검색 엔진에서 웹 페이지의 순위(rank)를 정하는 중요한 요소이다. PageRank 알고리즘의 순위 품질(ranking quality)을 향상시키기 위해 많은 변형 알고리즘들이 제안되었지만 어떤 변형 알고리즘(혹은 변형 알고리즘들간의 조합)이 가장 좋은 순위 품질을 제공하는지가 명확하지 않다. 본 논문에서는 PageRank 알고리즘의 잘 알려진 변형 알고리즘들과 그들 간의 조합들에 대해 순위 품질을 평가한다. 이를 위해, 먼저 변형 알고리즘들을 웹의 링크(link) 구조를 이용하는 링크기반 방법(Link-based approaches)과 웹의 의미 정보를 이용하는 지식기반 방법(Knowledge-based approaches)으로 분류한다. 다음으로, 이 두 가지 방법에 속하는 알고리즘들을 조합한 알고리즘들을 제안하고, 변형 알고리즘들과 그들을 조합한 알고리즘들을 구현한다. 백만 개의 웹 페이지들로 구성된 실제 데이터에 대한 실험을 통해 PageRank의 변형 알고리즘들과 그들 간의 조합들로부터 가장 좋은 순위 품질을 제공하는 알고리즘을 찾는다.

웹 탐색 성능 향상을 위한 강화학습 이용과 기준 페이지 선택 기법 (The Use of Reinforcement Learning and The Reference Page Selection Method to improve Web Spidering Performance)

  • 이기철;이선애
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권3호
    • /
    • pp.331-340
    • /
    • 2002
  • 웹의 세계는 하루가 다르게 확장되고 있다. 이에 따라, 지능형 정보추출 기능이 없다면 우리는 넘쳐나는 데이터 앞에서 더욱 무기력해 질 수밖에 없다. 범용 탐색 엔진을 위한 기존의 웹 검색 기법은 특정 영역이나 특정 키워드에만 집중해야하는 특정 검색 엔진에는 너무 느린 경향이 있다. 본 논문에서는 웹 검색 능력을 개선하는 새 모델을 제시하고 실험하였다. 특정 영역과 관련된 초기의 관련 웹 페이지 집합에서 적절한 웹 페이지들을 선택하는 문제는 웹 검색 속도를 향상시키기 위해 매우 중요할 수 있다. 기준 웹 페이지 선택 기법 DOPS는 선택된 웹 페이지들이 가능한 한 직교성을 갖도록 동적으로 웹 페이지를 선택한다. 또한 새로 정의된 메져를 이용하여 적합한 기준 페이지들의 수도 결정해줄 수 있다. 매우 특화된 영역에 대한 실험을 통해서도, 본 방법은 거의 전문가 수준에 가까이 동작하였다. 전문가들이 초대형 초기 페이지 집합에 대해 일할 수 없다는 점과 그들도 기준 페이지 수의 최적치를 결정하기에 어려움을 느낀 다는 점을 고려하면, 본 방법은 매우 유망하다 할 수 있다. 또한 웹 환경에 강화학습도 적용하도록 하였고, DOPS에 기반을 둔 강화학습 실험을 통해 본 방법이 하이퍼링크 수나 시간 면에서 매우 양호한 결과를 보임을 알 수 있었다.

  • PDF

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.