• 제목/요약/키워드: 검색속도

검색결과 743건 처리시간 0.025초

구 분할을 이용한 명사구기반 색인의 성능향상 (Improvement of phrase-based indexing performance using phrase segmentation)

  • 이충희;김현진;장명길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.585-588
    • /
    • 2002
  • 정보검색의 정확률을 높이는 것이 최근 정보검색 연구의 추세이며, 정확률을 높일 수 있는 방법 중 하나로 명사구단위 색인이 있다. 명사구 색인을 하는 방법에는 구문분석기를 이용하는 방법과 패턴 규칙을 이용하는 방법으로 나눌 수 있다. 구문분석기를 이용하여 전체 문장을 분석한 후 명사구단위 색인을 할 경우, 범용적으로 이용할 수 있지만 속도와 정확도가 떨어진다는 문제점이 있으며 패턴 규칙을 이용하는 경우는 속도는 빠르지만 정확도 및 확장성에 문제를 가지고 있다. 이런 문제들을 해결하기 위해 본 논문에서는 문장으로부터 명사구를 분할한 후, 분할된 명사구를 완전 구문 분석하여 색인하는 방법을 제안한다. 명사구는 속격어구와 관형형 명사구를 대상으로 하였고, 구 분할은 속격조사와 관형형어미를 중심으로 주변 형태소와 품사를 고려하는 규칙을 만들어 실행하였다. 실험대상은 짧은 문장, 중간문장, 긴 문장을 각각 25 개를 선정하여 실험하였고, 구 분할을 이용할 경우 평균 재현율은 86%, 평균 정확률은 74% 정도의 성능을 보였다. 긴 문장의 경우, 구 분할을 이용하지 않는 경우에 비해서 정확도 및 속도에서 월등한 성능향상이 있었다.

  • PDF

임상의사의 진료목적 정보원 이용과 장애요인에 관한 질적 연구 (A Qualitative Study of Physicians' Use of Clinical Information Resources and Barriers)

  • 김순;정은경
    • 한국문헌정보학회지
    • /
    • 제50권4호
    • /
    • pp.55-75
    • /
    • 2016
  • 본 논문은 임상의사가 선호하는 임상정보원의 특성과 정보검색 시 장애요인을 심층인터뷰를 통해 분석하였다. 환자 진료를 위한 정보검색은 환자치료방법 결정, 최신 경향 파악, 내부 컨퍼런스 발표자료 준비 등으로 구분되었으며, 이러한 검색행위에 영향을 미치는 변인으로는 주제 배경지식, 진료 경험, 직급, 검색 능력, DB 이용교육, 도서관 홈페이지 친숙도 등으로 나타났다. 온라인 임상정보원은 익숙하고 신뢰성이 높고 방대한 정보의 양 때문에 PubMed가 가장 선호되었으며, 속도가 빠르고 쓰기 쉬운 구글도 많이 사용되었다. 정보내용의 정확성과 최신성이 정보원 선정에 있어 가장 중요한 기준으로 적용되었으며, 시간이 많이 부족한 관계로 검색방법의 용이성, 정보에 대한 접근 편이성도 중요하게 여겨지고 있었다. 사용하기 불편한 검색시스템, 생소한 주제나 용어의 검색 어려움, 너무나 방대한 자료, 원문 접근의 어려움, 복잡한 고급검색 기능 등이 장애요인으로 도출되었다. 본 연구결과는 도서관 서비스 개선이나 임상의사의 정보검색 교육과정을 개선하는데 기초자료로 활용될 수 있을 것이다.

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

능동적 트라이 압축을 이용한 고속 IP 검색 (A Fast IP Lookups using Dynamic Trie Compression)

  • 오승현
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.453-462
    • /
    • 2003
  • 리우터의 IP 주소검색은 라우터에 도착한 IP 패킷의 목적지 주소를 이용하여 적절한 출력링크를 검색하고 결정하는 것이다. IP 주소검색은 라우터 성능의 병목지점 중의 하나로써 고속 백본망에 필요한 초고속 라우터 개발에 필수적인 부분이다. 본 논문은 보통의 펜티엄 CPU에서 능동적인 트라이(Trie) 압축기법을 이용하여 작은 메모리만으로 기가비트급 IP 주소검색을 실시할 수 있는 동적 트라이 압축(Dynamic Trie Compression) 자료구조를 소개한다. DTC 자료구조는 트라이를 압축하여 포워딩 테이블을 만들 때 테이블의 크기와 검색속도의 상관관계를 고려하여 능동적으로 테이블의 크기를 선태할 수 있다. 또한 트라이를 압축할 때 트라이의 구조를 반영하여 자료구조의 크기를 최소화함으로써 포워딩 테이블에 대한 IP 주소검색이 고속의 SRAM 캐시 검색이 되도록 한다. 실험결과에서 DTC 자료구조는 다양한 라우팅 테이블에 대해 능동적으로 최적의 압축을 제공함으로써 보통의 펜티엄 CPU에서 최대 $12.5{\times}10^5$ LPS(Lookup per second)를 기록하였다.

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델 (A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents)

  • 강현수;강현규;박세영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

Centroid 위치벡터를 이용한 영상 검색 기법 (A Centroid-based Image Retrieval Scheme Using Centroid Situation Vector)

  • 방상배;남재열;최재각
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.126-135
    • /
    • 2002
  • 영상은 색상, 형태, 위치, 질감 같은 다양한 특성을 갖고 있기 때문에 하나의 특성만을 이용하여 일괄적으로 영상을 검색할 경우, 만족할 만한 검색효율을 얻기가 어렵다. 특히, 대용량의 영상 데이터베이스일수록 그 같은 현상은 빈번하게 일어나기 때문에 기존의 내용 기반 영상 검색 시스템들은 대부분 하나 이상의 특성을 이용하여 검색효율 향상을 죄하고 있다. 본 논문에서는 Centroid 위치벡터를 이용하여 영상 내의 색상 정보뿐만 아니라, 특정 색상에 대한 위치정보를 고려하는 기법을 제안한다. 질의영상의 한 색상에 대해 Centroid 위치벡터를 추출하고 비교영상의 같은 색상의 Centroid 위치벡터와의 거리를 비교하여 그 거리가 짧을수록 각 색상의 위치 유사도를 높게 책정하는 방식을 제안한다. 제안된 검색 기법은 기존의 색상 분포만을 이용하는 검색 기법에 비해, 원근 처리된 영상에 강인하고, 회전되거나 뒤집힌 영상의 변별력이 향상되었다. 또한, 제안된 방식은 색상정보와 위치정보의 추출을 이원화시키지 않고 동시에 추출함으로써 계산량을 줄이고, 효율적인 색인 파일을 생성하여 검색속도를 향상시켰다.

한국어 자모 Viable Prefix를 이용한 외래어 표기 교정 기법 (Transliteration Correction Method using Korean Alphabet Viable Prefix)

  • 권순호;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.87-92
    • /
    • 2011
  • 한국어 문서에서 외래어 표기는 한 단어에 대해 한 개만 존재하는 것이 아니라 여러 개의 다른 표기로 사용되고 있다. 이러한 표기상 불일치는 하나의 단어가 다른 개념으로 인식되어 정보 검색 시스템의 성능 저하의 원인이 된다. 따라서 정보 검색 시스템에서는 다양한 외래어 표기에 대해 같은 개념으로 인식하여 검색할 수 있도록 외래어 표기법에 맞는 외래어 표기로 교정하는 전처리가 필요하다. 본 논문에서는 질의어로 외래어가 입력되면, 이를 근거로 외래어 표기법에 맞는 외래어 표기로 교정해주는 방법을 제안한다. 제안하는 기법은 한국어 자모의 viable prefix를 이용하여 후보 외래어 표기를 생성하는 가상 트리를 작성하고 불필요한 외래어를 가지치기함으로써 검색 정확도를 높이고 속도를 개선한다.

대학도서관 이용자의 메타서치시스템 이용행태 연구 (A Study on User Information Seeking Behavior of Metasearch System in the Academic Library)

  • 남영준;양지안
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.307-323
    • /
    • 2010
  • 정보환경의 변화에 따라 도서관과 웹 검색엔진의 차별성이 있음에도 불구하고 이용자들은 인터넷의 자원과 학술데이터베이스의 자원을 혼동하고 있다. 특히 구글스칼라와 같은 상업용 검색엔진의 검색속도 와 조작 편의성이라는 상대적 장점 때문에 학술데이터베이스가 갖고 있는 학술적 가치와 신뢰성에도 불구하고 이용자는 구글스칼라를 선호하고 있는 실정이다. 이 연구에서는 구글스칼라가 갖는 장점을 반영한 메타서치시스템의 특성과 가치를 인터페이스 측면과 전자정보원 측면에서 분석하였다. 또한 이러한 새로운 검색채널로서 메타서치시스템과 이와 연계된 링크리졸버를 이용하는 대학도서관의 이용통계를 분석하였다. 이를 바탕으로 구글스칼라와 차별화될 수 있는 도서관만의 특징인 이용자 이용행태 패턴과 주제별 전자정보 이용행태를 도출하여 전자정보 서비스의 방안으로 활용할 수 있음을 조사하였다.