• 제목/요약/키워드: 검색 키워드 추출

검색결과 293건 처리시간 0.031초

클릭로그를 이용한 연관키워드 수집 (Relevant Keyword Collection using Click-log)

  • 안광모;서영훈;허정;이충희;장명길
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.149-154
    • /
    • 2012
  • 본 논문은 사용자가 웹 검색을 위해 입력한 키워드와 그 키워드에 의해서 접근한 웹문서의 URL을 이용하여 연관키워드(relevant keyword)를 수집하는데 목적이 있다. 서로 다른 키워드들이라 할지라도 각각의 키워드들이 동일하게 링크된 URL의 수가 많다면, 그 키워드들은 서로 관련성이 높을 것이라는 것이 본 논문의 주된 가정이다. 실제로 이를 검증하기 위해 사용자가 입력한 키워드와 이 키워드를 이용하여 접근한 URL의 정보가 담겨있는 포털사이트의 클릭로그 데이터를 이용하여 URL과 키워드들의 쌍을 추출한 후, 연관키워드 집합을 생성하였다. 그 결과, 실험에서는 최소지지도(minimum support)가 10일 때, 유사어휘 수준에서의 정확도는 89.32%를 보였으며, 유사 어휘는 아니나 관련성이 있는 어휘 수준에서는 99.03%의 정확도를 보였다. 본 논문에서 제안하는 접근 방법은 언어에 독립적이고, 실세계의 데이터로부터 관련성이 있는 단어를 수집할 수 있다는 장점이 있다.

맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색 시스템 (An Integrated Region-Related Information Searching System applying of Map Interface and Knowledge Processing)

  • 신진주;서경석;장용희;권용진
    • Spatial Information Research
    • /
    • 제18권4호
    • /
    • pp.129-140
    • /
    • 2010
  • Google, NAVER와 같은 대형포털에서 지도 기반의 다양한 서비스를 제공함에 따라, 지역관련 정보를 얻으려는 사용자들의 관심과 요구 또한 증가하고 있다. 하지만, 대형포털의 서비스들은 특정 지역에 대한 상세정보가 충분하지 않고 관련 정보를 획득하는 과정이 반복되는 번거로움이 존재하기 때문에, 사용자가 특정 지역의 관련 정보를 자세하고 종합적이며 손쉽게 획득할 수 있도록 지원하는 시스템이 필요하다. 본 논문에서는 사용자의 지역정보 획득에 유용한 시스템의 구축을 위해, 맵 인터페이스와 지식처리를 활용한 시스템 모델을 제안한다. 제안한 모델은 '지역정보 웹 문서 Layer', '고유지역키워드 Layer', '맵 인터페이스 Layer'의 3-Layer로 구성된다. 이 모델을 기반으로 한 지역관련정보 통합검색 시스템은 (l) 특정 지역의 대표 키워드 추출 (2) 관련 웹 페이지 수집 (3) 연관 키워드 집합 추출 및 키워드간의 연관도 계산 (4) 사용자 인터페이스 구축의 4단계 과정을 거쳐 구현한다. 구체적으로 고양시 지역을 대상으로 한 시스템의 구축을 통해 제안한 모델과 유사도 행렬을 이용한 지역정보의 지식처리 알고리즘, 사용자의 검색 편의를 돕는 UI 등의 타당성을 검증하였다. 본 시스템은 단순히 개별 '정보'로 존재하는 지역정보들을 융합하고, 새로운 '지식'을 생산 및 체계화하여 사용자들에게 제공해준다. 이를 통해 사용자는 다양하고 상세한 지역정보를 제공받을 수 있고 관련 정보도 쉽게 얻을 수 있다.

SOA 기반의 지식검색시스템 구현 (An Implementation of Knowledge Search System based on SOA)

  • 최종옥;시대근;전양승;한성국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.1175-1178
    • /
    • 2005
  • 최근 정보의 양이 증가함에 따라 목적에 부합되는 정보만을 효율적으로 추출하고 가공하여 정확한 정보를 검색하는 문제의 중요성이 요구되고 있다. 이에 본 논문에서는 SOA 의 기반기술인 웹 서비스 기술과 온톨로지를 접목하여 일반 키워드 매칭 검색기능이 아닌 지능형 검색을 동적으로 수행 가능한 지식검색시스템을 제안하고자 한다.

  • PDF

키워드 확장을 통한 효율적인 유의어 검출 방법 (Efficient Synonym Detection Method through Keyword Extension)

  • 지기용;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.767-770
    • /
    • 2018
  • 인공지능의 발달로 사람이 사용하는 자연어 형태의 문장을 통해 정보를 주고받는 질의응답 시스템이 주목받고 있다. 이러한 질의응답 시스템은 자연어로 구성된 사용자의 질의문에서 의도를 정확하게 파악해야 한다. 단순히 질의어의 키워드에 의존한 검색은 단어의 중의성을 고려하지 않아 질의문의 의도를 정확히 파악하는 데 문제가 있다. 이런 문제점을 해결하기 위해 질의문의 의미와 맥락에 따른 연관성을 이용하여 유의어를 확장하는 방법이 연구되고 있다. 본 논문에서는 워드 임베딩을 통해 생성된 단어 유사도를 이용하여 질의문에서 추출된 키워드를 확장하는 방법을 제안한다.

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법 (Issue summarization scheme based on real-time SNS trend analysis)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

자연영상에서 한글 자소 구조 및 유형 특징을 이용한 문자 영역 검출 (Character Region Detection Using Hangul Character Structure and Class Feature in Natural Images)

  • 박종천;권교현;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 1부
    • /
    • pp.396-399
    • /
    • 2011
  • 모바일 기기의 보급이 확대됨으로서 모바일 기기에 내장된 카메라로 획득한 영상을 처리하는 다양한 종류의 응용프로그램이 개발되어 사용되고 있다. 대표적인 응용프로그램은 카메라로 찍은 영상의 사물 검색결과를 인터넷 검색엔진과 연계함으로서 키워드 입력 없이 검색할 수 있도록 하는 것이다. 본 연구는 그 중에서 한글 문자가 포함된 영상을 대상으로 영상검색 수행하는 연구로서 영상에서 한글 문자 영역을 검출하는 방법을 제안하였다. 한글 문자 구조 특징으로 한글 자소를 병합하여 후보 문자 영역을 추출하고 병합된 후보 문자 영역을 한글 6가지 문자 유형 특징을 기반으로 문자 영역을 여부를 판별함으로서 최종적인 문자 영역을 검출한다. 실험결과 문자영역 재현률이 향상됨을 알 수 있었다.

  • PDF

메타데이타를 삽입한 디지털 콘텐츠 생성 도구 개발 (Development of Digital Contents Authoring Tool using Metadata)

  • 천수덕;주상욱;이상준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.50-54
    • /
    • 2007
  • 정보기술은 통신 및 멀티미디어 기술의 발전에 힘입어 빠르게 발전되고 있으며, 이에 따른 데이타베이스의 기술이 공간데이타, XML, 비디오, 음성과 같은 다양한 멀티미디어 데이터 분야에 적용되고 있다. 비디오 데이타는 순차적인 특성을 가지며, 시간과 공간정보가 결합된 3차원 데이타로서 처리시간이 높은 작업이기 때문에 검색이나 브라우징이 대단히 비효율적이다. 본 논문에서는 비주얼리듬을 이용하여 비디오 데이타에서 대표 프레임(Key Frame)을 추출한 다음 XML을 이용한 태그 및 키워드 정보를 대표 프레임에 삽입하여 검색이나 브라우징을 할 수 있는 동영상 내용편집 도구(Authoring Tool for Video Contents)를 제안한다. 비주얼리듬은 3차원의 시공간적인 정보를 2차원으로 매핑한 정보로 IDCT(inverse Discrete Cosine Transform)과정 없이 픽셀 정보를 얻을 수 있어 처리속도가 빠르며 컷, 와이프, 디졸브 등의 편집효과를 효과적으로 구분할 수 있다. 그리고 XML 데이타에는 태그 및 정보와 함께 대표 프레임의 정보까지 저장되므로 유사 화면 검색이나 내용 기반 검색을 제공할 수 있다.

  • PDF

주제어 가중치 기법에 의한 효율적인 블로그 검색 시스템 (Efficient Blog Retrieval System by Topic-based Weighting)

  • 신현일;윤은일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.1-9
    • /
    • 2010
  • Web 2.0으로 불리는 새로운 세대의 웹에서, 블로그를 통하여 누구나 손쉽게 정보나 의견을 세상에 알릴 수 있게 되었고 이러한 블로그를 효과적으로 검색하기 위해서 블로그의 특성을 고려한 검색 알고리즘들이 새롭게 제안이 되고 있다. 그러나 실제 블로그 검색 시스템에 적용된 키워드 기반 검색이나 블로그간의 링크 분석을 통한 랭킹만으로는 사용자가 기대하는 성능을 발휘하지 못한다. 본 논문에서는 검색 결과를 향상시키기 위해 블로그 글과 검색어와의 연관성을 고려한 주제어 가중치 기반의 블로그검색 시스템을 제안한다. 제안된 시스템은 블로그 글 마다 주제어(Topic)를 추출하여 색인어보다 더 높은 가중치를 부여한다. 기존 시스템과의 비교에서 제안된 방법이 실제 검색 결과에서 재현율이 향상됨을 알 수 있었다.

모바일 영상에서 한글 문자의 기하학적 특징을 이용한 에지 기반 텍스트 검출 (Edge-based Text Localization Using Geometrical Features of Hangul Character in Mobile Images)

  • 박종천;오명관;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2012년도 춘계학술논문집 2부
    • /
    • pp.820-822
    • /
    • 2012
  • 최근 모바일 기기의 보급이 일반화됨으로서 모바일 영상을 다루는 많은 응용프로그램이 개발되고 있다. 모바일 영상을 분석하여 정보를 추출한 결과를 인터넷 검색의 키워드로 연계함으로서 직관적인 멀티미디어 검색을 가능하도록 한다. 본 연구는 모바일 영상에 포함된 한글 문자영역을 검출하는 방법을 제안하였다. 한글 문자의 기하학적인 특징을 추출하고 이를 분석함으로서 후보 한글문자 영역을 검출하고, 검출된 후보 문자영역을 한글 자소 병합 알고리즘을 이용하여 병합한다. 그리고 후보 문자 영역을 한글 6가지 한글 문자 유형 특징을 이용하여 한글 문자 영역을 판별함으로서 최종적인 한글 문자영역을 검출한다. 실험결과, 문자영역 검출률의 성능 평가 요소로서 재현률이 향상됨을 알 수 있었다.

  • PDF