• 제목/요약/키워드: 연관어

검색결과 370건 처리시간 0.037초

검색 포털들의 검색어 추천 서비스 분석 평가: 네이버와 구글의 연관 검색어 서비스를 중심으로 (Analysis and Evaluation of Term Suggestion Services of Korean Search Portals: The Case of Naver and Google Korea)

  • 박소연
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.297-315
    • /
    • 2013
  • 본 연구에서는 주요 검색 포털들의 검색어 추천 서비스를 분석, 평가하였다. 이 연구에서는 네이버와 구글 코리아를 대상으로 추천되는 연관 검색어의 적합도 및 최신성을 평가하고, 연관 검색어의 개수 및 분포, 연관 검색어가 제공되지 않는 질의의 특징을 조사하였다. 또한 연관 검색어의 유형을 질의와 연관 검색어의 관계 측면에서 분석하고, 연관 검색어들 중 유해 검색어의 유형 및 특징, 비표준어의 유형 및 특징도 조사하였다. 마지막으로, 한글 질의와 영어 질의, 대중적인 질의와 전문적인 질의의 연관 검색어의 특징을 비교하였다. 연구 결과, 네이버가 구글보다 연관 검색어의 적합도와 최신성이 다소 높은 것으로 나타났다. 또한 구글과 네이버 모두 새로운 연관 검색어를 제시하기보다는 질의에 단어를 추가 또는 삭제하거나, 질의와 동일한 검색어나 동의어 검색어를 제공하는 경우가 많은 것으로 나타났다. 본 연구의 결과는 향후 포털들의 검색어 추천 서비스의 개선에 활용될 수 있을 것으로 기대된다.

학술DB에서 SNA(Social Network Analysis) 기법을 이용한 연관검색어 제공방안 연구 (A Study on Providing Relative Keyword using The Social Network Analysis Technique in Academic Database)

  • 김경용;서정연;선충녕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-82
    • /
    • 2011
  • 본 논문은 다양한 주제 분야의 연구 성과물을 제공하는 학술DB에서 주제어(Keyword) 정보를 바탕으로 SNA(Social Network Analysis)기법을 적용해 검색어와 연관도가 높은 연관검색어를 제공하는 것을 그 목적으로 한다. 이를 위해 주제어들 간의 가중치(Weight)를 계산한 뒤 Ego Network 분석을 통해 검색어와 연관된 연관주제어를 추출하고 이를 기존 학술DB에서 제공한 연관검색어와 비교 정리하였다. 그리고 정리된 결과를 연관규칙 마이닝기법, 유사계수를 적용해 연관도측면에서 비교 평가하였다.

  • PDF

검색어의 연관법칙 (ARMS : Association Rule for sMall Set)

  • 문상준;최재걸
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.10-12
    • /
    • 2004
  • 검색엔진에 사용자가 입력한 검색어를 분석하면 상호 연관이 있는 검색어들을 찾아낼 수 있다. 검색어들간의 상호 연관성을 찾기 위해서 데이타 마이닝 분야의 연관법칙을 위한 알고리즘을 적용하였다. 그러나 이 알고리즘들은 모두 일정 횟수 이상 검색된 검색어간의 연관법칙에 집중되어 있어서 일정 횟수 이상 검색되지 않은 검색어들은 버려진다. 이 연구에서는 이런 검색어들을 스몰 셋(small set)이라고 정의하고 스몰 셋의 연관법칙을 찾기 위한 방법을 제시한다. 실험결과는 이 연구에 제시한 방법이 효과적으로 동작하는 것을 입증해준다.

  • PDF

주제어 기반 문서 클러스터링 알고리즘 (Keyword-based Document C lustering Algorithm)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF

연관 어휘 추출을 통한 질의어 관련 이슈 탐지 (Query Related Issue Detection using Related Term Extraction)

  • 김제상;김동성;조효근;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2013
  • 근래 트위터와 페이스북 등의 SNS(Social Network Service)에서 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하는 많은 연구가 이루어지고 있다. 본 논문에서는 검색어에 대한 연관 어휘 추출을 통해 검색어에 연관된 이슈나 화제를 트위터에서 추출하기 위한 방법을 제안한다. 본 논문에서는 연관성이 높은 단어는 서로 가깝게 발생할 것으로 기대하고, 단어 간 거리가 가까울수록, 공기빈도가 높을수록 커지는 단어연관도 계산법을 제안한다. 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다.

  • PDF

사용자 선호도 분석을 통한 검색어 조합 추출 (Finding Correlated Keyword b Analyzing User's Implicit Feedback)

  • 심철우;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.229-232
    • /
    • 2008
  • 웹 정보량이 급속히 늘어나면서 원하는 정보를 효율적으로 찾는 검색 기술의 중요성이 커지고 있다. 검색의 정확성을 높이기 위해서는 검색 질의어와 함께 사용자의 환경, 검색 만족도와 같은 다양한 정보가 필요하다. 사용자의 명시적 피드백을 요구하는 것은 거부감을 줄 수 있으므로 사용자의 잠재적 피드백과 연관 검색어 분석을 통해 검색 질의어를 확장하는 연구가 이뤄지고 있다. 그러나 이러한 검색어 확장과 검색 정확성 사이의 상관관계에 대한 분석이 없어 연관 검색어를 정량적으로 평가할 수 없었다. 본 논문에서는 사용자가 검색 질의어를 변경하면서 검색을 반복하는 과정을 사용자의 잠재적 피드백의 하나로 보고 사용자 만족도를 반영하는 페이지 방문 시간과 함께 분석하여 연속적으로 입력된 검색어가 검색 결과 순위와 사용자 만족도에 미치는 영향을 분석하는 방법을 제안하였다. 마우스 클릭 정보 분석을 통하여 사용자의 검색 만족도를 정량화하였고 특정 주제어에서 관련 검색어가 확장되어 가는 과정은 트리 구조로 표현하였다. 이를 통해 하나의 주제어와 관련해 연속적으로 입력된 검색어 집합으로부터 연관검색어를 추출하고 검색 결과의 정확성을 높일 수 있으며 제안된 트리 구조를 다양한 방향으로 분석하여 검색어, 검색 결과, 사용자 만족도, 배경 지식 등 단순 검색어 분석에서는 나타나지 않는 다양한 정보를 얻을 수 있다.

언어기반 게임그래픽 디자인 발상의 창의적 인지에 관한 연구 (A Study on Creative Cognition of Language based concept Generation of Game Graphics)

  • 허윤정
    • 인터넷정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.171-179
    • /
    • 2011
  • 본 연구는 디자인발상 과정에서 구글의 연관 검색어를 언어 자극으로 제공했을 경우 디자인 결과에 어떠한 결과를 주는지 그리고 그러한 과정에서 창의적 인지 과정이 어떻게 사용되는 지를 분석하였다. 디자인 발상 과정에 구글의 연관 검색어를 자극제로 5단계에 걸쳐 제공하였다. 구글 검색어는 다수의 사용자의 참여와 공헌에 의해 새롭게 재창조된 지식과 정보를 제공하는 집단지성에 기반을 두고 있다. 실험을 위해 두 가지 과제를 연관 검색어들과 함께 제공하였다. 디자인 발상실험 후 연관검색어의 사용여부와 빈도수 그리고 핀케의 12가지 제네플로어 모델이라는 3가지 기준에 의해 분석하였다. 본 연구의 결과를 요약하면 다음과 같다. 여러 단계의 연관 검색어들을 사용했으나, 초기 연관 검색어와 연관성이 높은 상위 단계의 검색어가 하위 단계의 검색어보다 더 많이 사용되었다. 또한 상위 단계와 하위 단계의 검색어들을 함께 사용했을 때 더 창의적의 결과가 나타났다. 핀케의 제네플로어 모델의 12가지 인지 과정에 따라 실험결과물을 분석한 결과 창의적 결과물은 단순히 연관 검색어를 사용하기 보다는 여러 단어들을 연합하고 변형하였으며 또한 창의적인 결과에는 12가지 인지 과정 중 개념적 해석, 기능적 추론과 맥락적 전이와 같은 인지 과정이 사용되었다.

트위터를 이용한 질의어 관련 이슈 탐지를 위한 인접도 행렬 기반 연관 어휘 추출 (Related Term Extraction with Proximity Matrix for Query Related Issue Detection using Twitter)

  • 김제상;조효근;김동성;김병만;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권1호
    • /
    • pp.31-36
    • /
    • 2014
  • 트위터와 페이스북 등의 SNS(Social Network Service)는 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하기 좋은 지식원이다. 본 논문에서는 검색 질의어에 관련된 이슈나 화제를 질의어에 대한 연관 어휘로 보고, 이를 트위터에서 추출하기 위한 방법을 제안한다. 제안하는 방법에서는 질의어와 연관성이 높은 단어는 질의어와 가까운 위치에서 자주 발생한다고 가정하고, 단어 간 거리에 반비례하고 공기 빈도에 비례하는 단어 간 인접도의 합으로 단어간 연관도를 구한다. 구해진 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다. 제안한 방법에서는 네트워크의 특성을 분석하여 복합어를 손쉽게 탐지할 수 있다.

효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법 (A Feature Selection Technique for an Efficient Document Automatic Classification)

  • 김지숙;문현정;김영지;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

비정형데이터 수집을 통한 드라마 시청률 연관어 분석 (Analysis of drama viewership related words through unstructured data collection)

  • 강선경;이현창;신성윤
    • 한국정보통신학회논문지
    • /
    • 제21권8호
    • /
    • pp.1567-1574
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 연관어 분석을 위해 정형화된 데이터와 비정형화된 데이터를 분석하는 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터는 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전 블로그와 방영후 블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 정형데이터로부터 각 방송사별 4가지 영역별에 따른 차이를 비교한 결과 방송사별 서로 유사한 결과 값을 보이고 있었다. 그리고 각 방송사의 드라마별 게시판과 블로그에서 수집된 비정형데이터로부터 출현빈도의 상관관계 분석을 통해 관련 연관어를 7개 도출하였다. 도출된 연관어는 신뢰성 분석을 통해 이루어졌다.