• 제목/요약/키워드: count-based ranking algorithm

검색결과 2건 처리시간 0.015초

BERT 기반 의미론적 검색을 활용한 관광지 순위 시스템 개발 (Development of a Ranking System for Tourist Destination Using BERT-based Semantic Search)

  • 이강우;김명선;홍순구;노수경
    • 한국산업정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.91-103
    • /
    • 2024
  • 본 연구의 목적은 시맨틱 검색 기법을 활용하여 사용자 쿼리 기반의 타당한 정확도를 가진 관광지 랭킹시스템을 설계하는 것이다. 이를 위해 관광지에 대한 텍스트 리뷰 데이터 수집, 데이터 전처리 및 SBERT를 활용한 임베딩 과정을 거쳤다. 이후 유사도를 측정하고 임계값을 충족하는 데이터를 필터링한 후 카운트 기반 랭킹 알고리즘을 적용하여 쿼리와 의미적으로 유사한 순서로 관광지 순위를 도출하였다. 제안된 랭킹 알고리즘의 평가를 위해 4개의 쿼리로 실험을 진행하여 연관성이 높은 상위 5개 관광지를 도출하였다. 도출된 결과값의 비교를 위해 58,175개의 문장에 직접 라벨을 붙여 세 번째 쿼리인 혼잡도와 의미적으로 연관성이 있는지를 확인하였다. 두 결과값이 유사하여 본 연구에서 제시된 랭킹 알고리즘의 효율성이 검증되었다. 임계값 최적화, 데이터 불균형 등의 문제에도 불구하고 이 연구는 시맨틱 검색 기법을 이용하여 적은 비용과 시간으로도 사용자의 의도를 파악하여 관광지를 추천하는 것이 가능하다는 것을 보여주었다.

QualityRank : 소셜 네트워크 분석을 통한 Q&A 커뮤니티에서 답변의 신뢰 수준 측정 (QualityRank : Measuring Authority of Answer in Q&A Community using Social Network Analysis)

  • 김덕주;박건우;이상훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권6호
    • /
    • pp.343-350
    • /
    • 2010
  • 질문(Question)과 답변(Answer)을 하는 커뮤니티 기반의 지식검색서비스에서는 질의를 통해 원하는 답변을 얻을 수 있지만, 수많은 사용자들이 참여함에 따라 방대한 문서 속에서 신뢰성있는 문서를 찾아내는 것은 점점 더 어려워지고 있다. 지식검색서비스에서 기존 연구는 사용자들이 생성한 데이터 즉 추천수, 조회수 등의 비텍스트 정보를 이용하거나 답변의 길이, 자료첨부, 연결어 등의 텍스트 정보 이용하여 문서의 품질을 평가하고, 이를 검색에 반영하여 검색성능을 향상시키는 데 활용했다. 그러나 비텍스트 정보는 질의/응답의 초기에 사용자들에 의해 충분한 정보를 확보할 수 없는 단점이 있으며, 텍스트 정보는 전체의 문서를 답변의 길이, 연결어등과 같은 일부요인으로 판단해야하기 때문에 품질평가의 한계가 있다고 볼 수 있다. 본 논문에서는 이러한 비텍스트 정보와 텍스트 정보의 문제점을 개선하기 위한 QualityRank 알고리즘을 제안한다. QualityRank는 텍스트/비텍스트 정보와 소셜 네트워크 분석 기반의 사용자 중앙성을 고려하여 질문에 적합하고 신뢰성 있는 답변을 랭킹화 한다 실험결과 제안한 알고리즘을 사용했을 경우 텍스트/비텍스트 모델 보다 랭킹성능에 있어 향상된 결과를 얻을 수 있었다.