• 제목/요약/키워드: 자카드 계수

검색결과 11건 처리시간 0.029초

Jaccard Index Reflecting Time-Context for User-based Collaborative Filtering

  • Soojung Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.163-170
    • /
    • 2023
  • 추천 시스템의 구현 방식들 중 하나인 사용자 기반의 협력 필터링 기법은 유사한 평가 이력을 가진 이웃 사용자들의 산출을 기반으로 하여, 이들의 선호 항목들을 추천한다. 그러나 공통된 평가 이력이 적을 경우에 추천의 질이 현저히 저하되는 데이터 희소성 문제를 근본적으로 갖고 있다. 이러한 문제의 해결을 위하여 많은 기존 연구에서 자카드 계수를 유사도 척도와 접목하는 다양한 방법들을 제안해 왔다. 본 연구에서는 자카드 계수에 시간 인지 개념을 도입하여 공통 항목의 평가 시간에 따라 다른 비중으로 가중합하는 방안을 제시한다. 다양한 성능 척도와 시간 주기를 활용하여 실험을 수행한 결과, 제안 방법이 대부분의 척도에서 원래의 자카드 계수에 비해 가장 우수한 성능을 보였으며, 최적의 시간 주기는 성능 척도의 종류에 따라 다름을 확인하였다.

Applying Different Similarity Measures based on Jaccard Index in Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권5호
    • /
    • pp.47-53
    • /
    • 2021
  • 희소한 평가 데이터는 사용자들 간의 신뢰할만한 유사도 산출을 저해하기 때문에 추천 시스템을 위한 메모리 기반의 협력 필터링 기법의 성능을 저하시킨다. 기존 연구의 많은 결과물은 이 데이터 희소성 문제를 해결하기 위해 개발되었으며, 가장 단순하고 대표적인 업적은 자카드 계수를 활용하는 방법들이다. 이 계수는 두 사용자의 공통 평가 항목수를 반영하며, 그들 간의 유사도를 보다 정확하게 계산하기 위해 전통적인 유사도 척도와 통합된다. 그러나, 그러한 통합은 데이터 희소성의 정도를 고려하지 않은 매우 단순한 방법이다. 본 연구는 두 사용자의 자카드 계수값에 의거하여 다른 유사도 척도를 적용하는 새로운 아이디어를 제시한다. 제안 방법에서 사용하는 파라미터의 최적값을 구하기 위하여 성능 실험을 진행하였고, 다른 관련된 방법들과 비교 평가하였다. 결과로서, 제안 방법은 예측 정확도와 추천 정확도에 있어서 가장 우수하거나 대등한 성능을 보였다.

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

유사계수에 따른 전역적 질의확장 검색 성능 비교 (Comparing the Performance of Global Query Expansion according to Similarity Measures)

  • 이재윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

OPAC에서 탐색결과의 클러스터링에 관한 연구 (The Effectiveness of Hierarchic Clustering on Query Results in OPAC)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제38권1호
    • /
    • pp.35-50
    • /
    • 2004
  • 본 연구는 한글 OPAC에서 문헌의 분류와 브라우징에 적합한 정적 계층클러스터링 모형이 서명단어 탐색으로 검색된 탐색결과를 클러스터링하는데도 효과적인지를 규명하기 위해 수행되었다. 서명에 출현하는 단어와 색인자가 부여한 통제어를 통합한 색인어를 이진빈도로 가중치를 주어, 다이스와 자카드 계수, 집단 간 평균연결과 완전연결 클러스터링 기법이 테스트되었다. 16개의 서명단어 탐색으로 검색된 문헌을 클러스터링한 결과 최적으로 선택된 클러스터의 정확률은 유사도 계수나 클러스터링 기법에 관계없이 서명단어탐색보다 100%이상 향상되었다. 1단계와 최종단계 클러스터링 모두에서, 정확률 측면에서는 완전연결이, 재현을 측면에서는 집단 간 평균연결이 더 효과적이었으나 통계적으로 유의한 수준은 아니었다. 1단계 클러스터에서 집단 간 평균연결이 보다 높은 재현율을 보인 것은 유의하였다. 다이스와 자카드 사이에 차이는 없었다. 최종클러스터가 선택되기까지 집단 간 평균연결은 너무 긴 계층군집 단계를 필요로 하여 탐색효율 측면에서 바람직해 보이지 않았다.

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF

비디오 영상에서 사전정보 기반의 도로 추적 (Road Tracking based on Prior Information in Video Sequences)

  • 이창우
    • 한국산업정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.19-25
    • /
    • 2013
  • 본 논문에서는 실 도로 환경에서 획득한 영상으로부터 도로 영역을 추적하는 방법을 제안한다. 제안된 방법은 이전 처리 결과로부터 미리 알려진 정보를 이용하여 현재 영상에서 도로를 검출하고 추적하는 방법이다. 제안된 방법은 시스템의 효율을 위해 연속적인 입력 영상에서 하위 60%이내에 도로가 있다고 가정하여 관심의 대상이 되는 영역(Region of Interest, ROI)을 설정하고 이 영역에서만 도로를 검출하고 추적한다. 최초 분할은 플러드필 알고리즘(Flood-fill algorithm)을 수행한 결과로부터 주위 영역과의 유사성을 평가한 후 병합하여 분할한다. 사전 정보로 사용되는 이전 영상에서 분할 결과에서 시드점(Seed Point)을 추출하고 이 시드점을 기준으로 현재 영상을 분할한다. 이전 영상에서 분할된 도로 영역과 현재 영상에서 분할된 결과를 변형된 자카드 계수(Jaccard coefficient)를 이용한 유사도 측정 결과에 따라 다음 영상에서 도로영역을 정제하고 추적한다. 연속적인 입력 영상을 대상으로 실험한 결과는 잡음이 존재하는 영상에서도 도로를 추적하는데 효과적임을 보여준다.

지화학 자료의 확률론적 불확실성 및 위험성 분석을 위한 지시자 지구통계학의 응용 (Application of Indicator Geostatistics for Probabilistic Uncertainty and Risk Analyses of Geochemical Data)

  • 박노욱
    • 한국지구과학회지
    • /
    • 제31권4호
    • /
    • pp.301-312
    • /
    • 2010
  • 지화학 자료는 환경 관리를 위한 중요한 환경 변수중 하나로 인식되어 왔다. 지화학 자료는 보통 공간적으로 산재되어 수집되기 때문에, 샘플링 되지 않은 지점에서의 속성값 예측과 더불어 부가적인 분석을 위해 예측에 수반되는 불확실성을 추정할 필요가 있다. 이 논문은 지시자 지구통계학이 지화학 자료의 공간적인 분포값의 제시뿐만 아니라 의사결정을 보조할 수 있는 정보를 제공하기 위해 유용하게 사용될 수 있는지를 예시하고자 한다. 카드뮴 자료의 추정사례 연구를 통해 확률론적 불확실성 모델링, 위험성 분석 등 지구통계학적 분석의 틀을 제시하였다. 지시자 크리깅을 통해 조건부 누적 분포 함수를 모델링한 후에, 기대값 추정치와 조건부 분산을 카드뮴의 추정값과 정량적 불확실성 추정을 위해 각각 계산하였다. 그리고 확률 임계치와 속성 임계치의 적용을 통해 오염/비오염 지역을 구분하였다. 또한 조건부 분산과 속성값과 임계치값의 차이를 모두 설명할 수 있는 변동 계수를 통해 추가적인 샘플링 지점을 추출하였다. 이 연구에서 적용한 지시자 지구통계학적 분석 틀은 불확실성을 고려한 의사 결정과 관련하여 지화학 자료를 포함한 환경 변수의 분석에 유용하게 사용될 수 있을 것으로 기대된다.

등산로 탐지를 위한 KOMPSAT 영상의 활용가능성 (Applicability for Detecting Trails by Using KOMPSAT Imagery)

  • 배진수;임종서;신영호
    • 대한지리학회지
    • /
    • 제50권6호
    • /
    • pp.607-619
    • /
    • 2015
  • 산지에서의 등산로에 대한 현황파악은 적절한 관리방안을 도출하는 데 있어 중요한 요소이다. 이 연구에서는 등산로 탐지 결과의 활용가능성 평가를 통해 등산로의 현황 파악을 위한 KOMPSAT 영상의 활용 방안을 모색하였다. KOMPSAT 영상 중에서 서로 다른 공간해상도를 갖는 K2와 K3 영상을 선택하였다. 각 영상에 대해 NDVI와 SAVI 및 SC 등의 영상처리 자료를 구축하였으며, 이후 객체 기반 분석과 네트워크분석을 통해 등산로 탐지를 수행하였다. 탐지된 결과를 토대로 다양한 평가지표를 통해 정량적으로 평가하였다. 탐지에 사용된 영상과 이후 분석절차에 따라 평가지표는 차이가 나타났다. K3 영상에 SC를 활용한 경우에 평가지표들이 가장 높게 나타났으며(정확성 0.44, 완전성 0.54, F측정치 0.49, 자카드 계수 0.32), 영상처리 결과 자료 중 SC를 활용한 경우와 해상도가 높은 K3 영상을 활용한 경우 높은 평가지표들이 도출되는 경향이 있었다. 전반적으로 탐지 결과에 대한 평가지표들은 높지 않아 KOMPSAT 영상만을 활용해 등산로 탐지를 하는 것은 한계가 존재하지만, 주기적인 자료의 축적 용이성과 비용효율성의 측면을 고려해 볼 때, 등산로 현황 파악을 위한 다른 방법들과 함께 활용된다면 충분히 가치가 있다고 판단된다.

  • PDF

키워드 네트워크의 클릭 분석을 이용한 특허 데이터 분석 (Patent data analysis using clique analysis in a keyword network)

  • 김현;김동건;조진남
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1273-1284
    • /
    • 2016
  • 본 연구에서는 기계 학습 분야의 특허를 수집하여 키워드 네트워크를 구축하고 클릭 분석을 실시하였다. 먼저 텍스트 마이닝 기법을 적용하여 핵심 키워드들을 선정한 다음, 이 키워드를 기반으로 키워드 네트워크를 구축하였다. 다음으로 네트워크 구조 분석, 중요 키워드 분석 및 클릭 분석을 시행하여 2005년도와 2015년도에 출원된 기계 학습 특허의 동향을 파악하였을 뿐만 아니라 양해년도의 분석 결과를 통해 특허 경향을 파악하였다. 분석 결과 기계 학습 특허의 키워드 네트워크는 밀도와 군집 계수가 낮은 것으로 드러났으며 기계 학습 기법 자체에 대한 특허보다는 다양한 응용 영역에서 기계학습을 적용한 특허들이 다수이기 때문으로 판단된다. 클릭 분석 결과 2005년도 클릭 분석에 의해 발견된 주제는 뉴스메이커 검증, 상품 소비 예측, 바이러스 공격 예방, 바이오마커, 그리고 워크플로우 관리였으며, 2015년도 기계 학습 특허 주제는 디지털 이미지 편집, 직불카드, 수신자 인라이닝 시스템, 유방 촬영 시스템, 재고 관리 시스템, 이미지 편집 시스템, 비행기 티켓 가격 예측, 그리고 문제 예측 시스템으로 나타났다. 2005년도에 비하여 2015년도의 근접 중앙성은 낮아지고 매개 중심성은 높아진 것으로 보아 최근의 특허 경향은 보다 다양한 분야에서 출원되고 있으며 이들 간의 연결이 활발해지고 있음을 알 수 있다. 클릭 분석은 클릭을 형성하는 키워드 집합을 해석하여 주제를 파악하는데 활용될 수 있을 뿐만 아니라 추출된 공유 멤버쉽 키워드 집합은 특허 검색 시스템과 같이 키워드 검색 기반의 시스템에서 검색 키워드로 활용될 수 있을 것으로 기대된다.