• 제목/요약/키워드: Skewed Data

검색결과 203건 처리시간 0.019초

A New Item Recommendation Procedure Using Preference Boundary

  • Kim, Hyea-Kyeong;Jang, Moon-Kyoung;Kim, Jae-Kyeong;Cho, Yoon-Ho
    • Asia pacific journal of information systems
    • /
    • 제20권1호
    • /
    • pp.81-99
    • /
    • 2010
  • Lately, in consumers' markets the number of new items is rapidly increasing at an overwhelming rate while consumers have limited access to information about those new products in making a sensible, well-informed purchase. Therefore, item providers and customers need a system which recommends right items to right customers. Also, whenever new items are released, for instance, the recommender system specializing in new items can help item providers locate and identify potential customers. Currently, new items are being added to an existing system without being specially noted to consumers, making it difficult for consumers to identify and evaluate new products introduced in the markets. Most of previous approaches for recommender systems have to rely on the usage history of customers. For new items, this content-based (CB) approach is simply not available for the system to recommend those new items to potential consumers. Although collaborative filtering (CF) approach is not directly applicable to solve the new item problem, it would be a good idea to use the basic principle of CF which identifies similar customers, i,e. neighbors, and recommend items to those customers who have liked the similar items in the past. This research aims to suggest a hybrid recommendation procedure based on the preference boundary of target customer. We suggest the hybrid recommendation procedure using the preference boundary in the feature space for recommending new items only. The basic principle is that if a new item belongs within the preference boundary of a target customer, then it is evaluated to be preferred by the customer. Customers' preferences and characteristics of items including new items are represented in a feature space, and the scope or boundary of the target customer's preference is extended to those of neighbors'. The new item recommendation procedure consists of three steps. The first step is analyzing the profile of items, which are represented as k-dimensional feature values. The second step is to determine the representative point of the target customer's preference boundary, the centroid, based on a personal information set. To determine the centroid of preference boundary of a target customer, three algorithms are developed in this research: one is using the centroid of a target customer only (TC), the other is using centroid of a (dummy) big target customer that is composed of a target customer and his/her neighbors (BC), and another is using centroids of a target customer and his/her neighbors (NC). The third step is to determine the range of the preference boundary, the radius. The suggested algorithm Is using the average distance (AD) between the centroid and all purchased items. We test whether the CF-based approach to determine the centroid of the preference boundary improves the recommendation quality or not. For this purpose, we develop two hybrid algorithms, BC and NC, which use neighbors when deciding centroid of the preference boundary. To test the validity of hybrid algorithms, BC and NC, we developed CB-algorithm, TC, which uses target customers only. We measured effectiveness scores of suggested algorithms and compared them through a series of experiments with a set of real mobile image transaction data. We spilt the period between 1st June 2004 and 31st July and the period between 1st August and 31st August 2004 as a training set and a test set, respectively. The training set Is used to make the preference boundary, and the test set is used to evaluate the performance of the suggested hybrid recommendation procedure. The main aim of this research Is to compare the hybrid recommendation algorithm with the CB algorithm. To evaluate the performance of each algorithm, we compare the purchased new item list in test period with the recommended item list which is recommended by suggested algorithms. So we employ the evaluation metric to hit the ratio for evaluating our algorithms. The hit ratio is defined as the ratio of the hit set size to the recommended set size. The hit set size means the number of success of recommendations in our experiment, and the test set size means the number of purchased items during the test period. Experimental test result shows the hit ratio of BC and NC is bigger than that of TC. This means using neighbors Is more effective to recommend new items. That is hybrid algorithm using CF is more effective when recommending to consumers new items than the algorithm using only CB. The reason of the smaller hit ratio of BC than that of NC is that BC is defined as a dummy or virtual customer who purchased all items of target customers' and neighbors'. That is centroid of BC often shifts from that of TC, so it tends to reflect skewed characters of target customer. So the recommendation algorithm using NC shows the best hit ratio, because NC has sufficient information about target customers and their neighbors without damaging the information about the target customers.

SNS에서의 개선된 소셜 네트워크 분석 방법 (Improved Social Network Analysis Method in SNS)

  • 손종수;조수환;권경락;정인정
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.117-127
    • /
    • 2012
  • 최근 온라인 소셜 네트워크 서비스(SNS)의 사용자가 크게 늘어나고 있으며 다양한 분야에서 SNS의 사용자 관계 구조 및 메시지를 분석하기 위한 연구를 진행하고 있다. 그러나 대부분의 소셜 네트워크 분석 방법들은 노드 사이의 최단 거리를 기초로 하고 있으므로 계산 시간이 오래 걸린다. 이는 점차 대형화 되어가는 SNS의 데이터를 여러 분야에서 활용하는데 걸림돌이 되고 있다. 이에 따라 본 논문에서는 SNS의 사용자 그래프에서 사용자간 최단거리를 빠르게 찾기 위한 휴리스틱 기반의 최단 경로 탐색 방법을 제안한다. 제안하는 방법은 1) 트리로 표현된 소셜 네트워크에서 시작 노드와 목표 노드를 설정한다. 그리고 2) 만약 목표 노드가 경사 트리의 단말에 있다면 경사 트리가 시작하는 노드를 임시 골 노드로 설정한다. 마지막으로 3) 연결의 차수를 평가값으로 하는 휴리스틱 기반 최단거리 탐색을 수행한다. 이렇게 최단거리를 탐색한 후 매개 중심성 분석(Betweenness Centrality) 및 근접 중심성(Closeness Centrality)를 계산한다. 제안하는 방법을 사용하면 소셜 네트워크 분석에서 가장 많은 시간이 필요한 최단거리 탐색을 빠르게 수행할 수 있으므로 소셜 네트워크 분석의 효율성을 기대할 수 있다. 본 논문에서 제안하는 방법을 검증하기 위하여 약 16만 명으로 구성된 SNS에서의 실제 데이터를 이용하여 매개 중심성 분석과 근접 중심성 분석을 수행하였다. 실험 결과, 제안하는 방법은 전통적 방식에 비하여 매개 중심성, 근접 중심성의 계산 시간이 각각 6.8배, 1.8배 더 빠른 결과를 보였다. 본 논문에서 제안한 방법은 소셜 네트워크 분석의 시간을 향상시켜 여러 분야에서 사회 현상 및 동향을 분석하는데 유용하게 활용될 수 있다.

농촌인구의 특성과 그 변화, 1960~1995: 인구구성 및 인구이동 (The Characteristics of Rural Population, Korea, 1960~1995: Population Composition and Internal Migration)

  • 김태헌
    • 한국인구학
    • /
    • 제19권2호
    • /
    • pp.77-105
    • /
    • 1996
  • 농촌사회의 당면한 문제는 농촌인구의 극소와 잔존인구의 성·연령별 인구구조의 왜곡에서부터 제기되므로 농촌인구의 변화추세를 검토하였다. 그리고 최근 군부로의 전입과 전출 인구를 비교하여 최근 농촌으로의 인구회귀현상의 실태를 분석하였다. 끝으로 농촌의 인구실태를 파악하기 위하여 실시한 농촌마을 조사자료를 분석하여 농촌으로 전입하는 인구의 영향을 밝혔고, 특성별 농촌마을의 장래를 예측하였다. 군부의 인구는 도시로의 인구전출이 지속되면서 젊은 연령층과 영유아의 인구구성비가 낮고 노인연령층이 두텁게 되었다. 산업화 이전단계인 1960년 군부의 0∼4세 인구구성비는 시부보다 높았으나 농촌인구의 도시전출이 누적되면서 1975년부터 시부보다 낮아졌다. 그러나 1995년의 군부 0∼4세 인구구성비가 6.2%로 5년전보다 상승하여 시부와 차가 감소되었다. 또한 1980년대 후반에 시부에서 군부로 이동하는 인구의 연령별 구성에서 20∼34세에 총이동인구의 51.8%가 집중되어 있었으며, 이들의 교육수준은 시부로의 전입인구보다 오히려 높았다. 이러한 사실은 농촌사회의 변화로 나타내게 될 것이다. 그러나 순수농촌마을이라고 할 수 있는 보은군의 농촌마을과 원래 농업중심 마을이었으나 최근에 급속히 변하고 있는 파주군의 근교농촌마을의 인구구조를 비교한 결과 최근의 농촌인구구조의 변화와 젊은 연령층의 군부로 전입하는 현상은 일부 농촌, 특히 근교농촌의 변화에 의한 현상이지 전체 농촌인구형상의 변화라고 할 수 없었다. 이들 마을 실태조사에서 밝혀진 마을 인구구조의 특성에서 우리는 산업화나 도시의 영향을 받지 않는 순수농촌마을은 거주민의 노령화가 극단적으로 진행되어 마을 자체의 존속이 어려워지는 반면에 근교 농촌마을은 농촌의 성격이 흐려지면서 도시화 내지 산업화가 진행되는 것을 알 수 있었다. 않는 임신, 성감염증, 그리고 인공유산 등의 위험으로부터 제대로 보호를 받아야 한다고 믿는다.보완하는 벤치마크 기능도 수행하기 때문이다.국의 대외 이미지 개선을 위한 적극적인 PR활동과 기업의 최고경영자 차원의 로비활동 추진으로 대미(對美)로비체제를 적극적이며 능동적으로 수행할 수 있도록 하여야 한다.였고, W.X 조국은 동쪽으로 265.2m, W.Y 조국은 북쪽으로 279.5m, 그리고 X.Y 조국은 북서쪽으로 224.3m 편위하여, Loran - C 위치가 GPS 위치보다 약 250m 더 편위 된 것을 알 수 있었다.경우 본 논문에서 계산한 각 침로교각에 대한 최소피항개시거리와 안전피항개시거리을 미리 염두해 두고 피항조선을 하게 되면, 감각에 의한 조선방법으로 야기되는 충돌해난사고를 지양 할 수 있으리라 사료된다.만도에 따른 유의적인 증가를 (p<0.05)보여주었으나 여자의 경우는 유의적인 차이가 없었다. TG의 수치는 남자의 경우 KI가 110%미만인 그룹은 $102.9\pm108.2mg/dl,$ 120% 이상인 그룹은 $112.2\pm40.0mg/dl로$ 비만도가 증가함에 따라 TG가 증가되었으나 유의적인 차이는 없었으며, 여자의 경우 유의적인 차이가 없었다. 남자의 경우 HDL-C은 비만도가 증가함에 따라 유의적으로 감소하는 경향을 보였으나(p<0.05) 여자의 경우는 유의적인 차이가 없었다. 6. 조사 대상자의 체지방량 측정결과 체기방률은 남자의 겨우 16.4% 여자의 겨우 24.0%로 나타나 여자의 체지방률이 남자보다 높았다. 7. 신체계측치, 혈압, 혈청 지질간의 상관관계를 살펴보면 TC, TG는 KI, BMI와 유의적인 양의 상관관계를 보였고 (p<0.01), HCL-C은 비체중, BMI, LBM, TBM와 유의적인 음의 상관관계를 보였으며,

  • PDF