• 제목/요약/키워드: Time-based Clustering

검색결과 721건 처리시간 0.026초

무선센서네트워크에서 LEACH 라우팅 프로토콜을 적용한 파티클 센서의 에너지 효율적인 알고리즘 (The Algorithm for an Energy-efficient Particle Sensor Applied LEACH Routing Protocol in Wireless Sensor Networks)

  • 홍성화;김훈기
    • 한국시뮬레이션학회논문지
    • /
    • 제18권3호
    • /
    • pp.13-21
    • /
    • 2009
  • 무선 센서 네트워크 환경에서 네트워크를 구성하는 센서 노드들은 라우팅 및 센싱 역할을 함께 수행해야 하기 때문에 각 센서 노드들은 항상 에너지 부담을 가지고 있다. 이러한 무선 센서 네트워크에 사용되는 센서는 무인으로 동작 되거나 사람이 접근하기 힘든 환경에서 동작하는 경우가 대부분이다. 또한 다량의 센서를 배치하여 무선 센서 네트워크를 형성 하는 경우가 많아 센서 노드의 크기가 작아야 하고, 가격이 저렴해야 하므로 노드에 공급할 수 있는 전원의 양과 데이터 처리 능력에 제한이 있게 된다. 본 논문에서는 무선 센서 네트워크 환경에서 센서 노드의 전력 소모를 줄이고, 망을 효율적으로 관리할 수 있는 알고리즘과 효율적인 라우팅 프로트콜을 제안하고, 제안한 알고리즘을 LEACH 프로토콜에 적용시켜 에너지 효율성을 검증하였다. Particle Sensor에서 이전 주기에 측정된 값과 현재 주기에 측정된 값을 비교하여 현재 측정된 값이 작거나 같으면 먼지가 감소하고 있다고 가정하고 다음 주기에 sleep모드를 설정해 주어 센서 노드의 에너지 소비를 줄여주는 알고리즘이다. 제안한 알고리즘의 시뮬레이션 결과를 보면 센서 노드의 에너지 소모를 향상시켜 주었고, LEACH 라우팅 프로토콜에 적용시킨 결과 네트워크의 수명을 향상 시켰다.

Analyzing the Factors of Gentrification After Gradual Everyday Recovery

  • Yoon-Ah Song;Jeongeun Song;ZoonKy Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.175-186
    • /
    • 2023
  • 본 연구는 단계적 일상회복 이후 상권 회복세와 함께 임대료가 급상승한 시점에 주목하여 젠트리피케이션 분석 모형을 구축하고 그 특징을 살펴보는 것이 목적이다. 최근 국내에서는 팬데믹 이후 거리두기의 영향으로 대규모 상권보다는 소규모 상권이 형성되었다. 바로 핫플레이스라고 알려진 골목상권이다. 핫플레이스는 다양한 미디어와 사회관계망서비스를 통해 집객효과를 누리며 인기를 끌고 있다. 그에 따라 유동인구가 증가하면서 상권이 활성화 되고 임대료가 급상승하는 현상이 발생하고 있다. 하지만 소상공인의 경우 임대료 급상승은 매출 증가로도 감당하지 못해 해당 지역을 이탈하는 젠트리피케이션 현상으로 이어질 수 있다. 따라서 본 연구에서는 상권이 다시 활성화되면서 임대료가 급상승하는 시점을 찾아 그 이전과 이후를 분석하고자 한다. 먼저 젠트리피케이션에 관련하여 언급되는 토픽을 탐색하기 위해 텍스트 데이터를 수집한 후 LDA 토픽 모델링을 실시한다. 이를 참고하여 상권 단위로 데이터를 수집하고 젠트리피케이션 분석 모형을 구축한 다음 특징을 분석한다. 팬데믹으로 상권이 침체된 이후 재활성화 되고 있는 시점에 본 모형을 통한 젠트리피케이션 분석이 소상공인 정책에 기여할 수 있기를 바란다.

도시 건조환경 유형에 따른 서울시 주간 지표면 온도 변동성 분석: ECOSTRESS 데이터의 활용 (Examining Diurnal Thermal Variations by Urban Built Environment Type with ECOSTRESS Land Surface Temperature Data: Evidence from Seoul, Korea)

  • 전규원;박유진
    • 지역연구
    • /
    • 제40권2호
    • /
    • pp.107-130
    • /
    • 2024
  • 도시의 지표면 기온 변화는 도시민의 열 쾌적성, 에너지 소비, 나아가 건강에 영향을 미치는 주요한 환경요인이다. 많은 연구가 도시 지표면 기온과 도시 건조환경(built-environment) 형태 간의 관계를 탐색해 왔으나 대부분 극궤도위성 자료를 사용해 정오 시간대 기온만을 분석하였다. 본 연구는 다양한 시간대 지표면 기온을 관측하는 ECOSTRESS 위성 자료를 활용하여 서울시 여름철 지표면 기온의 주간 변동을 탐색하였으며 기온 변동이 건조환경 유형별로 차별적으로 나타나는지 분석하였다. ECOSTRESS는 2018년 발사된 NASA 위성으로 점진 변화 궤도를 운항하며 다양한 시간대 지표면 온도를 70m 고해상도로 관찰한다. 본 연구는 2019~2022년 이른 오전(6:25AM)과 늦은 오후(5:26PM)에 걸친 자료를 수집하여 서울시 지표면 온도의 시계열 자료를 구축하였다. 환경 특성을 반영하는 녹지, 수면, 건축 형태(건폐율, 용적률, 높이) 데이터를 기반으로 계층적 군집분석을 실시해 8가지 건조환경 유형을 도출하였으며, 유형별 온도변동 특성을 비교하였다. 각 유형은 저층고밀거주지(low-rise compact), 저밀아파트단지(low-BCR Apt.), 강변 중고층 주거단지(Riverside Mid-rise Apt.), 중고층 용도혼합지역(mid-to-high-rise mixed use), 고층고밀지역(high-rise compact), 초고층빌딩(skyscrapers), 산림, 수면(하천)을 나타내었다. 분석 결과, 지표 기온의 공간적 격차는 새벽 이후 증가하여 정오(12:04)에 극대화된 뒤 다시 감소하였으며, 기온 변화가 급격한 지역과 안정적인 지역이 구분되었다. 저층 고밀 거주지와 고층 고밀지역의 경우 기온이 빠르고 높게 증가하여 기온변동성이 높았고, 저밀 아파트단지는 기온이 온화하고 완만하게 증가하며 기온 변동성이 낮았다. 건조환경 유형 간 평균기온의 서열은 시간별로 변화하지 않고 유지되었다. 이러한 결과는 폭염과 일교차 증가에 적응할 수 있는 도시형태에 시사점을 제공한다.

스캔통계량 분석을 통한 상수도 누수 및 수질 민원 발생 클러스터 탐색 (Cluster exploration of water pipe leak and complaints surveillance using a spatio-temporal statistical analysis)

  • 이주원;김은주;남숙현;황태문
    • 상하수도학회지
    • /
    • 제37권5호
    • /
    • pp.261-269
    • /
    • 2023
  • In light of recent social concerns related to issues such as water supply pipe deterioration leading to problems like leaks and degraded water quality, the significance of maintenance efforts to enhance water source quality and ensure a stable water supply has grown substantially. In this study, scan statistic was applied to analyze water quality complaints and water leakage accidents from 2015 to 2021 to present a reasonable method to identify areas requiring improvement in water management. SaTScan, a spatio-temporal statistical analysis program, and ArcGIS were used for spatial information analysis, and clusters with high relative risk (RR) were determined using the maximum log-likelihood ratio, relative risk, and Monte Carlo hypothesis test for I city, the target area. Specifically, in the case of water quality complaints, the analysis results were compared by distinguishing cases occurring before and after the onset of "red water." The period between 2015 and 2019 revealed that preceding the occurrence of red water, the leak cluster at location L2 posed a significantly higher risk (RR: 2.45) than other regions. As for water quality complaints, cluster C2 exhibited a notably elevated RR (RR: 2.21) and appeared concentrated in areas D and S, respectively. On the other hand, post-red water incidents of water quality complaints were predominantly concentrated in area S. The analysis found that the locations of complaint clusters were similar to those of red water incidents. Of these, cluster C7 exhibited a substantial RR of 4.58, signifying more than a twofold increase compared to pre-incident levels. A kernel density map analysis was performed using GIS to identify priority areas for waterworks management based on the central location of clusters and complaint cluster RR data.

소비자의 라이프스타일에 따른 서비스품질 지각 차이에 관한 연구 (A Study on the Consumer's Service Quality Perception Based on the Types of Life-style)

  • 박윤서;이승인;최인
    • 마케팅과학연구
    • /
    • 제19권2호
    • /
    • pp.53-67
    • /
    • 2009
  • For the last decades, service quality has been studied as one of the most important tools for a service company to compete with the other companies. Based on these past researches, it has been agreed that the service quality is a basic and powerful tool to create the competitive advantage. Due to similar reason, many service marketing practitioners have been also focused on the service quality to retain the existing consumers and collect the new consumers. However, service quality is subjectively perceived by individual consumers. Consumer evaluation of service quality can be different from each other. Especially consumers with one life-style may evaluate the service quality differently from the consumers with the other life-styles. Therefore we need to know whether there are differences in service quality perception on the categories of life-style. Life-style refers to a distinctive mode of living in its aggregate and broadest sense. It embodies the patterns that were developed and emerged from the dynamics of living in a society. Since the concept of life-style and its relationship to marketing was introduced in 1963 by William Lazer, methods of measuring the life-style and their application have been developed. Life-style has been usually used to segment the marketplace because it offers marketers a unique and important view of the market. When Life-style is combined with clustering methods, life-style segmentation can generate identifiable whole persons rather than isolated fragment. Life-style segmentation begins with people instead of products and classifies them into different life-style types, each characterized by a unique style of living based on a wide range of activities, interests, and opinions(Plummer, 1974). In this study we applies the life-style segmentation based on the AIO(Activities, Interests, and Opinions) to the consumers of the large discount stores. In Korea, the large discount store market has entered into maturity stage so that the market differentiation strategy is becoming a more critical issue to the marketing practitioners. One of the most important tools to differentiate from the competitors in large discount store market is continuously to provide service of better quality than competitors. This study tries to find answers about the following questions: 1) How can we categorize the consumer life-styles in the large discount store? 2) What are the characteristics of the categorized groups? 3) Are there any differences in service quality perception among the consumers with different life-styles 4) Are there any differences in consumer behavior among them in the large discount store? For the purpose, we collected survey data from consumers and analyzed the data with the SPSS package where we had $X^2$-test, factor analysis, ANOVA, MANOVA, and cluster analysis. The survey was made during one month in the April of 2008. Among the collected 306 copies of questionnaires, 281 copies were chosen as the effective samples for empirical analysis except 25 copies with wrong responses. To identify the life-style patterns, we used the measures employed by Kim and Kwon(1999), where 44 items on a seven-point scale were used to measure factors of the life-style patterns. The Principal Component Method was used for factor extraction, and the VARIMAX orthogonal factor rotation was employed. The 7 items showing low factor loading were eliminated. The results of the factor analysis suggested that nine factors of the life-style patterns were identified as follows: 1) the equality-of-sexes and pursuit-of-independence tendency 2) self-management tendency 3) sociable tendency 4) self-display tendency 5) degree of a dilettante life 6) pursuit-of-information tendency 7) bargain hunter tendency 8) TV preference tendency 9) pursuit-of-leisure tendency. Next, after the K-means cluster analysis was performed with nine factors of the life-style patterns, the life-styles of the respondents were classified into four groups which are named as the 'progressive practicality-oriented group', 'positive success-oriented group', 'sociable ostentation-oriented group', 'stable conservation-oriented group'. The analysis results for usage behavior between the market segments showed statistically significant differences in the frequency of usage, duration time in the store, consumer satisfaction, and loyalty. Also, we tried to investigate whether the large discount store consumers differently perceive the quality of service based upon the types of life-style. To measure the service quality of large discount store, we adapted several measurement models measuring the service quality such as SERVPERF, BCP, R-SERVPERF, R-BCP. MANOVA and One-Way ANOVA were performed to confirm the difference in service quality perception based on the market segments. The results have also shown significant differences between life-style types in service quality perception. These findings show that the large discount store marketers should consider consumer life-style as one of the most important market segments for marketing and understand the difference in service quality perception between life-style types. Our findings give important implications to marketers of large discount stores as well as life-style researchers. First, this study showed there were significant differences in consumer's service quality perception and usage behavior between the types of life-style. It provides evidence that the life-style approach can be a important basis in segmenting the large discount store market and will make consumers perceive the service quality high. Second, most previous researches on service quality have been in aggregate level. However, our results imply that the future research on service quality have to focus on segment level.

  • PDF

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

몬데카를로 기반 치료계획시스템의 성능평가 (Benchmark Results of a Monte Carlo Treatment Planning system)

  • Cho, Byung-Chul
    • 한국의학물리학회지:의학물리
    • /
    • 제13권3호
    • /
    • pp.149-155
    • /
    • 2002
  • 최근 들어 방사선 수송이론, 컴퓨터 하드웨어 성능, 및 병렬 연산 기법의 발전에 힘입어, 몬테카를로 기반의 선량계산 기법을 임상에 적용할 수 있게 되었다. 임상적용을 위해 개발된 몬테카를로 기반 선량계산 코드간의 계산 소요 시간과 정확도를 비교할 목적으로 제13차 ICCR (International Conference on the use of Computers in Radiation Therapy, Heidelberg, Germany, 2000) 학술대회에서 벤치마킹 절차서가 제안되었다. 최근, 본원에서도 임상적용을 목표로 28개의 인텔 펜티움 프로세서로 구성된 Linux cluster 시스템을 구축하고, 여기에 몬테카를로 선량계산을 위한 BEAMnrc 코드를 설치하였다. 본 연구의 목적은 위에서 제안된 벤치마킹 절차를 수행하여 본원에서 구축한 몬테카를로 선량계산 시스템의 정량적 성능 평가를 시도하고자 하는 것이었다. 벤치마킹 절차는 크게 다음의 세 과정으로 구성되어 있다. a) 30.5 cm $\times$ 39.5 cm $\times$ 30 cm 의 팬톰(5 ㎣ voxels) 에 대한 통계적 불확정도 2%이내 결과를 얻기 위한 광자선 선량계산 속도. b) 위 팬톰에 대한 전자선의 선량계산 속도. c) 비균질 평판 매질로 구성된 팬톰내 광자선 및 전자선의 선량계산 결과를 EGSr/PRESTA 계산 결과와 비교 제시. 18 MV 광자선에 대해 선량계산 속도 평가 결과 5.5분이 소용되었다. 전자선의 경우, 실제 계산 시간은 광자선에 비해 약 10배 정도 빨랐으나, 병렬 연산을 처리하기 위해 소용되는 추가 시간 때문에 전체 계산에 소요되는 시간은 광자선과 비슷하였다. 본 원에서 사용한 몬테카를로 코드는 EGSnrc로써 EGS4의 개선 버전으로 이들 간의 정확도 비교는 큰 의미가 없을 것으로 판단된다. 하지만 두 계산 결과가 기대했던 바와 같이 매우 잘 일치하였다. 결론적으로, 본원에서 구축한 몬테카를로 치료계획시스템은 임상적용에 무리가 없을 것으로 판단하였다. 추후 본 시스템을 본원에서 사용하는 상용 치료계획시스템과 인터페이스를 개발하여, 통합환경을 구축함으로써, 몬테카를로 기반의 치료계획시스템의 임상적용과 관련된 연구들을 수행해 나갈 계획이다.

  • PDF

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

국내 프로축구 팬들의 유니폼 소비 분석: 손흥민의 토트넘 홋스퍼 FC 이적 전후 비교 (Analysis of Football Fans' Uniform Consumption: Before and After Son Heung-Min's Transfer to Tottenham Hotspur FC)

  • 최영현;이규혜
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.91-108
    • /
    • 2020
  • 박지성 선수의 2005년 맨체스터 유나이티드 FC 입단 이후로, 국내에서 프로축구 유니폼 시장이 본격적으로 성장하기 시작했다. 이후, 국내 선수들의 해외 리그에서 활약이 계속되면서 국내에서도 잉글랜드 프리미어리그에 대한 대중의 관심이 지속되고 있다. 이러한 시점에서 본 연구는 국내 프로축구 팬들의 유니폼 소비에 전반적인 소비자 인식을 알아보고, 선수의 영입에 따른 소비자 인식 변화를 비교하고자 했다. EPL의 토트넘에서 활동하고 있는 손흥민 선수의 영입 전후를 중심으로 소셜 미디어에 나타난 프로축구 팬들의 소비자 인식과 구매 요인을 알아보았다. 'EPL 유니폼'을 키워드로, 국내 포털사이트와 소셜 미디어의 게시글을 수집하고, 텍스트 마이닝, SNA, 회귀분석을 사용하여 분석했다. 연구 결과, 첫째, 선수의 소속 팀, 실적, 포지션과 구단의 실적, 순위, 리그의 우승 여부가 프로축구 유니폼의 구매와 탐색에 있어 주요 요인으로 확인되었다. 가격, 디자인, 사이즈, 로고 등과 같은 항목보다 유니폼의 형태, 마킹, 정품 여부, 스폰서와 더 중요하게 작용하고 있었다. 둘째, 구조적 등위성 분석과 군집분석을 통해 국내 프로축구 팬들 사이에서 유니폼과 관련되어 언급되고 있는 주요 주제를 알아본 결과, EPL에 소속된 구단과 유명 선수들이 가장 핵심적인 주제로 나타났다. 셋째, 프로축구 유니폼에 대한 시기별 주제는 월드컵과 EPL 리그에 대한 관심에서 EPL에서 활동하는 다양한 국내외 선수들에 대한 관심으로, 2015년 이후에는 유니폼 자체에 대한 것으로 주제가 변화했다. 이를 통해, 선수들의 이적에 따라 선수가 소속된 해당 구단의 유니폼이 관심을 받고 있음을 알 수 있었다. 넷째, 남녀 소비자 모두 손흥민에 대한 관심이 증가함에 따라서 토트넘이 소속된 리그인 EPL에 대한 관심도 증가하는 것으로 나타났다. 여성의 경우 손흥민에 대한 관심이 증가함에 따라 축구 유니폼에 대해서도 관심을 가지는 것으로 나타난 반면, 남성의 경우 손흥민 선수에 대한 관심과 축구 유니폼에 대한 관심 사이의 관계가 유의하게 나타나지 않았다. 각 구단은 선수와 구단의 성적과 이미지 관리, 스폰서 브랜드 관리에 집중하고, 선수의 이적이 결정되면 선수의 자국에 해당 물량의 공급을 늘리며, 인기를 끌고 있는 선수의 등번호가 부착된 유니폼의 경우에는 여성을 위한 다양한 사이즈를 제공해야 할 필요가 있다.