• 제목/요약/키워드: term clustering

검색결과 177건 처리시간 0.028초

시계열 군집분석을 통한 디지털 음원의 순위 변화 패턴 분류 (Derivation of Digital Music's Ranking Change Through Time Series Clustering)

  • 유인진;박도형
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.171-191
    • /
    • 2020
  • 본 연구는 현대 사회에서 가장 가치 있는 문화자산이자 한류의 흐름에서 특히 중요한 위치를 차지하는 디지털 음악에 초점을 두었다. 디지털 음악에 대하여 공신력 있는 음원 차트인 '가온 차트'에 진입한 음원들의 73주간 순위 변화를 수집하였으며 유사한 특징을 가지는 패턴들로 분류하였다. 이후 각 순위 변화 패턴으로부터 주목할 만한 특징에 대한 설명적 분석을 수행하였다. 구체적으로 음원에 대한 신뢰도 이슈가 발생하기 이전 기간의 국내 발매된 디지털 음원들로 한정하여 시점을 일치시킨 후 시계열 군집분석을 통해 패턴을 도출하고자 하였다. 데이터 수집과 전처리를 통하여 742건의 중복되지 않는 음원들을 확보하였고, 시계열 순위 변화에 대한 시계열 군집분석 결과 16개의 패턴들이 도출되었다. 이후 도출된 패턴들을 기반으로 '스테디셀러'와 '원 히트 원더'의 두 가지 유형의 대표적인 패턴을 확인하였다. 나아가 두 패턴에 대하여 차트 내에서 음원의 생존 기간과 음원 순위에 관점에서 다섯 가지의 세분화된 패턴으로 분류하였다. 각 패턴들이 가지는 중요한 특징들은 다음과 같다. 원 히트 원더형 패턴에서 아티스트의 슈퍼스타 효과와 편승효과가 강하게 나타났으며, 소비자들의 디지털 음원 선택에 강한 영향을 미친다는 것을 확인하였다. 나아가 스테디셀러형 패턴을 통해서 매우 오랜시간 소비자들의 선택을 받는 음원들을 확인하였고, 소비자의 니즈를 관통하며 가장 많은 선택을 받는 음원들이 오히려 원 히트 원더형 패턴이 아니라 스테디셀러: 중기 패턴에 포진하고 있음을 확인하였다. 특히 주목할 만한 점은 스테디셀러형 패턴을 통해 기존의 패턴과는 상반되는 '차트 역주행' 현상을 확인했다는 것이다. 본 연구는 디지털 음원을 중심으로 상대적으로 소외되었던 분야인 시간의 흐름에 따른 음원의 순위 변화에 초점을 두었고, 음원의 흥행과 순위를 예측하는 것이 아니라 순위 변화의 패턴을 세분화함으로써 음원 연구에 대한 새로운 접근을 시도하였다는 점에서 의의가 있다.

유기농 토양의 화학적 특성 및 미생물상 연구 (Study on Characteristics of Chemical Properties and Microbial Flora of Organic Farming Soil in Korea)

  • 박광래;스가 유코;홍승길;이초롱;안민실;김석철;하시모토 토모요시
    • 유기물자원화
    • /
    • 제24권4호
    • /
    • pp.77-83
    • /
    • 2016
  • 유기농 밭 토양의 특성을 파악하기 위해 유기농 인증을 받은 국내 15개 선도 농가를 선정하고, 밭 토양의 시료를 채취하여 유기농 인증토양에 대한 토양 이화학성 및 미생물상 조사를 실시하였다. 토양 이화학성중 pH는 4.9~7.3의 범위에서 변동하였다. 대부분의 작물은 6.0~7.0의 범위를 나타냈지만, 전남의 양파와 고구마 재배토양은 pH 4.5, 5.8의 산성을 나타내었으며, 경기의 마늘과 고추 그리고 전북의 대두 재배토양에서는 pH 7.2~7.3을 나타냈다. 이러한 토양의 알칼리화는 시용 자재에 의한 것으로 추정되었다. EC는 대부분의 조사 지역에서 관행 토양의 기준인 2 dS/m 보다 낮은 값을 보였지만, 일부 배추와 고구마 재배 토양에서는 3.9과 3.7을 나타냈다. 유효태 인산 함량은 재배 작물의 종류에 따라 크게 달라 관행 토양의 기준인 $300{\sim}500mg\;kg^{-1}$에서 크게 벗어난 $300{\sim}1,894mg\;kg^{-1}$을 나타내었다. 이것은 유기 재배 토양에는 화학 비료 대신 가축분 퇴비를 대량으로 시용하기 때문으로 추정되었다. 미생물 군집 구조 분석은 세균의 16S rDNA 및 사상균의 18S rDNA의 PCR-DGGE 분석을 실시하였다. DGGE 패턴에 기반 클러스터 분석 결과, 재배경력에 따라 5년 이하와 5년 이상으로 구분되어 재배이력이 길어질수록 토양 세균 군집이 차별화 되어 장기 유기농경지의 토양 특성 구분이 가능하였으나 사상균의 경우는 재배이력 및 지역별로 일정한 경향이 나타나지 않았다. 따라서, 유기농경지의 미생물적 특성을 구분할 때 5년 이상된 장기재배 토양을 대상으로 세균의 군집분석을 실시하는 것이 매우 효과적일 것으로 판단된다.

주성분분석과 군집분석을 이용한 장기 물수요예측과 활용 (Estimation of Long-term Water Demand by Principal Component and Cluster Analysis and Practical Application)

  • 구자용;유명진;김신걸;심미희;소천명
    • 대한환경공학회지
    • /
    • 제27권8호
    • /
    • pp.870-876
    • /
    • 2005
  • 서울 중심부인 종로구와 중구를 대상으로 하여 거주인구수와 영업용 연상면적을 독립변수로 하는 물수요 예측식을 만들었다. 그런데 명확한 물수요 증가요인인 거주인구수가 감소요인으로 나오는 적절하지 못한 결과를 보여주었으며, 이것은 지역특성별 분류가 이루어지지 않았기 때문이었다. 이러한 모순점을 해결하기 위해 6가지의 지역특성을 이용한 주성분분석과 군집분석으로 지역을 분류하였다. 6가지 인자들을 대상으로 한 주성분분석결과 4번째 주성분까지의 고유값 누적이 92.6%로서 원래 인자들이 가지고 있던 정보량을 대부분 표현할 수 있었으며, 군집분석은 워드방법(Ward's method)으로 대상지역을 주거와 상업지역으로 분류하였다. 이에 각각의 지역에 대해 중회귀 모델을 구성하였으며, 모델결과 이전에 발생하였던 모순점이 해결되었다. 또한 이 모델을 대상으로 세 가지의 장래 시나리오인 적극적인 개발, 중간적인 개발, 소극적인 개발로 나누어서 장래 물수요량을 예측하여 보았다. 이에 적극적인 개발이 $89,033\;m^3$/일, 중간적인 개발이 $49,077\;m^3$/일, 소극적인 개발이 $19,996\;m^3$/일의 증가량을 보여주었다. 이에 대해 관할 정수장과 배수지를 대상으로 시설용량을 평가하였으며, 관할 D정수장의 경우 운전율을 85%로 높여주면 시나리오에 따른 물수요 증가량을 충분히 공급하여 줄 수 있었다. 배수지에 있어서도 D, A, N, B 등 네 개의 관할 배수지에 대해서 체류시간을 계산한 결과, D와 A배수지는 모두 기준시간 12시간을 충족시켜주었으나, N, B 배수지는 만족시켜 주지 못하였다. 하지만 현재 수도정비기본계획에 의해 용량이 충족되고 있으므로 큰 문제는 없을 것으로 판단된다. 담체내부로의 물질확산에 큰 변화가 없는 것으로 나타났다. 포괄고정화 담체를 이용한 염색폐수처리에서 고정상 반응기는 기존 활성슬러지 공정의 후처리로서 적용 가능할 것으로 판단되어진다.염은 없는 것으로 평가되었다.5-0.1 g $O_3/g$ SS로 조사되었다.7로 가장 양호한 값을 나타내었다.한 표지자로서의 의미가 있다고 추정된다.소아기에 성장, 정신 사회적 발달, 생식기의 독성 등도 중요한 문제이므로 항상 적절한 치료를 위해 세심한 관심을 쏟아야 할 것이다.(境遇) shoot 발생(發生)이 많아지고 출엽(出葉), 발근효과(發根效果)가 인정(認定)되었다.345kg, 18개월(個月) 이후(以後) 수확(收穫)은 392kg으로 증수(增收)하였으나 24개월(個月) 증가폭(增加幅)은 미미(微微)하였다. 6. 지상부(地上部) 엽형(葉型)의 전개정도(展開程度)를 보고 지상부(地上部)의 괴경폭(塊莖幅)과 괴경량(塊莖重) 등(等)을 추정(推定)할 수 있었다. 흡연으로 인한 일부 영양소 섭취와 혈액성상의 변화는 금연으로 인해 비흡연 상태로 회복되는 것으로 생각된다. 따라서 흡연자를 대상으로 한 금연 교육이 우선적으로 요구되며, 흡연으로 인한 영양섭취의 변화가 인체에 미치는 영향을 설명 할 수 있는 직접적이고 세부적인 연구를 통해 흡연자의 영양 문제점과 그에 따른 식사관리 방안이 마련되어야 할 것이다.ata, C. kyushuensis는 근연종으로 clustering 되었으며 C. scarabaeicola, Phytocordyceps ninchukiospora는 비교적 유연관계가 먼 것으로 나타났다. 경우 $logk=11.1140-4.1226{\times}10^3(1/T)$, waxy corn starch의 경우 $logk=10.

수산물 시장에서의 양식 어류 가격변동성.계절성.요일효과에 관한 연구 - 노량진수산시장의 넙치와 조피볼락을 중심으로 - (Price Volatility, Seasonality and Day-of-the Week Effect for Aquacultural Fishes in Korean Fishery Markets)

  • 고봉현
    • 수산경영론집
    • /
    • 제40권2호
    • /
    • pp.49-70
    • /
    • 2009
  • This study proviedes GARCH model(Bollerslev, 1986) to analyze the structural characteristics of price volatility in domestic aquacultural fish market of Korea. As a case study, flatfish and rock-fish are analyzed as major species with relatively high portion in an aspect of production volume among fish captured in Korea. For analyzing, this study uses daily market data (dating from Jan 1 2000 to June 30, 2008) published by the Noryangjin Fisheries Wholesale Market which is located in Seoul of Korea. This study performs normality test on trading volume and price volatility of flatfish and rock-fish as an advanced empirical approach. The normality test adopted is Jarque-Bera test statistic. As a result, first, a null hypothesis that "an empirical distribution follows normal distribution" was rejected in both fishes. The distribution of daily market data of them were not only biased toward positive(+) direction in terms of kurtosis and skewness, but also characterized by leptokurtic distribution with long right tail. Secondly, serial correlations were found in data on market trading volume and price volatility of two species during very long period. Thirdly, the results of unit root test and ARCH-LM test showed that all data of time series were very stationary and demonstrated effects of ARCH. These statistical characteristics can be explained as a reasonable ground for supporting the fitness of GARCH model in order to estimate conditional variances that reveal price volatility in empirical analysis. From empirical data analysis above, this study drew the following conclusions. First of all, from an empirical analysis on potential effects of seasonality and the day of week on price volatility of aquacultural fish, Monday effects were found in both species and Thursday and Friday effects were also found in flatfish. This indicates that Monday is effective in expanding price volatility of aquacultural fish market and also Monday has higher effects upon the price volatility of fish than other days of week have since it has more new information for weekend. Secondly, the empirical analysis led to a common conclusion that there was very high price volatility of flatfish and rock-fish. This points out that the persistency parameter($\lambda$), an index of possibility for current volatility to sustain similarly in the future, was higher than 0.8-equivalently nearly to 1-in both flatfish and rock-fish, which presents volatility clustering. Also, this study estimated and compared and model that hypothesized normal distributions in order to determine fitness of respective models. As a result, the fitness of GARCH(1, 1)-t model was better than model where the distribution of error term was hypothesized through-distribution due to characteristics of fat-tailed distribution, was also better than model, as described in the results of basic statistic analysis. In conclusion, this study has an important mean in that it was introduced firstly in Korea to investigate in price volatility of Korean aquacultural fishery products, although there was partially a limited of official statistic data. Therefore, it is expected that the results of this study will be useful as a reference material for making and assessing governmental policies. Also, it is looked forward that the results will be helpful to build a fishery business plan as and aspect of producer, and also to take timely measures to potential price fluctuations of fishery products in market. Hence, it is advisable that further studies related to such price volatility in fishery market will extend and evolve into a wider variety of articles and issues in near future.

  • PDF

데이터마이닝 기법을 활용한 비외감기업의 부실화 유형 분석 (The Pattern Analysis of Financial Distress for Non-audited Firms using Data Mining)

  • 이수현;박정민;이형용
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.111-131
    • /
    • 2015
  • 본 연구에서는 데이터마이닝 기법의 일종인 자기조직화지도(Self-Organizing Map, SOM)를 이용하여 비외감기업의 부실화 유형을 구분하고자 한다. 자기조직화지도는 인공 신경망을 기초로 자율학습을 통해 입력된 값을 유사한 군집끼리 묶어내는 방법으로, 기존의 통계적 군집 분류 방법보다 성능이 뛰어나고, 고차원의 입력데이터를 저차원으로 시각화할 수 있다는 장점 때문에 다양한 분야에서 각광받고 있다. 본 연구에서는 기존 연구의 주요 분석대상이었던 외감기업에 비해 부실화 빈도는 높지만 데이터 수집의 어려움으로 인해 분석대상에서 다소 제외되었던 비외감기업의 부실화 유형에 대해 알아보고, 유형별 구체적인 사례도 소개하고자 한다. 재무자료수집이 가능한 100개의 비외감 부실기업에 대해 분석한 결과, 비외감기업의 부실화 유형은 다섯 가지로 구분되었다. 유형 1은 전체 집단의 약 12%를 차지하며, 수익성, 성장성 등 재무지표가 다른 유형에 비해 열등하였다. 유형 2는 전체 집단의 약 14%로, 유형 1보다는 덜 심각하지만 재무지표가 대체로 열등하였다. 유형 3은 성장성 지표가 열등한 그룹으로 기업간 경쟁이 극심한 가운데 지속적으로 성장하지 못하고 부실화된 경우로 약 30%의 기업이 포함되었다. 유형 4는 성장성은 탁월하나 부채경영 등 과감한 경영으로 인해 유동성 부족이나 현금부족 등의 이유로 부실화된 그룹으로 약 25%의 기업이 포함되었다. 유형 5는 거의 모든 재무지표가 우수한 건전기업으로, 단기적인 경영전략의 실수 또는 중소기업의 특성상 경영자의 개인적 사정으로 부실화 되었을 가능성이 큰 그룹으로 약 18%의 기업이 포함되었다. 본 연구 결과는 부실화 유형을 구분하는데 기존의 통계적 방법이 아닌 자기조직화지도를 이용하였다는 점에서 학문적 의의가 있고, 비외감기업의 재무지표만으로도 1차적인 부실화 징후를 발견할 수 있다는 점에서 실무적 의의가 있다고 할 수 있다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

국제프랜차이징 연구요소 및 연구방향 (Research Framework for International Franchising)

  • 김주영;임영균;심재덕
    • 마케팅과학연구
    • /
    • 제18권4호
    • /
    • pp.61-118
    • /
    • 2008
  • 본 연구는 국내외 프랜차이즈의 해외진출에 대한 연구들을 바탕으로 국제프랜차이징연구의 전체적인 연구체계를 세워보고, 연구체계를 형성하고 있는 연구요인들을 확인하여 각 연구요소별로 이루어지는 연구주제와 내용을 살펴보고, 앞으로의 연구주제들을 제안하고자 한다. 주요한 연구요소들은 국제프랜차이징의 동기 및 환경 요소과 진출의사결정, 국제프랜차이징의 진입양식 및 발전전략, 국제프랜차이징의 운영전략 및 국제프랜차이징의 성과이다. 이외에도 국제프랜차이징 연구에 적용할 수 있는 대리인이론, 자원기반이론, 거래비용이론, 조직학습이론 및 해외진출이론들을 설명하였다. 또한 국제프랜차이징연구에서 보다 중점적으로 개발해야 할 질적, 양적 방법론을 소개하였으며, 마지막으로 국내연구의 동향을 정리하여 추후의 연구방향을 종합적으로 정리하였다.

  • PDF