• 제목/요약/키워드: Data Mining Technique

검색결과 638건 처리시간 0.026초

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.

텍스트 마이닝과 인자분석에 의한 도시경관이미지 연구 - 롯데월드타워를 대상으로 - (Urban Landscape Image Study by Text Mining and Factor Analysis - Focused on Lotte World Tower -)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제45권4호
    • /
    • pp.104-117
    • /
    • 2017
  • 본 연구는 텍스트 마이닝 기법과 인자분석를 활용하여 경관이미지 분석의 결과를 비교?분석하고, 텍스트 마이닝 기법이 경관이미지 연구에서 활용 가능성이 있는지 확인하고자 하였다. 롯데월드타워의 경관이미지는 텍스트 마이닝 분석 결과, 형용사 '새로운', '변화적인', '특이한', '신기한', '인상적인', '개성적인' 등이 도출되었으며, 롯데월드타워의 경관이미지가 변화하는 과정을 살펴보면, 사람들의 활동적인 요소(구경, 나들이, 프로젝트, 야경 등)와 미디어매체(신문, 블로그 등), 기후(날씨, 계절) 등이 경관이미지를 변화시키는 변동요인으로 도출되었다. 인자분석 결과, 롯데월드타워의 경관이미지에 영향을 미치는 요인은 상징성, 심미성, 조형성 순으로 나타났다. 형태적 특징인 식별성은 규모성, 가시성의 특징을 가지고 있는데, 통계적으로 유의하지 않았다. 오히려 독특성, 특별성 등의 특징을 갖고 있는 상징성과 주변 환경과의 특성과의 조화성, 아름다움의 특징을 갖고 있는 심미성 등 심리적인 요인이 경관이미지에 영향을 미치는 것으로 나타났다. 두 가지 연구방법에서 공통적으로 도출된 결과는 건축물의 장소나 위치 등 형태적 물리적인 특성보다 도시를 대표하고 상징할 수 있는 요소 등 심리적인 특성이 경관이미지에 영향을 미치는 것으로 나타났다. 또한, 텍스트 마이닝 기법은 사람들이 대상을 보고 느낀 이미지에 해당되는 명사 형용사를 파악할 수 있고, 도출된 키워드 간의 관계를 확인함으로써 경관이미지 형성 과정과 더 나아가 도시의 이미지까지 파악이 가능하므로, 조경분야에서 경관연구의 한계를 보완하기 위한 방안으로 적합한 것으로 사료된다. 본 연구는 조경의 연구 분야인 경관분석에서 빅데이터가 활용될 수 있는 가능성을 실제 실행을 통하여 확인하였다는 점에서 의의가 있으며, 추후 빅데이터 기반의 정보를 파악 분석하여 경관 연구 영역의 확대에 기여하기를 바란다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

프로세스 마이닝을 이용한 공공서비스의 품질 측정: N시의 건축 인허가 민원 서비스를 중심으로 (Measuring the Public Service Quality Using Process Mining: Focusing on N City's Building Licensing Complaint Service)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.35-52
    • /
    • 2019
  • 전자정부를 포함한 다양한 형태의 공공서비스가 제공됨에 따라 공공서비스 품질에 대한 국민의 요구 수준이 점점 높아지고 있다. 공공서비스의 품질을 높이기 위해서 공공서비스 품질에 대한 상시적 측정과 개선이 필요함에도 불구하고 전통적인 설문조사는 비용과 시간이 많이 소요되어 한계가 있다. 따라서 공공서비스에서 발생하는 데이터를 기반으로 원하는 시점에 언제라도 공공서비스의 품질을 빠르고 정확하게 측정할 수 있는 분석적 기법이 필요하다. 본 연구에서 공공서비스의 품질을 데이터 기반으로 분석하기 위해 N시의 건축 인허가 민원 서비스를 대상으로 프로세스 마이닝 기법을 이용하여 분석하였다. N시의 건축 인허가 민원 서비스는 분석에 필요한 데이터를 확보할 수 있고 공공서비스 품질관리를 통해 타 기관으로 확산 가능할 것으로 판단되었기 때문이다. 본 연구는 2014년 1월부터 2년 동안 N시에서 발생한 총 3678건의 건축 인허가 민원 서비스에 대해 프로세스 마이닝을 실시하여 프로세스 맵을 그리고 빈도가 높은 부서와 평균작업시간이 긴 부서를 파악하였다. 분석 결과에 따르면 특정 시점에 한 부서별로 업무가 몰리거나 상대적으로 업무가 적은 경우가 발생하였다. 또한 민원의 부하가 늘 경우 민원완료까지 걸리는 시간이 늘어날 것이라는 합리적인 의심을 하였으나 분석 결과 상관관계는 크게 없었다. 분석 결과에 따르면 민원완료까지 걸리는 시간은 당일처리에서 1년 146일까지 매우 다양하게 분포하였다. '하수처리과,' '수도과,' '도시디자인과,' '녹색성장과'의 상위 4개 부서의 누적빈도가 전체의 50%를 넘고 상위 9개 부서의 누적빈도가 70%를 넘어서는 등 빈도가 높은 부서는 한정적이며 부서 간 부하의 불균형이 심했다. 대부분의 민원 서비스는 서로 다른 다양한 패턴의 프로세스를 갖고 있었다. 본 연구의 결과를 활용하면 특정 시점에 민원의 부하가 큰 부서를 찾아내 부서 간 인력 배치를 탄력적으로 운영할 수 있을 것이다. 또한 민원 특성별 협의에 참여하는 부서의 패턴을 분석한 결과, 협의 부서 요청 시 자동화 혹은 추천에 활용할 수 있는 가능성이 보인다. 본 연구는 민원 서비스에 대한 프로세스 마이닝 분석을 통해 향후 공공서비스 품질 개선방향을 제시하는데 활용될 것으로 기대한다.

감성분석과 SVM을 이용한 인터넷 악성댓글 탐지 기법 (A Malicious Comments Detection Technique on the Internet using Sentiment Analysis and SVM)

  • 홍진주;김세한;박제원;최재현
    • 한국정보통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.260-267
    • /
    • 2016
  • 인터넷을 통해 많은 정보를 얻고 많은 정보를 타인에게 제공하면서 개인의 삶의 양식에 큰 변화를 가져다주었다. 모든 사회 현상에는 양면성이 있듯이 인터넷 익명성을 이용하여 명예훼손, 인신공격, 사생활 침해등과 같이 악의적으로 이용하여 사회적으로 심각한 문제를 양산하고 있다. 인터넷 게시판의 악성댓글은 인터넷에서 발생하는 불법적인 언사나 행위와 관련하여 가장 대두되고 있는 문제이다. 이러한 문제를 해결하기 위해 많은 연구가 진행되고 있지만 악성댓글에 사용된 단어들은 변형이 많이 나타나기 때문에 기존 연구들은 이러한 변형된 악성어휘를 인식하는데 한계점이 존재한다. 이에 본 연구에서는 기존 연구의 한계점을 개선하여 악성댓글을 탐지하는 기법을 제안한다. 실험결과 87.8%의 정확도를 나타냈으며, 이는 기존 연구들에 비해 상당히 발전된 결과로 볼 수 있다.

데이터 마이닝에서 기존의 연관규칙을 갱신하는 효율적인 앨고리듬 (An Efficient Algorithm for Updating Discovered Association Rules in Data Mining)

  • 김동필;지영근;황종원;강맹규
    • 산업경영시스템학회지
    • /
    • 제21권45호
    • /
    • pp.121-133
    • /
    • 1998
  • This study suggests an efficient algorithm for updating discovered association rules in large database, because a database may allow frequent or occasional updates, and such updates may not only invalidate some existing strong association rules, but also turn some weak rules into strong ones. FUP and DMI update efficiently strong association rules in the whole updated database reusing the information of the old large item-sets. Moreover, these algorithms use a pruning technique for reducing the database size in the update process. This study updates strong association rules efficiently in the whole updated database reusing the information of the old large item-sets. An updating algorithm that is suggested in this study generates the whole candidate item-sets at once in an incremental database in view of the fact that it is difficult to find the new set of large item-sets in the whole updated database after an incremental database is added to the original database. This method of generating candidate item-sets is different from that of FUP and DMI. After generating the whole candidate item-sets, if each item-set in the whole candidate item-sets is large at an incremental database, the original database is scanned and the support of each item-set in the whole candidate item-sets is updated. So, the whole large item-sets in the whole updated database is found out. An updating algorithm that is suggested in this study does not use a pruning technique for reducing the database size in the update process. As a result, an updating algoritm that is suggested updates fast and efficiently discovered large item-sets.

  • PDF

변경 유형의 유사도 및 커밋 시간을 이용한 파일 변경 결합도 (A Technique to Detect Change-Coupled Files Using the Similarity of Change Types and Commit Time)

  • 김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.65-72
    • /
    • 2014
  • 변경 결합도는 두 요소들 사이의 향후 변경 연관성을 알려준다. 만약, 소스 파일들이 자주 함께 변경된다면, 그 소스 파일들의 변경 결합도는 높다고 볼 수 있으며, 나중에 다시 함께 변경될 확률이 높다. 일반적으로 소스 파일들 사이의 변경 결합도는 공통 변경 횟수에 기반하여 정의되었다. 그런데 연관성이 낮은 변경들이 일괄적으로 함께 커밋되는 경우, 즉 뒤얽힌 변경(tangled change)과 같은 경우들이 빈번히 발생한다. 따라서 함께 변경된 횟수만으로 소스 파일의 변경 결합도를 결정하는 것은 한계가 있다. 본 논문에서는 기존의 방법을 보완하기 위해, 소스 파일의 변경 시간뿐 아니라 소스 코드 변경 유형의 유사성을 함께 고려하는 것을 제안하였다. 이를 위하여, 우선 추출된 변경 유형 정보를 이용하여 변경 유형 빈도 벡터를 정의하고, 다음에 코사인 유사도 측정을 통해서 각 소스 파일 버전에서 적용된 코드 변경 유사성을 계산한다. 이후 Eclipse 프로젝트인 JDT와 CDT에 대한 사례 연구를 통해 제안된 방법의 효용성을 보였다.

AI Technology Analysis using Partial Least Square Regression

  • Choi, JunHyeog;Jun, Sunghae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.109-115
    • /
    • 2020
  • 본 논문에서는 부분 최소 제곱(PLS) 회귀 모형을 이용한 인공지능(AI) 기술 분석을 제안한다. AI 기술은 이제 우리 사회의 대부분의 영역에 영향을 미치고 있다. 따라서 이 기술에 대한 정확한 이해가 필요하게 된다. AI 기술을 분석하기 위하여 전 세계 특허 데이터베이스로부터 AI 관련 특허 문서를 수집하고 텍스트 마이닝 기법을 사용하여 수집된 특허 문서에서 AI 기술 키워드를 추출한다. 본 연구에서는 추출된 AI 키워드 데이터를 PLS 회귀 모형으로 분석한다. 바이오정보학, 사회과학 및 공학 등 다양한 분야에서 고급 데이터 분석을 위하여 사용되는 PLS 회귀 모형은 부분 최소 제곱 기법을 기반으로 한다. 제안 방법의 성능을 확인하기 위하여 AI 특허 문서를 사용하여 분석 실험을 수행하고 제안하는 연구가 실제 문제에 어떻게 적용될 수 있는지 보여 준다. 본 논문은 AI 기술뿐만 아니라 다른 기술 분야에도 적용 할 수 있다.

GIS기반 소수력 Package Tool 개발 (The Development of GIS-based Small Hydropower Package Tool)

  • 허준호;정상만;박완순;이철형
    • 한국태양에너지학회:학술대회논문집
    • /
    • 한국태양에너지학회 2009년도 춘계학술발표대회 논문집
    • /
    • pp.139-144
    • /
    • 2009
  • The generation of small hydropower as compared to other different developed environmental methods produces one of the clean energies. In such manner, various application system development through IT technique is being developed for an advanced small hydropower energy resources data mining. However, existing data analysis of New & Renewable Information System for small hydropower resources application is incomplete therefore it limits expressing these information on the Web. Thus for positive usage of small hydropower resources, a more systematic and precise analysis system should be built. This study seeks to develop a map of the domestic small hydropower resources problems to further improve small hydropower resources, developed through Package Tool which can accurately evaluate a wide range of small hydropower basin in a short period of time. Small hydropower Package Tool was calculated using existing Analysis System small hydropower resources which did not provide diverse capabilities resulting to 840 standard basin classified by A and facility capacity, etc., and to assume a 40% annual capacity, expected annual electricity production was calculated. Small hydropower for the national water system of small hydropower resources potential calculated in terms of resources for the development of small hydropower will be utilized as basic data.

  • PDF

기본적인 연관평가기준 전부를 고려한 비선형 회귀모형에 의한 연관성 규칙 수의 결정 (Non-linear regression model considering all association thresholds for decision of association rule numbers)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.267-275
    • /
    • 2013
  • 데이터 마이닝 기법들 중에서도 연관성 규칙은 가장 최근에 개발된 기법으로 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내며, 두 항목간의 관계를 명확히 수치화함으로써 두 개 이상의 항목간의 관련성을 표시하여 주기 때문에 현장에서 직접 적용이 가능하다. 일반적으로 연관성 규칙 생성 여부를 판단할 때, 각 항목간의 연관성을 반영하는 기준인 지지도, 신뢰도, 향상도 등의 흥미도 측도를 활용하게 된다. 실제적으로 연관성 규칙의 수를 결정하기 위해서는 이들 흥미도 측도들의 평가기준을 정하기 위해 반복적으로 조정 과정을 거쳐야 한다. 본 논문에서는 이러한 문제를 해결하기 위해 연관성 평가기준 모두를 일반적으로 많이 활용되고 있는 비선형 회귀모형에 적용하여 연관성 규칙의 수를 추정하는 방안을 강구하였다. 또한 분산팽창계수를 이용하여 다중공선성 문제를 진단하는 동시에 분산분석 결과와 수정 결정계수를 이용하여 각 모형의 기여도를 비교하여 가장 바람직한 회귀 모형을 구하였다.