• 제목/요약/키워드: Dataset Management

검색결과 559건 처리시간 0.023초

Artificial Neural Network for Prediction of Distant Metastasis in Colorectal Cancer

  • Biglarian, Akbar;Bakhshi, Enayatollah;Gohari, Mahmood Reza;Khodabakhshi, Reza
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제13권3호
    • /
    • pp.927-930
    • /
    • 2012
  • Background and Objectives: Artificial neural networks (ANNs) are flexible and nonlinear models which can be used by clinical oncologists in medical research as decision making tools. This study aimed to predict distant metastasis (DM) of colorectal cancer (CRC) patients using an ANN model. Methods: The data of this study were gathered from 1219 registered CRC patients at the Research Center for Gastroenterology and Liver Disease of Shahid Beheshti University of Medical Sciences, Tehran, Iran (January 2002 and October 2007). For prediction of DM in CRC patients, neural network (NN) and logistic regression (LR) models were used. Then, the concordance index (C index) and the area under receiver operating characteristic curve (AUROC) were used for comparison of neural network and logistic regression models. Data analysis was performed with R 2.14.1 software. Results: The C indices of ANN and LR models for colon cancer data were calculated to be 0.812 and 0.779, respectively. Based on testing dataset, the AUROC for ANN and LR models were 0.82 and 0.77, respectively. This means that the accuracy of ANN prediction was better than for LR prediction. Conclusion: The ANN model is a suitable method for predicting DM and in that case is suggested as a good classifier that usefulness to treatment goals.

Cost and Profit Efficiency of Banks: Stochastic Frontier Analysis vs Data Envelopment Analysis

  • Baten, Md. Azizul;Kasim, Maznah Mat;Rahman, Md. Mafizur
    • 아태비즈니스연구
    • /
    • 제6권2호
    • /
    • pp.1-17
    • /
    • 2015
  • This study compares the most widely used parametric and non-parametric techniques to measure cost and profit efficiency of banks, namely the Stochastic Frontier Analysis (SFA) and Data Envelopment Analysis (DEA). We formulate the specification form of both stochastic cost and profit frontier models and constant return to scale Cost DEA and Profit DEA models and provide an empirical assessment of the cost and profit frontiers based on a panel dataset of National Commercial Banks (NCBs) and Private Banks (PBs) in Bangladesh over the 2001-2010 period. The cost inefficiency and profit efficiency are slightly higher for PBs than NCBs in case of both SFA and DEA. The coefficients of advance and off-balance sheet items are significant that positively influence the banks in stochastic cost frontier model while the advance, other earning assets, price of borrowed fund are significant and negative effects on the banks in stochastic profit frontier model. The average cost inefficiency and average profit efficiency are recorded with 16.3% and 91% respectively. The highest and lowest cost inefficiency are observed for Janata Bank and United Commercial Bank Limited whilst the highest and lowest profit efficiency are recorded for Eastern Bank Limited and Janata Bank respectively. The average technical and allocative efficiency are 68.8% and 35.9%, respectively in case of CRS cost-DEA model whereas they are 70.3% and 31.8% in case of CRS profit-DEA model. The average cost inefficiency is recorded 6.3% by SFA whereas it is 24.5% by DEA. The average profit efficiency is found 91% by SFA while it is 22.1% by DEA, and SFA method shows better bank efficiency than DEA.

  • PDF

인터넷 상점에서의 내용기반 추천을 위한 상품 및 고객의 자질 추출 성능 비교 (Comparison of Product and Customer Feature Selection Methods for Content-based Recommendation in Internet Storefronts)

  • 안형준;김종우
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.279-286
    • /
    • 2006
  • 인터넷 쇼핑몰에서의 상품 추천을 위해 널리 사용되는 방식 중 한 가지는 상품의 특성과 고객의 특성을 비교하여 고객에 맞는 상품을 추천하는 방식이다. 이 방식은 상품이나 고객의 특성을 표현하는 자질(Feature)의 개수가 많을수록 그 중에 어떤 자질을 선택해야 더 좋은 추천 성과를 가져올 수 있는지 파악해 내는 것이 추천의 효과 및 효율성 측면에서 중요하지만 아직까지 충분히 연구되지 않은 실정이다. 본 연구에서는 인터넷 서점에서의 가상 구매실험을 바탕으로 사용자가 구매한 책 들에서 사용자를 잘 나타낼 수 있는 자질을 선택하는 방식에 대해서 벡터 스페이스 모형, TFIDF(Term Frequency-Inverse Document Frequency), Mutual Information, SVD(Singular Value Decomposition) 방식 등을 활용하여 실험하고 그 결과를 비교해본다. 실험 결과 SVD를 응용한 자질 추출 기법이 가장 좋은 성능을 나타내었다.

의료영상 시스템의 다중 단면 재구성을 위한 좌표계 제어 시스템 (A management system for plural viewing coordinates of multiplanar reformation)

  • 김준호;계희원
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.163-170
    • /
    • 2010
  • 다중 단면 재구성(MPR)은 삼차원 의료 데이터에서 사용자가 지정한 단면의 영상을 생성하는 볼륨 가시화 기법으로 의료영상 시스템에 필수적으로 이용되고 있다. 최근 의료영상 시스템의 발전으로, 사용자는 하나의 인체 데이터에 여러 단면을 위치시키고 이들 각각을 편리하게 제어하는 기능을 요구한다. 본 연구는 최근 MPR에 필요한 다양한 사용자 요구를 분석하고, 이에 적합하도록 좌표계를 제어하는 방법을 제안한다. 구체적으로, 가능한 사용자 조작을 모두 나열하여, 각 조작에 대해 단면의 움직임에 대한 요구를 분석한다. 또한, 이를 효과적으로 구현하기 위해, 각 단면을 별도의 좌표계로 다루고, 좌표계를 구성하는 정보를 독립 구성요소와 공통 구성요소로 나누어 처리하는 방법을 제안한다. 본 시스템은 그래픽스 가속기 상에서 구현되어 최근 요구사항을 포함하는 MPR 기능을 원활하게 수행할 수 있다.

수명주기가 짧은 상품들에 대한 시퀀스 기반 개인화 서비스 (A sequence-based personalized service for the short life cycle products)

  • 최주철
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.293-301
    • /
    • 2017
  • 대부분의 신상품들은 시장에서 급격히 사라질 뿐만 아니라 기존 상품들의 매출감소를 불러온다. 이처럼 수명주기가 짧은 상품으로 인해 소매상들은 과다한 재고를 보유하게 될 뿐만 아니라 소비자들은 자신들의 선호를 맞는 제품들을 발견하는데 어려움을 겪는다. 이런 문제를 해결에 하는데 있어서 추천 시스템은 좋은 해결방법이 될 수 있다. 그러나 대부분의 추천 시스템들은 소비자의 고정된 선호를 이용하기 때문에 변화하는 소비자의 선호를 반영하지 못하는 문제가 있다. 이러한 문제를 해결하기 위하여 본 연구에서는 시간에 따라 변화하는 소비자의 선호를 반영한 추천 방법론을 제안하였다. 제안한 방법론은 소비자의 동적 선호 프로파일 작성, 네이버 형성, 추천 리스트 작성의 3 단계로 구성되어 있으며, 모바일 이미지 거래 데이터를 이용하여 제안된 방법론의 유용성을 검증하였다. 시험결과 제시된 방법론의 추천 정확도가 전통적인 협업필터링의 정확도 보다 높았다. 이러한 결과를 통해, 본 연구에서 제한한 방법론이 짧은 수명주기를 가진 제품을 추천하는데 효과적이라는 결론을 내릴 수 있다. 따라서 향후 제안된 방법론을 현업에 적용하여 실제적 유용성을 검증할 필요가 있다.

최저임금의 고용효과에 관한 연구의 문제점과 개선방향 (Problems and Improvements in Research on the Employment Effect of Minimum Wage)

  • 박철호;강상구
    • 디지털융복합연구
    • /
    • 제16권10호
    • /
    • pp.145-153
    • /
    • 2018
  • 최근 우리 사회는 최저임금의 인상폭을 둘러싸고 극심한 갈등을 겪고 있으며, 이에 대해 학계는 신뢰할만한 연구를 통해 적정한 기준을 제시하지 못하고 있다. 본 연구는 최저임금의 고용효과에 관한 기존 국내외 연구들의 경향과 문제점들을 살펴보고 개선방향을 제시하였다. 자연실험 또는 메타회귀분석법을 활용하는 최근의 해외 연구들은 최저임금의 인상이 고용량에 거의 영향을 미치지 못한다는 연구결과를 제시한다. 국내 연구들은 아직 그 수효가 많지 않을 뿐만 아니라 사용된 자료나 분석기간, 연구모형 등에 따라 고용효과에 대해 서로 다른 결론을 제시한다. 향후 연구에서는 자료수집 시 임금과 근로시간 등의 오차를 최소화하고, 최저임금 변화의 내생성 문제, 경제상황과 고용변화의 추세를 적절히 고려하여 최저임금의 고용효과를 측정해야 하며, 해외 연구들에처럼 최저임금의 인상시기를 전후한 자연실험 방법을 적극 활용할 필요가 있다.

공간분석·데이터마이닝 융합방법론을 통한 산업안전 취약지 등급화 방안 (Industrial Safety Risk Analysis Using Spatial Analytics and Data Mining)

  • 고경석;양재경
    • 산업경영시스템학회지
    • /
    • 제40권4호
    • /
    • pp.147-153
    • /
    • 2017
  • The mortality rate in industrial accidents in South Korea was 11 per 100,000 workers in 2015. It's five times higher than the OECD average. Economic losses due to industrial accidents continue to grow, reaching 19 trillion won much more than natural disaster losses equivalent to 1.1 trillion won. It requires fundamental changes according to industrial safety management. In this study, We classified the risk of accidents in industrial complex of Ulju-gun using spatial analytics and data mining. We collected 119 data on accident data, factory characteristics data, company information such as sales amount, capital stock, building information, weather information, official land price, etc. Through the pre-processing and data convergence process, the analysis dataset was constructed. Then we conducted geographically weighted regression with spatial factors affecting fire incidents and calculated the risk of fire accidents with analytical model for combining Boosting and CART (Classification and Regression Tree). We drew the main factors that affect the fire accident. The drawn main factors are deterioration of buildings, capital stock, employee number, officially assessed land price and height of building. Finally the predicted accident rates were divided into four class (risk category-alert, hazard, caution, and attention) with Jenks Natural Breaks Classification. It is divided by seeking to minimize each class's average deviation from the class mean, while maximizing each class's deviation from the means of the other groups. As the analysis results were also visualized on maps, the danger zone can be intuitively checked. It is judged to be available in different policy decisions for different types, such as those used by different types of risk ratings.

퍼지신경망을 사용한 네이브 베이지안 분류기의 분산 그래프 학습 (Learning Distribution Graphs Using a Neuro-Fuzzy Network for Naive Bayesian Classifier)

  • 전설위;임준식
    • 디지털융복합연구
    • /
    • 제11권11호
    • /
    • pp.409-414
    • /
    • 2013
  • Naive Bayesian classifiers 네이브 베이지안 분류기는 샘플 데이터로부터 쉽게 구현될 수 있는 강력하고도 많이 사용되는 형식의 분류기다. 그러나 강한 조건부 독립성으로 인하여 효율이 저하되는 분류 결과를 초래한다. 일반적으로 네이브 베이지안 분류기는 연속성을 가진 특징 데이터의 우도를 처리하기 위해 가우시안 분산을 사용한다. 속성들의 확률밀도는 항상 가우시안 분산에 적합한 것만은 아니다. 또 다른 형식의 분류기는 지도학습을 통해 퍼지 규칙과 퍼지집합을 학습할 수 있는 퍼지신경망이다. 퍼지신경망과 네이브 베이지안 분류기간에는 구조적 유사성을 가지고 있기 때문에 퍼지신경망으로 학습된 분산 그래프를 네이브 베이지안 분류기에 적용하고자 하는 방안이 본 연구의 목적이다. 따라서 네이브 베이지안 분류기에 가우시안 분산 그래프를 사용한 결과와 퍼지 분산 그래프를 사용한 결과를 비교하였다. 이를 위해 leukemia와 colon의 DNA 마이크로어레이 데이터를 적용하여 분류하였다. 네이브 베이지안 분류기에 퍼지 분산 그래프를 사용한 결과 가우시안 분산 그래프를 사용한 결과보다 더 신뢰성이 있음을 보여주었다.

공간 데이터마이닝을 이용한 고객 관리시스템 (A Spatial Data Mining and Geographical Customer Relationship Management System)

  • 이상문;서정민
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.121-128
    • /
    • 2010
  • 최근 마케팅이나 기업전략 분야에서 고객관리 및 점포관리 등의 업무를 위하여 GIS 기법을 적용한 다양한 응용시스템이 개발되고 있다. 그러나 기존의 시스템들은 대부분 개별점포나 고객 담당자의 경험치를 이용하여 이루어져 왔으며, 특정업종이나 특정 고객들에 대한 객관적인 분석시스템이 제시되지 않았다. 따라서 본 연구에서는 GIS 기법뿐만 아니라 시공간 데이터마이닝 기법을 적용한 gCRMs을 개발하였다. 본 시스템은 상권추출을 위한 새로운 시공간 데이터마이닝 기법을 개발하여 다양한 GIS 응용S/W의 개발이 가능하며, 상권에서 추출된 특성정보와 상권에서 발생하는 매출 등을 정성적, 정량적으로 평가할 수 있으며, 더 많은 다양한 지역에 적용하기 위한 일반화 기술의 원천기술을 획득하여 향후 기술을 이용한 각종 마케팅이 가능하다. 또한 도지시역의 변화를 예측하는 것과 같은 시계열분석 등의 모델링 툴을 개발하는 기초적인 기술을 제공할 수 있다.

금융소비자의 문제경험 요인의 탐색을 위한 융복합적 접근 연구 - 기술적 정보특성과 주관적 역량을 중심으로 (Which Factors Could Affect Financial Consumer Problems Experience? - Convergence Approach of both Technical Information and Subjective Competency)

  • 구혜경;나종연
    • 디지털융복합연구
    • /
    • 제13권5호
    • /
    • pp.31-39
    • /
    • 2015
  • 본 연구는 한국소비자원의 2013 한국의 소비생활지표의 원자료를 활용하여 기술적 정보를 제공하는 금융영역에서의 소비자 문제 경험을 확인하고, 이에 영향을 미치는 요소들을 탐색하였다. 금융 영역은 기술적 정보 영역에 해당하여 소비자 문제 경험 분석 시 지식 등 객관적인 역량 중심의 접근이 아니라 기술적 정보 영역의 특성에 근거해 융복합적 관점으로 영향요인을 탐색하는 것이 중요하다. 기술적 정보로서 금융영역에서는 정확한 정보의 제공 및 비교정보에 대한 요구가 높은 것으로 나타났다. 또한 문제경험에의 영향 변수를 탐색한 결과 소비자 개개인의 주관적인 금융 역량이 문제경험을 줄이는 것에 의미 있는 변수로 확인되었으며, 50대 이상의 고령 소비자들은 금융영역에서 더 많은 문제를 경험하고 있는 것으로 확인하였다. 이를 통해 기술적 정보 영역인 금융영역의 경우 금융정보의 효율적인 전달 방안에 관한 모색, 고령자에 대한 판매접점에서의 추가적인 노력 방안이 요구되며, 그 동안 객관적 금융역량을 강화하기 위한 방안에 초점이 맞추어져 있었으나, 향후 주관적 금융역량 강화를 위한 방안에 대한 연구가 요구된다.