• 제목/요약/키워드: Equal Frequency Discretization

검색결과 5건 처리시간 0.018초

동일 빈도 이산화를 가상 경기에 적용한 연속형 최적화 알고리즘 (A Continuous Optimization Algorithm Using Equal Frequency Discretization Applied to a Fictitious Play)

  • 이창용
    • 산업경영시스템학회지
    • /
    • 제36권2호
    • /
    • pp.8-16
    • /
    • 2013
  • In this paper, we proposed a new method for the determination of strategies that are required in a continuous optimization algorithm based on the fictitious play theory. In order to apply the fictitious play theory to continuous optimization problems, it is necessary to express continuous values of a variable in terms of discrete strategies. In this paper, we proposed a method in which all strategies contain an equal number of selected real values that are sorted in their magnitudes. For comparative analysis of the characteristics and performance of the proposed method of representing strategies with respect to the conventional method, we applied the method to the two types of benchmarking functions: separable and inseparable functions. From the experimental results, we can infer that, in the case of the separable functions, the proposed method not only outperforms but is more stable. In the case of inseparable functions, on the contrary, the performance of the optimization depends on the benchmarking functions. In particular, there is a rather strong correlation between the performance and stability regardless of the benchmarking functions.

데이터 이산화와 러프 근사화 기술에 기반한 중요 임상검사항목의 추출방법: 담낭 및 담석증 질환의 감별진단에의 응용 (Extraction Method of Significant Clinical Tests Based on Data Discretization and Rough Set Approximation Techniques: Application to Differential Diagnosis of Cholecystitis and Cholelithiasis Diseases)

  • 손창식;김민수;서석태;조윤경;김윤년
    • 대한의용생체공학회:의공학회지
    • /
    • 제32권2호
    • /
    • pp.134-143
    • /
    • 2011
  • The selection of meaningful clinical tests and its reference values from a high-dimensional clinical data with imbalanced class distribution, one class is represented by a large number of examples while the other is represented by only a few, is an important issue for differential diagnosis between similar diseases, but difficult. For this purpose, this study introduces methods based on the concepts of both discernibility matrix and function in rough set theory (RST) with two discretization approaches, equal width and frequency discretization. Here these discretization approaches are used to define the reference values for clinical tests, and the discernibility matrix and function are used to extract a subset of significant clinical tests from the translated nominal attribute values. To show its applicability in the differential diagnosis problem, we have applied it to extract the significant clinical tests and its reference values between normal (N = 351) and abnormal group (N = 101) with either cholecystitis or cholelithiasis disease. In addition, we investigated not only the selected significant clinical tests and the variations of its reference values, but also the average predictive accuracies on four evaluation criteria, i.e., accuracy, sensitivity, specificity, and geometric mean, during l0-fold cross validation. From the experimental results, we confirmed that two discretization approaches based rough set approximation methods with relative frequency give better results than those with absolute frequency, in the evaluation criteria (i.e., average geometric mean). Thus it shows that the prediction model using relative frequency can be used effectively in classification and prediction problems of the clinical data with imbalanced class distribution.

데이터의 공간적 분포를 고려한 퍼지 이산화와 특징선택에의 응용 (Fuzzy discretization with spatial distribution of data and Its application to feature selection)

  • 손창식;신아미;이인희;박희준;박형섭;김윤년
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.165-172
    • /
    • 2010
  • 임상 데이터마이닝에서 최적의 특징 집합을 선택하는 것은 주어진 데이터로부터 생성된 모델의 복잡성을 줄일 뿐만 아니라 유용성을 향상시키는 데에 매우 중요하고, 선택된 특징들의 임계값은 질병의 감별진단을 위해 임상 전문가의 결정기준으로 사용된다. 본 논문에서는 데이터의 공간적인 분포, 즉 중첩영역에서 중복 속성값을 포함하는 데이터의 분리성 정도를 평가함으로써 연속형 속성을 가진 데이터에 대한 퍼지 이산화기법을 제안한다. 제안된 방법에서 중복 속성값의 가중치 평균값은 각 특징의 임계값(즉 경계값)을 결정하기 위해서 사용되었고, 러프집합은 전체 특징들 중에서 중요특징들의 집합을 선택하기 위해서 이용하였다. 제안된 방법의 타당성을 검증하기 위해 호흡곤란을 주호소로 내원한 668명의 환자 데이터를 근거로 3가지 이산화방법과 제안된 이산화방법에 대한 실험을 수행하였다. 실험결과, 퍼지분할을 기반으로 한 이산화방법이 하드분할을 기반으로 한 이산화방법에 비해서 평균 분류정확도와 G-mean 성능에서 보다 좋은 결과를 제공함을 확인하였다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

이벤트 기반 지능형 선박엔진 결함분석 (An event-driven intelligent failure analysis for marine diesel engines)

  • 이양지;김덕영;황민순;정영수
    • 한국산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.71-85
    • /
    • 2012
  • 본 논문은 운항중인 선박에서 기록되어지는 운항정보 및 엔진 가동정보 등을 실시간으로 모니터링하고, 문제 발생 시에 그 근본원인을 찾아내어 민첩하게 대응할 수 있는 일련의 결함원인 분석 및 예방시스템 개발을 목적으로 한다. 결함분석을 위해서는 선박엔진의 주요기관에 부착된 센서들로부터 장기간 수집된 정보를 사용하게 되는데, 이 양이 매우 방대하며, 잡음 및 중복정보(Redundancy)가 너무 많이 포함되어, 수집된 센서 데이터를 바로 고장분석에 사용하기에는 어려움이 있다. 따라서 본 논문에서는 방대한 양의 데이터 중, 정보의 손실을 최소화하고 중요한 정보만을 추출하기 위해 'Equal-frequency binning'과 'Entropy' 기반의 데이터 필터링 방법에 관해 연구하였다. 실제로 시험운용 중인 선박엔진 데이터를 개발된 선박엔진 고장분석 소프트웨어를 이용하여 결함분석을 수행하여, 제안된 방법의 효용성을 검증한다.