• 제목/요약/키워드: Categorization reduction

검색결과 22건 처리시간 0.019초

Impact of Instance Selection on kNN-Based Text Categorization

  • Barigou, Fatiha
    • Journal of Information Processing Systems
    • /
    • 제14권2호
    • /
    • pp.418-434
    • /
    • 2018
  • With the increasing use of the Internet and electronic documents, automatic text categorization becomes imperative. Several machine learning algorithms have been proposed for text categorization. The k-nearest neighbor algorithm (kNN) is known to be one of the best state of the art classifiers when used for text categorization. However, kNN suffers from limitations such as high computation when classifying new instances. Instance selection techniques have emerged as highly competitive methods to improve kNN through data reduction. However previous works have evaluated those approaches only on structured datasets. In addition, their performance has not been examined over the text categorization domain where the dimensionality and size of the dataset is very high. Motivated by these observations, this paper investigates and analyzes the impact of instance selection on kNN-based text categorization in terms of various aspects such as classification accuracy, classification efficiency, and data reduction.

Data Reduction Method in Massive Data Sets

  • Namo, Gecynth Torre;Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제7권1호
    • /
    • pp.35-40
    • /
    • 2009
  • Many researchers strive to research on ways on how to improve the performance of RFID system and many papers were written to solve one of the major drawbacks of potent technology related with data management. As RFID system captures billions of data, problems arising from dirty data and large volume of data causes uproar in the RFID community those researchers are finding ways on how to address this issue. Especially, effective data management is important to manage large volume of data. Data reduction techniques in attempts to address the issues on data are also presented in this paper. This paper introduces readers to a new data reduction algorithm that might be an alternative to reduce data in RFID Systems. A process on how to extract data from the reduced database is also presented. Performance study is conducted to analyze the new data reduction algorithm. Our performance analysis shows the utility and feasibility of our categorization reduction algorithms.

Dimension reduction for right-censored survival regression: transformation approach

  • Yoo, Jae Keun;Kim, Sung-Jin;Seo, Bi-Seul;Shin, Hyejung;Sim, Su-Ah
    • Communications for Statistical Applications and Methods
    • /
    • 제23권3호
    • /
    • pp.259-268
    • /
    • 2016
  • High-dimensional survival data with large numbers of predictors has become more common. The analysis of such data can be facilitated if the dimensions of predictors are adequately reduced. Recent studies show that a method called sliced inverse regression (SIR) is an effective dimension reduction tool in high-dimensional survival regression. However, it faces incapability in implementation due to a double categorization procedure. This problem can be overcome in the right-censoring type by transforming the observed survival time and censoring status into a single variable. This provides more flexibility in the categorization, so the applicability of SIR can be enhanced. Numerical studies show that the proposed transforming approach is equally good to (or even better) than the usual SIR application in both balanced and highly-unbalanced censoring status. The real data example also confirms its practical usefulness, so the proposed approach should be an effective and valuable addition to usual statistical practitioners.

하천식생 이입현상의 원인 별 유형화 및 연구 방향 (Cause-based Categorization of the Riparian Vegetative Recruitment and Corresponding Research Direction)

  • 우효섭;박문형
    • Ecology and Resilient Infrastructure
    • /
    • 제3권3호
    • /
    • pp.207-211
    • /
    • 2016
  • 본 연구는 충적하천의 식생이입 현상, 즉 경관생태적으로 하천이 화이트리버에서 그린리버로 변하는 현상을 원인 별로 구분하고, 구분된 각각의 유형을 설명하고, 앞으로의 연구방향을 제시하는 것이다. 문헌연구와 과거 필자들이 제한된 범위에서 시행한 관련 국내 연구성과에 의하면 사주 상 하천식생 이입과 퇴행의 필요/충분 조건은 기계적 교란 (하상소류력), 토양습윤(지하수위, 지형, 하상재료 구성, 강수 등), 침수기간, 극단적 기후, 그리고 영양염류의 유입 등이다. 본 연구에서 사주 상 하천식생 이입과 퇴행의 원인 별 유형으로서 부분적으로 입증된 가설인 봄철 강우양상 변화로 인한 비조절하천에서 홍수 저감과 하천에 영양물질 유입증가 유형을 추가하였다. 하천식생 이입과 퇴행 현상을 과학적으로 더 규명하고 실제 이용가능한 하천식생모형의 개발을 위해서는 화이트리버가 그린리버로 바뀌는 현상의 전국적인 현황조사, 가설의 검증과 세분화를 통한 원인 별 유형 정립, 동적 하천식생 모델링 기법 개발, 변화에 따른 적응관리 등에 대해 연구가 필요하다.

기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석 (Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.313-332
    • /
    • 2009
  • 교차언어 문서 범주화(CLTC)는 다른 언어로 된 학습집단을 이용하여 문헌을 자동 분류할 수 있다. 이 연구는 KTSET으로부터 CLTC에 적합한 실험문헌집단을 추출하고, 기계 번역기를 이용하여 가능한 여러 CLTC 방법의 분류 성능을 비교하였다. 분류기는 SVM 분류기를 이용하였다. 실험 결과, CLTC 중에 다국어 학습방법이 가장 좋은 분류 성능을 보였으며, 학습집단 번역방법, 검증집단 번역방법 순으로 분류 성능이 낮아졌다. 하지만 학습집단 번역방법이 기계번역 측면에서 효율적이며, 일반적인 환경에 쉽게 적용할 수 있고, 비교적 분류 성능이 좋아 CLTC 방법 중에서 가장 높은 이용 가능성을 보였다. 한편 CLTC에서 기계번역을 이용하였을 때 번역과정에서 발생하는 자질축소나 주제적 특성이 없는 자질로의 번역으로 인해 성능 저하를 가져왔다.

결정 트리 모델링에 의한 한국어 문맥 종속 음소 분류 연구 (A Study on the Categorization of Context-dependent Phoneme using Decision Tree Modeling)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.195-202
    • /
    • 2001
  • 본 논문에서는 한국어 음소가 좌, 우 음소에 따라 발음 방식이 달라질 때 매 음소를 모델링 하는 방법에 관한 연구를 수행한다. 이를 위해 유니트 감소 알고리즘과 결정 트리(Decision Tree)를 사용하는 방법을 사용하여 비교 연구한다. 유니트 감소 알고리즘은 통계적 특성만을 이용한 알고리즘이며 결정 트리 모델링 방식은 한국어 음운정보와 통계적 정보를 이용하여 문맥종속 음소를 분류하는 방식이다. 특히 본 논문에서는 결정 트리를 사용하여 문맥종속 음소를 분류하는 것에 대하여 상세히 기술한다. 마지막으로 결정 트리를 사용하여 분류된 문맥종속 음소의 성능을 실험하였다.

  • PDF

자발적 온실가스 감축목표 달성을 위한 발전기술별 온실가스저감 잠재량 평가 (Abatement Potentials of Power Generation Technologies for the Achievement of National INDC)

  • 백민호;노민영;;김수덕
    • 자원ㆍ환경경제연구
    • /
    • 제25권4호
    • /
    • pp.565-590
    • /
    • 2016
  • 전 세계는 온실가스 배출량을 저감하기 위한 방안을 제시하고 있다. 우리나라는 2030년 전망치 대비 국내에서 25.7%, 전체로는 37%의 국가 자발적 감축목표를 제출하였다. 본 연구에서는 기술평가를 위한 통합평가모형인 GCAM(Global Change Assessment Model)을 이용하여 국가 자발적 감축목표에서 제시한 감축목표 25.7%가 우리나라 에너지시스템에 미치는 영향을 평가한다. 분석결과, 석탄, 가스를 사용하는 발전기술은 각각 28%, 13.5% 발전량이 줄어드는 것으로 나타나지만, 바이오매스, 풍력, 태양에너지는 각각 47.6%, 22.0% 그리고 45.4% 증가하는 것으로 나타났다. 주목할 점은 신기술로 분류되는 USC(초초임계발전) 등 화석연료 발전기술들이 온실가스 감축목표달성에 전혀 또는 거의 기여하지 못하는 결과를 보인다는 점에서 향후 신기술을 선정할 때 정량적 평가 등 세심한 주의가 필요함을 보여준다.

QR-분해를 이용한 효율적인 차원 감소 방법과 문서 분류에의 응용 (Efficient dimension reduction using QR-decomposition and its application to text categorization)

  • 이문휘;박정희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.358-360
    • /
    • 2006
  • LDA는 그룹간 간격을 최대화하고 그룹내 분산을 최소화하는 선형변환을 구함으로써 차원 감소된 공간에서 분별력(classification performance)을 높이는 선형 차원 감소 방법이다. 본 논문에서는 저샘플 문제(undersampled problem)에서 LDA를 적용할 수 있도록 QR-분해를 이용한 효율적인 차원 감소 방법을 제안한다. 특히 제안되는 방법은 문서 분류 문제에서처럼 한 문서가 몇 개의 카테고리에 중복적으로 속하는 경우 등 데이터의 독립성이 보장되지 않는 경우에도 효과적으로 적용될 수 있다는 장점이 있다.

  • PDF

Disparity between MR Imaging and Histochemical Grading in Human Intervertebral Disc Degeneration

  • Lee, June-Ho;Chung, Chun-Kee;Kim, Hyun-Jib
    • Journal of Korean Neurosurgical Society
    • /
    • 제39권6호
    • /
    • pp.432-437
    • /
    • 2006
  • Objective : In order to establish the index of degeneration, the authors performed a histochemical study with Safranin-O staining and investigated the occurrence of apoptosis in the human intervertebral disc. Methods : Eighteen intervertebral disc specimens surgically extracted from the patients and two additional specimens from the autopsied cases were stained with Safranin-O for proteoglycan according to a standard protocol. Terminal deoxynucleotidyl transferase-mediated deoxyuridine triphosphate- biotin nick end labeling[TUNEL] was used to detect the fragmented DNA known to be associated with apoptotic cell death and classification scheme was formulated for categorization of the degree of Safranin-O staining [normal, moderate reduction, faint] by modification of Makin's histological-histochemical grading. The Kruskal-Wallis H test and Chi-square test were used for statistical analysis. Results : The statistical results showed a significant difference in the mean age between "normal" Safranin-O staining group and the others [19.3 versus 55, 43.4, p=0021]. However, there was no statistically significant correlation between Safranin-O staining and MR grading of disc degeneration. Only six of eighteen surgical specimens and none in autopsies showed positive apoptotic cells in TUNEL staining. Conclusion : The determination of the degree of degeneration in surgically obtained disc tissue per se by histochemical staining or by the degree of apoptosis that corresponds to its morphologic change was not feasible.

The impacts of exercise on pediatric obesity

  • Headid, Ronald J. III;Park, Song-Young
    • Clinical and Experimental Pediatrics
    • /
    • 제64권5호
    • /
    • pp.196-207
    • /
    • 2021
  • Over the last few decades, the rates of pediatric obesity have more than doubled regardless of sociodemographic categorization, and despite these rates plateauing in recent years there continues to be an increase in the severity of obesity in children and adolescents. This review will discuss the pediatric obesity mediated cardiovascular disease (CVD) risk factors such as attenuated levels of satiety and energy metabolism hormones, insulin resistance, vascular endothelial dysfunction, and arterial stiffness. Additionally, early intervention to combat pediatric obesity is critical as obesity has been suggested to track into adulthood, and these obese children and adolescents are at an increased risk of early mortality. Current suggested strategies to combat pediatric obesity are modifying diet, limiting sedentary behavior, and increasing physical activity. The effects of exercise intervention on metabolic hormones such as leptin and adiponectin, insulin sensitivity/resistance, and body fat in obese children and adolescents will be discussed along with the exercise modality, intensity, and duration. Specifically, this review will focus on the differential effects of aerobic exercise, resistance training, and combined exercise on the cardiovascular risks in pediatric obesity. This review outlines the evidence that exercise intervention is a beneficial therapeutic strategy to reduce the risk factors for CVD and the ideal exercise prescription to combat pediatric obesity should contain both muscle strengthening and aerobic components with an emphasis on fat mass reduction and long-term adherence.