• 제목/요약/키워드: Feature evaluation

검색결과 979건 처리시간 0.025초

Prediction of East Asian Brain Age using Machine Learning Algorithms Trained With Community-based Healthy Brain MRI

  • Chanda Simfukwe;Young Chul Youn
    • 대한치매학회지
    • /
    • 제21권4호
    • /
    • pp.138-146
    • /
    • 2022
  • Background and Purpose: Magnetic resonance imaging (MRI) helps with brain development analysis and disease diagnosis. Brain volumes measured from different ages using MRI provides useful information in clinical evaluation and research. Therefore, we trained machine learning models that predict the brain age gap of healthy subjects in the East Asian population using T1 brain MRI volume images. Methods: In total, 154 T1-weighted MRIs of healthy subjects (55-83 years of age) were collected from an East Asian community. The information of age, gender, and education level was collected for each participant. The MRIs of the participants were preprocessed using FreeSurfer(https://surfer.nmr.mgh.harvard.edu/) to collect the brain volume data. We trained the models using different supervised machine learning regression algorithms from the scikit-learn (https://scikit-learn.org/) library. Results: The trained models comprised 19 features that had been reduced from 55 brain volume labels. The algorithm BayesianRidge (BR) achieved a mean absolute error (MAE) and r squared (R2) of 3 and 0.3 years, respectively, in predicting the age of the new subjects compared to other regression methods. The results of feature importance analysis showed that the right pallidum, white matter hypointensities on T1-MRI scans, and left hippocampus comprise some of the essential features in predicting brain age. Conclusions: The MAE and R2 accuracies of the BR model predicting brain age gap in the East Asian population showed that the model could reduce the dimensionality of neuroimaging data to provide a meaningful biomarker for individual brain aging.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

A New Item Recommendation Procedure Using Preference Boundary

  • Kim, Hyea-Kyeong;Jang, Moon-Kyoung;Kim, Jae-Kyeong;Cho, Yoon-Ho
    • Asia pacific journal of information systems
    • /
    • 제20권1호
    • /
    • pp.81-99
    • /
    • 2010
  • Lately, in consumers' markets the number of new items is rapidly increasing at an overwhelming rate while consumers have limited access to information about those new products in making a sensible, well-informed purchase. Therefore, item providers and customers need a system which recommends right items to right customers. Also, whenever new items are released, for instance, the recommender system specializing in new items can help item providers locate and identify potential customers. Currently, new items are being added to an existing system without being specially noted to consumers, making it difficult for consumers to identify and evaluate new products introduced in the markets. Most of previous approaches for recommender systems have to rely on the usage history of customers. For new items, this content-based (CB) approach is simply not available for the system to recommend those new items to potential consumers. Although collaborative filtering (CF) approach is not directly applicable to solve the new item problem, it would be a good idea to use the basic principle of CF which identifies similar customers, i,e. neighbors, and recommend items to those customers who have liked the similar items in the past. This research aims to suggest a hybrid recommendation procedure based on the preference boundary of target customer. We suggest the hybrid recommendation procedure using the preference boundary in the feature space for recommending new items only. The basic principle is that if a new item belongs within the preference boundary of a target customer, then it is evaluated to be preferred by the customer. Customers' preferences and characteristics of items including new items are represented in a feature space, and the scope or boundary of the target customer's preference is extended to those of neighbors'. The new item recommendation procedure consists of three steps. The first step is analyzing the profile of items, which are represented as k-dimensional feature values. The second step is to determine the representative point of the target customer's preference boundary, the centroid, based on a personal information set. To determine the centroid of preference boundary of a target customer, three algorithms are developed in this research: one is using the centroid of a target customer only (TC), the other is using centroid of a (dummy) big target customer that is composed of a target customer and his/her neighbors (BC), and another is using centroids of a target customer and his/her neighbors (NC). The third step is to determine the range of the preference boundary, the radius. The suggested algorithm Is using the average distance (AD) between the centroid and all purchased items. We test whether the CF-based approach to determine the centroid of the preference boundary improves the recommendation quality or not. For this purpose, we develop two hybrid algorithms, BC and NC, which use neighbors when deciding centroid of the preference boundary. To test the validity of hybrid algorithms, BC and NC, we developed CB-algorithm, TC, which uses target customers only. We measured effectiveness scores of suggested algorithms and compared them through a series of experiments with a set of real mobile image transaction data. We spilt the period between 1st June 2004 and 31st July and the period between 1st August and 31st August 2004 as a training set and a test set, respectively. The training set Is used to make the preference boundary, and the test set is used to evaluate the performance of the suggested hybrid recommendation procedure. The main aim of this research Is to compare the hybrid recommendation algorithm with the CB algorithm. To evaluate the performance of each algorithm, we compare the purchased new item list in test period with the recommended item list which is recommended by suggested algorithms. So we employ the evaluation metric to hit the ratio for evaluating our algorithms. The hit ratio is defined as the ratio of the hit set size to the recommended set size. The hit set size means the number of success of recommendations in our experiment, and the test set size means the number of purchased items during the test period. Experimental test result shows the hit ratio of BC and NC is bigger than that of TC. This means using neighbors Is more effective to recommend new items. That is hybrid algorithm using CF is more effective when recommending to consumers new items than the algorithm using only CB. The reason of the smaller hit ratio of BC than that of NC is that BC is defined as a dummy or virtual customer who purchased all items of target customers' and neighbors'. That is centroid of BC often shifts from that of TC, so it tends to reflect skewed characters of target customer. So the recommendation algorithm using NC shows the best hit ratio, because NC has sufficient information about target customers and their neighbors without damaging the information about the target customers.

수치임상도 작업매뉴얼의 개선방안에 관한 연구 (A Study on the Improvement of Guideline in Digital Forest Type Map)

  • 박정묵;도미령;심우담;이정수
    • 한국지리정보학회지
    • /
    • 제22권1호
    • /
    • pp.168-182
    • /
    • 2019
  • 본 연구는 "임상도 현행화 제작(DB구축 작업매뉴얼)" (이하 작업매뉴얼)의 제작과정과 방법을 검토하고, 1:5k 수치임상도(이하 임상도)에 평가항목을 적용하여 제작과정과 방법에 대한 문제점 도출 및 개선방안 제시를 목적으로 하였다. 임상도에 적용되는 평가항목은 구획과 속성에 관한 사항으로 구분하였으며, 행정구역별 임분구조 특성과 파편화 분석을 통하여 작업매뉴얼의 제작과정과 방법의 문제점을 도출하였다. 작업매뉴얼의 구획에 관한 사항은 '인위적변화지와 자연적변화지'의 항목에서 제작과정이 제안되어있고 전국을 5분할하여 자연적변화지는 5년 주기로 인위적 변화지는 매년 갱신하고 있기 때문에 지역 간 구축된 임상도 DB의 일관성을 알아보고자 파편화를 분석하였다. 전국의 산림 패치수(Number of Patches)는 증가하고, 평균패치크기(Mean of Patch Size)가 감소하여 파편화 정도와 형태의 복잡성이 증가하였으며, 17개 광역시 도 중 4개의 지역은 파편화 정도와 형태의 복잡성이 감소하여 지역 간의 편차가 발생하였다. 또한, '산림의 구분' 항목에서 최소구획면적은 0.1ha로 구분하고 있기 때문에 임상도에서 구획된 객체(폴리곤 단위) 면적을 산출하여 최소구회면적 기준을 검토한 결과 전체 객체 중 최소구획면적 기준 미만이 되는 객체의 비율은 약 26%나 차지하였다. 이에 따라 '인위적변화지와 자연적변화지'의 갱신 주기와 정의 확립이 필요하며, 최소구획면적 기준에 대한 구획 기준의 개선이 필요하다. 한편, 작업매뉴얼의 속성에 관한 사항은 '수종변화' 항목에서 지형지물체계를 52종으로 분류하고 있으며, 이 중 입목지는 43종으로 분류하고 있어, 임상도에서 구축된 수종정보를 추출하여 분포비율을 검토하였다. 입목지 수종 중 분포비율이 0.1% 미만인 수종은 23종으로 약 53%를 차지하고 있으며, 상위 3종은 소나무와 기타수종으로 구획되어 있다. 또한, 무립목지의 관목덤불은 지형지물체계에서 분류하고 있지만, '산림의 구분' 항목에서는 정의 및 판독기준이 마련되어 있지 않기 때문에 '수종변화'의 지형지물체계의 재정립과 관목덤불에 대한 정의 정립이 필요하다.

웹 문서를 위한 개선된 문장경계인식 방법 (Improved Sentence Boundary Detection Method for Web Documents)

  • 이충희;장명길;서영훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.455-463
    • /
    • 2010
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반하여 개선한 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 종결어미를 대상으로 학습하여 문장경계 인식을 수행하였다. 또한 문장경계인식 성능을 최대화하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 문서별 성능 측정을 위해서 구두점이 주로 문장경계로 사용된 문어체 위주의 평가셋1(신문기사와 블로그 문서)과 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서 위주의 평가셋2(웹 사이트의 게시판 글)를 대상으로 성능을 측정하였다. 평가 척도로는 F-measure를 사용하였으며, 기존 연구와 동일하게 구두점만을 문장경계 대상으로 학습한 기본 모델을 만들어서 실험한 결과, 평가셋1에 대해서 96.5%의 성능을 보였지만, 평가셋2에 대해서는 56.7%로 매우 저조한 성능을 보였다. 제안하는 개선 방법은 기본 모델을 웹 문서의 특징을 반영시키도록 자질 및 엔진을 개선시켰고, 최종 모델을 평가셋2로 평가한 결과, 96.3%의 성능을 보여서 39.6%의 성능 향상이 있음을 확인하였다.

수평 방사형 집수정 활용 강변여과 취수 수치 분석 (Numerical Analysis of Horizontal Collector Well in Riverbank Filtration)

  • 김형수;정재훈
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제14권1호
    • /
    • pp.1-10
    • /
    • 2009
  • 지하수 유동 수치 모사 프로그램 (FEFLOW 5.1)을 이용하여 수평 방사형 집수정 취수에 따른 강변여과 지역의 지하수 유동을 분석하였다. 양수량, 대수층 두께, 취수정과 하천 사이의 이격거리, 하천 바닥의 투수 능력(Conductance)등의 조건 변화에 따른 집수정 인접 대수층의 수위강하가 계산되었다. 이들 조건 변화에 따라 지하수위 강하는 뚜렷한 변화를 보여주었다. 민감도 분석 결과, 대수층의 두께와 취수정과 하천 사이의 이격거리가 하천 바닥의 수리 전도에 비해 지하수위 강하에 더 민감하게 영향을 주는 것으로 평가되었다. 이러한 결과는 수평 방사형 집수정을 통한 강변여과 취수 가능지역을 선정하고 그 개발량을 추정할 때, 충적 대수층의 두께와 분포 특성이 중요한 요소임을 시사한다. 또한 FEFLOW의 1차원 선형 불연속 특징 요소를 활용한 수치 모사는 효과적으로 수평 방사형 집수정의 정량 평가와 강변여과 현장의 개발 가능량 추정을 할 수 있는 도구임이 밝혀졌다.

대규모 동적 해싱 디렉토리의 구현 및 평가 (An Implementation and Evaluation of Large-Scale Dynamic Hashing Directories)

  • 김신우;이용규
    • 한국멀티미디어학회논문지
    • /
    • 제8권7호
    • /
    • pp.924-942
    • /
    • 2005
  • 최근 대용량 데이터의 저장과 검색을 위해서 리눅스 클러스터 파일시스템의 디렉토리는 점차 대규모로 되고 있다. 그들 중 대표적인 GFS의 디렉토리는 동적 해싱의 하나인 빠른 검객을 지원하는 확장 해싱을 이용하고 있다. GFS의 디렉토리의 주된 특징은 모든 리프 노드들이 트리의 동일한 레벨에 놓이는 플랫 구조를 가지고 있다. 그러나 리프 노드에서 오버플로우가 발생하게 되면 레벨이 하나 증가하면서 갑자기 데이터 블록의 임의의 평균 접근 시간이 길어지는 단점이 있다. 또 다른 동적 해싱으로는 선형해싱을 들 수 있고, 이는 확장 해싱보다 파일 접근에 좋은 성능을 보여준다. 본 논문에서는 플랫 구조보다 더 좋은 접근 성능을 가지는 세미 플랫 구조를 이용하여, 대규모 리눅스 클러스터 파일 시스템을 위한 확장 해싱 디렉토리와 선형 해싱 디렉토리를 설계 및 구현하고 그들의 성능을 비교한다. 성능 평가 결과, 파일의 삽입 면에서는 선형 해싱 기반의 디렉토리가 좋은 성능을 보였으나, 공간 활용 면에서는 확장 해싱 기반의 디렉토리가 좋은 성능을 보였다.

  • PDF

혼합치열기 정상교합아동의 수완부골과 경추골의 성숙도 비교 연구 (THE COMPARATIVE STUDY OF CORRELATION ON HAND-WRIST WITH CERVICAL VERTEBRAE FOR SKELETAL MATURATION IN MIXED DENTITION CHILDREN WITH NORMAL OCCLUSION)

  • 김명국;양규호;최남기;김선미;김지수
    • 대한소아치과학회지
    • /
    • 제38권3호
    • /
    • pp.237-243
    • /
    • 2011
  • 이번 연구의 목적은 소아환자의 골격성숙도 평가를 위해 경추골과 수완부골 방사선 사진의 상호연관도를 연구하는 것이다. 성적인 특징, 연령, 치아 발육, 신장, 체중과 골격성장은 성장 단계를 확인하기 위해 사용되는 일반적인 방법이다. 청소년기 전이나 청소년기 동안 성장잠재력에 대한 평가는 매우 중요하다. 본 연구는 6~18세 아동을 대상으로 측면 두부 방사선 사진과 수완부골 방사선 사진을 촬영하여 골격성숙 단계를 비교 평가하였다. 1. 일반연령은 Skeletal Maturity Indicators(SMI)와 Cervical Vertebrae Maturation(CVM)에 비하여 적절한 골격성숙도 표시자가 되지 못하였다. 2. SMI와 CVM의 골격성숙도는 여자의 경우 남자에 비해 더 빨랐다. 3. SMI 1, 2는 CVM 1, SMI 3, 4는 CVM 2, SMI 5, 6은 CVM 3에 해당하는 연관관계가 나타났다. 4. SMI와 CVM에 대한 측정자의 재현성 및 신뢰도는 우수하였다. 이상의 결과로 CVM도 SMI와 같이 교정치료에 있어 골격성숙도를 평가하는 적절한 방법이 될 수 있다.

Expectation Maximization (EM)과 Least Mean Square(LMS) algorithm을 이용하여 초음파 비파괴검사 신호의 분류를 하기 위한 새로운 접근법 (A novel approach to the classification of ultrasonic NDE signals using the Expectation Maximization(EM) and Least Mean Square(LMS) algorithms)

  • Daewon Kim
    • 융합신호처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.15-26
    • /
    • 2003
  • 초음파 검사 방법은 여러 가지 물질들의 흠집이나 틈새, 그리고 티끌 등을 감지해내는데 널리 쓰이고 있다. 그 중 초음파 신호를 분석하는 절차는 전체의 신호처리 과정에서 아주 중요한 역할을 담당하고 있다. 많은 초음파 신호처리와 신호분류의 방법들이 제기 되었는데 그 중 가장 널리 쓰이는 방법은 신호들의 특징 공간상에서 그 특정의 성분들을 추출해내고 그 후 신경망 네트웍을 통한 분류 방법을 이용하여 초음파 신호들을 구별해 내는 방법이다. 이 논문은 기존의 신호 분류 체계와는 다른 대체 신호 분류법을 제시하고 있는데 이것은 최소 평균 제곱 (LMS) 알고리즘을 이용하여 핵 전력 발전소에서 쓰이는 증기 발생기 튜브로부터 감지되어진 초음파 비파괴 검사 신호 (ultrasonic nondestructive evaluation signal) 을 분류해내는데 쓰일 수가 있다 이 초음파 비파괴 검사 신호는 튜브내의 흠집이나 틈새로부터 감지되어진 신호일수도 있고 또는 튜브내의 침전물에 의해서 발생된 신호일 수도 있는데 이 두가지 신호는 매우 유사하기 때문에 반드시 분류를 해내어 침전물에 의한 신호일 경우는 무방하지만 흠집이나 갈라진 틈새에서 나오는 신호일 경우는 더 이상의 오염이나 사고 등을 방지하기 위해 수리 또는 교체 등의 후속 조치로 이어져야 한다. 이러한 절차를 밟기 위하여 증기 발생기 튜브의 내부에서의 초음파 센서로부터 증기 발생기 튜브 사이의 거리를 측정하는데 모델링 기법에 기반한 deconvolution 방법이 제시되었고 여기서 나온 결과가 정리, 분석되었다 이 방법은 space alternating generalized expectation maximization (SAGE) 알고리즘을 이차원 미분 파라미터인 Hessian의 사용으로 인하여 수렴 속도가 빠른 Newton-Raphson 알고리즘과 함께 병행 사용하여 초음파 신호의 초점 도달 시간과 그 크기를 측정하여 초점 도달 거리에 따라 두 종류의 신호를 분류, 차별화 하는 기법이다. 이 알고리즘을 이용한 접근법으로 얻어진 결과가 흠집이나 틈새로부터 나온 신호일 경우와 퇴적물에 의해 나온 신호일 경우로 정리, 분류되었고 적절한 분류 효과를 보인 결과가 이 논문에 제시되었다.

  • PDF

Development of On-line Quality Sorting System for Dried Oak Mushroom - 3rd Prototype-

  • 김철수;김기동;조기현;이정택;김진현
    • Agricultural and Biosystems Engineering
    • /
    • 제4권1호
    • /
    • pp.8-15
    • /
    • 2003
  • In Korea, quality evaluation of dried oak mushrooms are done first by classifying them into more than 10 different categories based on the state of opening of the cap, surface pattern, and colors. And mushrooms of each category are further classified into 3 or 4 groups based on its shape and size, resulting into total 30 to 40 different grades. Quality evaluation and sorting based on the external visual features are usually done manually. Since visual features of mushroom affecting quality grades are distributed over the entire surface of the mushroom, both front (cap) and back (stem and gill) surfaces should be inspected thoroughly. In fact, it is almost impossible for human to inspect every mushroom, especially when they are fed continuously via conveyor. In this paper, considering real time on-line system implementation, image processing algorithms utilizing artificial neural network have been developed for the quality grading of a mushroom. The neural network based image processing utilized the raw gray value image of fed mushrooms captured by the camera without any complex image processing such as feature enhancement and extraction to identify the feeding state and to grade the quality of a mushroom. Developed algorithms were implemented to the prototype on-line grading and sorting system. The prototype was developed to simplify the system requirement and the overall mechanism. The system was composed of automatic devices for mushroom feeding and handling, a set of computer vision system with lighting chamber, one chip microprocessor based controller, and pneumatic actuators. The proposed grading scheme was tested using the prototype. Network training for the feeding state recognition and grading was done using static images. 200 samples (20 grade levels and 10 per each grade) were used for training. 300 samples (20 grade levels and 15 per each grade) were used to validate the trained network. By changing orientation of each sample, 600 data sets were made for the test and the trained network showed around 91 % of the grading accuracy. Though image processing itself required approximately less than 0.3 second depending on a mushroom, because of the actuating device and control response, average 0.6 to 0.7 second was required for grading and sorting of a mushroom resulting into the processing capability of 5,000/hr to 6,000/hr.

  • PDF