• 제목/요약/키워드: High Dimensionality Data

검색결과 121건 처리시간 0.025초

Network Graph Analysis of Gene-Gene Interactions in Genome-Wide Association Study Data

  • Lee, Sungyoung;Kwon, Min-Seok;Park, Taesung
    • Genomics & Informatics
    • /
    • 제10권4호
    • /
    • pp.256-262
    • /
    • 2012
  • Most common complex traits, such as obesity, hypertension, diabetes, and cancers, are known to be associated with multiple genes, environmental factors, and their epistasis. Recently, the development of advanced genotyping technologies has allowed us to perform genome-wide association studies (GWASs). For detecting the effects of multiple genes on complex traits, many approaches have been proposed for GWASs. Multifactor dimensionality reduction (MDR) is one of the powerful and efficient methods for detecting high-order gene-gene ($G{\times}G$) interactions. However, the biological interpretation of $G{\times}G$ interactions identified by MDR analysis is not easy. In order to aid the interpretation of MDR results, we propose a network graph analysis to elucidate the meaning of identified $G{\times}G$ interactions. The proposed network graph analysis consists of three steps. The first step is for performing $G{\times}G$ interaction analysis using MDR analysis. The second step is to draw the network graph using the MDR result. The third step is to provide biological evidence of the identified $G{\times}G$ interaction using external biological databases. The proposed method was applied to Korean Association Resource (KARE) data, containing 8838 individuals with 327,632 single-nucleotide polymorphisms, in order to perform $G{\times}G$ interaction analysis of body mass index (BMI). Our network graph analysis successfully showed that many identified $G{\times}G$ interactions have known biological evidence related to BMI. We expect that our network graph analysis will be helpful to interpret the biological meaning of $G{\times}G$ interactions.

시계열 데이터베이스에서 DFT-기반 다차원 인덱스를 위한 물리적 데이터베이스 설계 (Physical Database Design for DFT-Based Multidimensional Indexes in Time-Series Databases)

  • 김상욱;김진호;한병일
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1505-1514
    • /
    • 2004
  • 시퀀스 매칭은 시계열 데이터베이스로부터 질의 시퀀스와 변화의 추세가 유사한 데이터 시퀀스들을 검색하는 연산이다. 기존의 대부분의 연구에서는 효과적인 시퀀스 매칭을 위하여 다차원 인덱스를 사용하며, 데이터 시퀀스를 이산 푸리에 변환(Discrete Fourier Transform: DFT)한 후, 단순히 앞의 두 개 내지 세 개의 DFT 계수만을 구성 속성 (organizing attributes)으로 사용함으로써 고차원의 경우 발생하는 차원 저주(dimensionality curse) 문제를 해결한다. 본 논문에서는 기존의 단순한 기법이 가지는 성능 상의 문제점들을 지적하고, 이러한 문제점들을 해결하는 최적의 다차원 인덱스 구성 기법을 제안한다. 제안된 기법은 대상이 되는 시계열 데이터베이스의 특성을 사전에 분석함으로써 변별력이 뛰어난 요소들을 다차원 인덱스의 구성 속성으로 선정하며, 비용 모델(cost model)을 기반으로 한 시퀀스 매칭 비용의 추정을 통하여 다차원 인덱스에 참여하는 최적의 구성 속성의 수를 결정한다. 제안된 기법의 우수성을 규명하기 위하여 실험을 통한기존 기법과의 성능 비교를 수행하였다 실험 결과에 의하면, 제안된 기법은 기존의 기법에 비교하여 매우 큰 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

교통상황 분류를 위한 클러스터링 기법 개발 (Development of Traffic State Classification Technique)

  • 강우진;김영호
    • 한국ITS학회 논문지
    • /
    • 제22권1호
    • /
    • pp.81-92
    • /
    • 2023
  • 교통상황 분류는 신호연동그룹 단위의 정주기식 제어 기법을 효율적으로 적용하기 위하여 TOD 계획을 수립하는데 핵심적인 기술이다. 본 논문에서는 신호연동그룹에 속하는 모든 교차로의 교통 자료 즉, 속도-교통량-밀도를 활용할 수 있는 딥 임베디드 클러스터링(Deep-Embedded Clustering:DEC) 기반 교통상황 분류 방법론을 제시하였다. 기존의 신호계획의 경우 교통량 기반으로 주요 교차로를 선정하고 해당 교차로의 교통자료를 이용하여 단편적인 신호계획을 하였으나, 본 논문에서 제시된 방법론의 경우 신호연동 그룹내 다수 교차로의 종합적인 교통특성에 따라 교통상황을 유연하게 분류하여 신호계획을 할 수 있는 기반을 제공하였다. 본 연구에서 제시된 방법론은 일반적인 군집화 방법론이 입력 자료의 차원이 증가함에 따라 겪는 차원의 저주 (Curse of dimensionality) 문제를 완화함으로써 신호연동그룹에 속하는 모든 신호교차로의 교통자료를 고려한 신호시간 계획 수립이 가능하며 기존의 특정교차로 및 교통량만을 이용한 교통상황 분류방법론의 단점을 극복할 수 있음을 보였다.

데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구 (A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining)

  • 김홍일;이혜명
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.887-900
    • /
    • 2003
  • 데이터베이스의 많은 응용분야에서 대용량 고차원 데이터의 클러스터링을 요구하고 있다. 이에 따라 클러스터링 알고리즘에 대한 많은 연구가 이루어지고 있으나 기존의 알고리즘들은 “차원의 저주”에 기인하여 고차원 공간에서 효과적 및 효율적으로 수행하지 못하는 경향이 있다. 더욱이, 고차원 데이터는 상당한 양의 잡음 데이터를 포함하고 있으므로 알고리즘의 효과성 문제를 야기한다. 그러므로 고차원 데이터의 구조와 다양한 특성을 지원하는 적합한 클러스터링 알고리즘이 개발되어야 한다. 본 논문에서는 지금까지 연구된 고차원 클러스터링 기법을 조사한 후, 각 기법의 장단점과 적합한 응용 분야에 대한 비교 및 분석을 통하여 분류한다. 특히 본 논문에서는 최근의 연구를 통하여 개발한 점진적 프로젝션 기반의 클러스터링 알고리즘인 CLIP의 성능을 기존의 알고리즘과 비교 분석함으로써 그 효율성 및 효과성을 입증한다. 이러한 알리즘들의 소개 및 분류를 통하여 향후의 더욱 향상된 클러스터링 알고리즘 개발에 기반이 되고자 한다.

  • PDF

High-resolution 1H NMR Spectroscopy of Green and Black Teas

  • Jeong, Ji-Ho;Jang, Hyun-Jun;Kim, Yongae
    • 대한화학회지
    • /
    • 제63권2호
    • /
    • pp.78-84
    • /
    • 2019
  • High-resolution $^1H$ NMR spectroscopic technique has been widely used as one of the most powerful analytical tools in food chemistry as well as to define molecular structure. The $^1H$ NMR spectra-based metabolomics has focused on classification and chemometric analysis of complex mixtures. The principal component analysis (PCA), an unsupervised clustering method and used to reduce the dimensionality of multivariate data, facilitates direct peak quantitation and pattern recognition. Using a combination of these techniques, the various green teas and black teas brewed were investigated via metabolite profiling. These teas were characterized based on the leaf size and country of cultivation, respectively.

Comparison of Hierarchical and Marginal Likelihood Estimators for Binary Outcomes

  • Yun, Sung-Cheol;Lee, Young-Jo;Ha, Il-Do;Kang, Wee-Chang
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.79-84
    • /
    • 2003
  • Likelihood estimation in random-effect models is often complicated because the marginal likelihood involves an analytically intractable integral. Numerical integration such as Gauss-Hermite quadrature is an option, but is generally not recommended when the dimensionality of the integral is high. An alternative is the use of hierarchical likelihood, which avoids such burdensome numerical integration. These two approaches for fitting binary data are compared and the advantages of using the hierarchical likelihood are discussed. Random-effect models for binary outcomes and for bivariate binary-continuous outcomes are considered.

  • PDF

Text Classification on Social Network Platforms Based on Deep Learning Models

  • YA, Chen;Tan, Juan;Hoekyung, Jung
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.9-16
    • /
    • 2023
  • The natural language on social network platforms has a certain front-to-back dependency in structure, and the direct conversion of Chinese text into a vector makes the dimensionality very high, thereby resulting in the low accuracy of existing text classification methods. To this end, this study establishes a deep learning model that combines a big data ultra-deep convolutional neural network (UDCNN) and long short-term memory network (LSTM). The deep structure of UDCNN is used to extract the features of text vector classification. The LSTM stores historical information to extract the context dependency of long texts, and word embedding is introduced to convert the text into low-dimensional vectors. Experiments are conducted on the social network platforms Sogou corpus and the University HowNet Chinese corpus. The research results show that compared with CNN + rand, LSTM, and other models, the neural network deep learning hybrid model can effectively improve the accuracy of text classification.

Exploring trends in blockchain publications with topic modeling: Implications for forecasting the emergence of industry applications

  • Jeongho Lee;Hangjung Zo;Tom Steinberger
    • ETRI Journal
    • /
    • 제45권6호
    • /
    • pp.982-995
    • /
    • 2023
  • Technological innovation generates products, services, and processes that can disrupt existing industries and lead to the emergence of new fields. Distributed ledger technology, or blockchain, offers novel transparency, security, and anonymity characteristics in transaction data that may disrupt existing industries. However, research attention has largely examined its application to finance. Less is known of any broader applications, particularly in Industry 4.0. This study investigates academic research publications on blockchain and predicts emerging industries using academia-industry dynamics. This study adopts latent Dirichlet allocation and dynamic topic models to analyze large text data with a high capacity for dimensionality reduction. Prior studies confirm that research contributes to technological innovation through spillover, including products, processes, and services. This study predicts emerging industries that will likely incorporate blockchain technology using insights from the knowledge structure of publications.

Comparison of the Performance of Clustering Analysis using Data Reduction Techniques to Identify Energy Use Patterns

  • Song, Kwonsik;Park, Moonseo;Lee, Hyun-Soo;Ahn, Joseph
    • 국제학술발표논문집
    • /
    • The 6th International Conference on Construction Engineering and Project Management
    • /
    • pp.559-563
    • /
    • 2015
  • Identification of energy use patterns in buildings has a great opportunity for energy saving. To find what energy use patterns exist, clustering analysis has been commonly used such as K-means and hierarchical clustering method. In case of high dimensional data such as energy use time-series, data reduction should be considered to avoid the curse of dimensionality. Principle Component Analysis, Autocorrelation Function, Discrete Fourier Transform and Discrete Wavelet Transform have been widely used to map the original data into the lower dimensional spaces. However, there still remains an ongoing issue since the performance of clustering analysis is dependent on data type, purpose and application. Therefore, we need to understand which data reduction techniques are suitable for energy use management. This research aims find the best clustering method using energy use data obtained from Seoul National University campus. The results of this research show that most experiments with data reduction techniques have a better performance. Also, the results obtained helps facility managers optimally control energy systems such as HVAC to reduce energy use in buildings.

  • PDF

데이터 마이닝에서의 폴리클라스 (Polyclass in Data Mining)

  • 구자용;박헌진;최대우
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.489-503
    • /
    • 2000
  • 다양한 형태의 데이터로부터 의사 결정에 유용한 정보 및 지식을 발견하려는 일련의 데이터분석 및 모형 선정과정을 데이터 마이닝(Data Mining)이라고 할 수 있다. 데이터 마이닝의 적용 예로는 신규고객에 대한 신용평가, 고객이탈방지 등과 같은 분야에서 발생하는 스코링 문제를 들 수 있는데 신용평가에서는 신용이 나쁠 가능성을 스코어로 나타내고 스코어가 높은 고객을 대상으로 특별관리를 할 수 있을 것이며 고객이탈방지에서는 이탈가능성을 스코어로 나타내고 스코어가 높은 고객을 대상으로 이탈 방지 캠페인을 벌일 수 있을 것이다. 본 논문에서는 스코링 문제를 사후확률에 대한 모형화 문제로 파악하였다. 폴리클라스를 스코링 문제에 적용하는 방법을 소개한 후 이를 독일 신용 데이터, 국내 모 PC통신회사 데이터 및 국내 모 이동통신 데이터에 적용하였다. 스코링의 성능은 이득률을 이용하여 평가하고자 하는데 나무 모형에 비하여 폴리클라스 방법이 우수함을 확인하였다.

  • PDF