• 제목/요약/키워드: Self-organizing Maps(SOM)

검색결과 57건 처리시간 0.021초

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

베이지안 SOM과 붓스트랩을 이용한 문서 군집화에 의한 문서 순위조정 (A Document Ranking Method by Document Clustering Using Bayesian SoM and Botstrap)

  • 최준혁;전성해;이정현
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2108-2115
    • /
    • 2000
  • The conventional Boolean retrieval systems based on vector spae model can provide the results of retrieval fast, they can't reflect exactly user's retrieval purpose including semantic information. Consequently, the results of retrieval process are very different from those users expected. This fact forces users to waste much time for finding expected documents among retrieved documents. In his paper, we designed a bayesian SOM(Self-Organizing feature Maps) in combination with bayesian statistical method and Kohonen network as a kind of unsupervised learning, then perform classifying documents depending on the semantic similarity to user query in real time. If it is difficult to observe statistical characteristics as there are less than 30 documents for clustering, the number of documents must be increased to at least 50. Also, to give high rank to the documents which is most similar to user query semantically among generalized classifications for generalized clusters, we find the similarity by means of Kohonen centroid of each document classification and adjust the secondary rank depending on the similarity.

  • PDF

강우량-지속시간-침수량 관계곡선과 자기조직화 지도의 연계를 통한 범람범위 추정 (Estimation of Inundation Area by Linking of Rainfall-Duration-Flooding Quantity Relationship Curve with Self-Organizing Map)

  • 김현일;금호준;한건연
    • 대한토목학회논문집
    • /
    • 제38권6호
    • /
    • pp.839-850
    • /
    • 2018
  • 집중호우에 의한 도시 유역의 침수 피해가 도시화에 따라 증가하는 추세이며, 이에 따라 정확하면서도 신속한 홍수예보 및 침수 예상도 표출이 필요하다. 특정 강우량에 따른 미지의 침수 범위를 예상하는 것은 도시 유역의 홍수에 대한 사전 대비에 매우 중요한 사안이며, 이를 위해 현재 홍수 예보와 관련된 정부기관에서 침수 피해 예상도를 주민들에게 제공하고자 하고 있다. 하지만, 특정 강우에 따른 정확한 침수 범위를 정량화하여 표출하는데 부족함이 있으며, 강우량과 지속시간에 따른 홍수의 크기에 대한 분석을 실시하고 수리학적 연계를 통한 준 실시간 침수범위 표출 방안을 고찰해야할 시기이다. 제시된 물리적 해석기반 자료를 이용하여 강우량-지속시간-침수량 관계곡선(Rainfall-Duration-Flooding quantity relationship curve, RDF)을 제시하고, 자율학습을 수행하는 자기조직화 특징 지도와 연계하여 미지의 침수 지도를 예측하였다. 예측한 침수 지도와 2차원 침수모형을 통한 결과를 비교하여, 제시된 방법론의 타당성을 검토하였다. 연구 결과를 통하여 중규모의 강우량 또는 빈도의 사상에 따른 미지의 침수범위를 제시하는데 용이할 것으로 판단된다. 더욱이 다양한 강우-월류량-홍수 양상을 내포하는 RDF 관계 곡선과 최적 침수예상도 데이터베이스를 구축함으로서 추후에 홍수예보의 기초자료로서 사용될 것이다.

fMRI를 이용한 맛의 입력패턴벡터 추출 및 패턴인식 (Input Pattern Vector Extraction and Pattern Recognition of Taste using fMRI)

  • 이선엽;이용구;김기동
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제30권4호
    • /
    • pp.419-426
    • /
    • 2007
  • 본 논문에서는 맛 인식을 위한 입력패턴벡터를 추출하고 패턴인식을 위한 맛(쓴맛, 단맛, 신맛, 짠맛)학습 알고리즘을 설계하였다. 입력패턴벡터의 구성을 위해 맛 활성화 신호의 세기가 사용되었고, 맛 패턴인식을 위한 알고리즘은 초기 참조벡터의 학습을 위해 SOM을 이용하였고, 종속 부류층의 출력뉴런의 부류지정을 위하여 out-star 학습법을 사용하였다. 제안된 알고리즘의 입력 층과 종속 클래스 층 사이의 연결강도는 SOM과 LVQ 알고리즘을 이용하여 초기 참조벡터의 설정 및 학습이 가능하게 하였다. 패턴벡터는 종속 부류층의 뉴런에 의해 종속 클래스로 분류하고, 종속 클래스 층과 출력 층 사이의 연결강도는 분류된 종속 부류를 클래스로 지정하는 학습을 하게 하였다. 패턴 분류를 위하여 제안된 학습알고리즘을 이용하여 시뮬레이션 되었고 기존의 LVQ 학습방식보다 우수한 분류성공률을 확인하였다.

  • PDF

마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교 (Comparison of clustering methods of microarray gene expression data)

  • 임진수;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.39-51
    • /
    • 2012
  • 군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

경향성 및 패턴 분석을 이용한 낙동강 물금지역의 수질 특성 (Characteristics of Trend and Pattern for Water Quality Monitoring Networks Data using Seasonal-kendall, SOM and RDA on the Mulgeum in the Nakdong River)

  • 안정민;이인정;정강영;김주언;이권철;천세억;류시완
    • 한국환경과학회지
    • /
    • 제25권3호
    • /
    • pp.361-371
    • /
    • 2016
  • Ministry of Environment has been operating water quality monitoring network in order to obtain the basic data for the water environment policies and comprehensively understand the water quality status of public water bodies such as rivers and lakes. The observed water quality data is very important to analyze by applying statistical methods because there are seasonal fluctuations. Typically, monthly water quality data has to analyze that the transition comprise a periodicity since the change has the periodicity according to the change of seasons. In this study, trends, SOM and RDA analysis were performed at the Mulgeum station using water quality data for temperature, BOD, COD, pH, SS, T-N, T-P, Chl-a and Colon-bacterium observed from 1989 to 2013 in the Nakdong River. As a result of trends, SOM and RDA, the Mulgeum station was found that the water quality is improved, but caution is required in order to ensure safe water supply because concentrations in water quality were higher in the early spring(1~3 month) the most.

Identification of the Marker-Genes for Dioxin(2, 3, 7, 8- tetradibenzo-p-dioxin)-Induced Immune Dysfunction by Using the High-Density Oligonucleotide Microarray

  • Kim, Jeong-Ah;Lee, Eun-Ju;Chung, In Hye;Kim, Hyung-Lae
    • Genomics & Informatics
    • /
    • 제2권2호
    • /
    • pp.75-80
    • /
    • 2004
  • In a variety of animal species, the perinatal exposure of experimental animals to the 2,3,7,8-tetrachlorodibenzo­p-dioxin (TCDD) leads to the immune dysfunction, which is more severe and persistent than that caused by adult exposure. We report here the changes of gene expression and the identification of the marker-genes representing the dioxin exposure. The expressions of the transcripts were analyzed using the 11 K oligonucleotide­microarray from the bone marrow cells of male C57BL/6J mice after an intraperitoneal injection of $1{\mu}g$ TCDD/kg body weight at various time intervals: gestational 6.5 day(G6.5), 13.5 day(G13.5), 18.5 day(G18.5), and postnatal 3 (P3W)and 6 week (P6W). The type of self-organizing maps(SOM) representing the specific exposure dioxin could be identified as follows; G6.5D(C14), G13.5D(C0, C5, C10, C18), G18.5D(7): P3W(C2, C21), and P6W(C4, C15, C20). The candidate marker-genes were restricted to the transcripts, which could be consistently expressed greater than $\pm$2-fold in three experiments. The resulting candidates were 85 genes, the characteristics of that were involved in cell physiology and cell functions such as cell proliferation and immune function. We identified the biomarker-genes for dioxin exposure: smc -like 2 from SOM C14 for the dioxin exposure at G6.5D, focal adhesion kinase and 6 other genes from C0, and protein tyrosine phosphatase 4a2 and 3 other genes from C5 for G13.5D, platelet factor 4 from C7 for G18.5D, fos from C2 for P3W.