• 제목/요약/키워드: latent space model

검색결과 45건 처리시간 0.022초

Classification of Alzheimer's Disease with Stacked Convolutional Autoencoder

  • Baydargil, Husnu Baris;Park, Jang Sik;Kang, Do Young
    • 한국멀티미디어학회논문지
    • /
    • 제23권2호
    • /
    • pp.216-226
    • /
    • 2020
  • In this paper, a stacked convolutional autoencoder model is proposed in order to classify Alzheimer's disease with high accuracy in PET/CT images. The proposed model makes use of the latent space representation - which is also called the bottleneck, of the encoder-decoder architecture: The input image is sent through the pipeline and the encoder part, using stacked convolutional filters, extracts the most useful information. This information is in the bottleneck, which then uses Softmax classification operation to classify between Alzheimer's disease, Mild Cognitive Impairment, and Normal Control. Using the data from Dong-A University, the model performs classification in detecting Alzheimer's disease up to 98.54% accuracy.

화자공간모델 진화에 근거한 연속밀도 은닉 마코프모델의 온라인 적응 (Online Adaptation of Continuous Density Hidden Markov Models Based on Speaker Space Model Evolution)

  • 김동국;김영준;김현우;김남수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.69-72
    • /
    • 2002
  • 본 논문에서 화자공간모델 evolution에 기반한 continuous density hidden Markov model (CDHMM)의 online 적응에 대한 새로운 기법을 제안한다. 학습화자의 a priori knowledge을 나타내는 화자공간모델은 factor analysis (FA) 또는 probabilistic principal component analysis (PPCA)와 같은 은닉변수모델(latent variable model)에 의해 효과적으로 나타내어진다. 은닉 변수모델은 화자공간모델뿐아니라 CDHMM 파라메터의 ajoint prior분포를 표시함으로, maximum a posteriori(MAP)적응기법에 직접 적용되어진다. 화자공간모델의 hyperparameters와 CDHMM파라메터를 동시에 순차적으로 적응하기 위해 quasi-Bayes (QB)추정 기술에 기반한 online 적응기법을 제안한다. 연속숫자음 인식과 관련된 화자적응 실험을 통해 제안된 기법은 적은 적응데이터에서 좋은 성능을 나타내며, 데이터가 증가함에 따라 성능이 지속적으로 증가함을 보여준다.

  • PDF

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

Topic Modeling and Sentiment Analysis of Twitter Discussions on COVID-19 from Spatial and Temporal Perspectives

  • AlAgha, Iyad
    • Journal of Information Science Theory and Practice
    • /
    • 제9권1호
    • /
    • pp.35-53
    • /
    • 2021
  • The study reported in this paper aimed to evaluate the topics and opinions of COVID-19 discussion found on Twitter. It performed topic modeling and sentiment analysis of tweets posted during the COVID-19 outbreak, and compared these results over space and time. In addition, by covering a more recent and a longer period of the pandemic timeline, several patterns not previously reported in the literature were revealed. Author-pooled Latent Dirichlet Allocation (LDA) was used to generate twenty topics that discuss different aspects related to the pandemic. Time-series analysis of the distribution of tweets over topics was performed to explore how the discussion on each topic changed over time, and the potential reasons behind the change. In addition, spatial analysis of topics was performed by comparing the percentage of tweets in each topic among top tweeting countries. Afterward, sentiment analysis of tweets was performed at both temporal and spatial levels. Our intention was to analyze how the sentiment differs between countries and in response to certain events. The performance of the topic model was assessed by being compared with other alternative topic modeling techniques. The topic coherence was measured for the different techniques while changing the number of topics. Results showed that the pooling by author before performing LDA significantly improved the produced topic models.

SOFR 기간 데이터에 대한 동적 넬슨-시겔 이자율 곡선의 베이지안 접근법 (A Bayesian approach for dynamic Nelson-Siegel yield curve modeling on SOFR term rate data)

  • 임성호;황범석
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.349-360
    • /
    • 2023
  • 동적 넬슨-시겔 모형은 채권과 같은 기간 구조를 갖고 있는 금융상품의 이자율 곡선모형에서 널리 사용되고 있다. 본 연구에서는 동적 넬슨-시겔 모형을 상태 공간 모형의 관점에서 설명하고 해당 모형에 적용할 수 있는 베이지안 접근법에 대해 알아보고자 한다. 그리고 SOFR 기간 데이터를 베이지안 동적 넬슨-시겔 모형에 적용하여 그 성능을 확인하고 바시첵 모형, 빈도주의 접근법을 활용한 동적 넬슨-시겔 모형, 2요인 베이지안 동적 넬슨-시겔 모형과 같은 다른 경쟁 모형들과 성능을 비교해보고자 한다. 우리는 베이지안 동적 넬슨-시겔 모형이 SOFR 기간 데이터에 대해서 다른 모형들보다 우수한 성능을 보여준다는 것을 확인할 수 있었다.

특허 인용 네트워크 분석 (Patent citation network analysis)

  • 이민정;김용대;장원철
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.613-625
    • /
    • 2016
  • 과학 기술의 발전은 사회를 급격하게 변화시켜 왔다. 특허 자료 분석은 현대 과학 기술의 흐름을 이해하고 미래 유망기술을 예측할 수 있게 한다. 본 연구에서는 기술의 동향을 파악하고자 1985년과 2012년 사이에 미국 특허청에 등록된 특허를 중심으로 특허 인용 네트워크를 분석한다. 주요 기술군을 파악하기 위해 PageRank 알고리즘 외에 다양한 중심성 지표를 이용하고, 통계적 네트워크 모형을 통해 유사한 기술들의 군집을 찾아내고자 한다.

The Urban Parks and Rivers Contribute to the Citizen Satisfaction and Utilization in Uijeongbu City

  • Kim, Yoo-Ill
    • 한국조경학회지
    • /
    • 제38권5_2호
    • /
    • pp.151-162
    • /
    • 2010
  • This research aimed at measuring Park and Green Satisfaction (PGS) using subjective indicators of 'surface, line and spot' green evaluated by citizens. Also frequency of visits to park and green measured using objective indicators (number of visits) to find the relationship with PGS. A conceptual model of PGS was developed to relate evaluation to satisfaction and finally to utilization of open spaces. A sample of 500 questionnaire survey was employed for Uijeongbu City in Korea. A Structual Equation Modeling (AMOS) techniques was used to test the hypothesized relationship among factors (construct). As a result, first, PGS was explained by three latent factors of 'urban park' (${\gamma}=0.54$), 'linear facilities' (${\gamma}=0.25$), and 'surface green' (${\gamma}=0.15$) respectively. These three exogenous construct was found very useful classification system for open spaces of cities. Second, PGS (${\gamma}=0.34$) was found as a mediating variable to utilization of open spaces and also PGS was closely related to citizens Environmental Quality Satisfaction (EQS), such concept as, 'livability' and 'aesthetic quality'. The more satisfied with park and green the more people use the space. The PGS was an important QOL indicator together with the subjective indicator of 'livability'. Third, jogging and walking trails and bike ways along the river corridor was the most important green facilities contribute to the PGS and EQS. The near the distance (within 500m) the more number of visit to river corridor (green way). The river corridor promote accessibility to nature and other parks.

Probabilistic penalized principal component analysis

  • Park, Chongsun;Wang, Morgan C.;Mo, Eun Bi
    • Communications for Statistical Applications and Methods
    • /
    • 제24권2호
    • /
    • pp.143-154
    • /
    • 2017
  • A variable selection method based on probabilistic principal component analysis (PCA) using penalized likelihood method is proposed. The proposed method is a two-step variable reduction method. The first step is based on the probabilistic principal component idea to identify principle components. The penalty function is used to identify important variables in each component. We then build a model on the original data space instead of building on the rotated data space through latent variables (principal components) because the proposed method achieves the goal of dimension reduction through identifying important observed variables. Consequently, the proposed method is of more practical use. The proposed estimators perform as the oracle procedure and are root-n consistent with a proper choice of regularization parameters. The proposed method can be successfully applied to high-dimensional PCA problems with a relatively large portion of irrelevant variables included in the data set. It is straightforward to extend our likelihood method in handling problems with missing observations using EM algorithms. Further, it could be effectively applied in cases where some data vectors exhibit one or more missing values at random.

ViStoryNet: 비디오 스토리 재현을 위한 연속 이벤트 임베딩 및 BiLSTM 기반 신경망 (ViStoryNet: Neural Networks with Successive Event Order Embedding and BiLSTMs for Video Story Regeneration)

  • 허민오;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.138-144
    • /
    • 2018
  • 본 고에서는 비디오로부터 coherent story를 학습하여 비디오 스토리를 재현할 수 있는 스토리 학습/재현 프레임워크를 제안한다. 이를 위해 연속 이벤트 순서를 감독학습 정보로 사용함으로써 각 에피소드들이 은닉 공간 상에서 궤적 형태를 가지도록 유도하여, 순서정보와 의미정보를 함께 다룰 수 있는 복합된 표현 공간을 구축하고자 한다. 이를 위해 유아용 비디오 시리즈를 학습데이터로 활용하였다. 이는 이야기 구성의 특성, 내러티브 순서, 복잡도 면에서 여러 장점이 있다. 여기에 연속 이벤트 임베딩을 반영한 인코더-디코더 구조를 구축하고, 은닉 공간 상의 시퀀스의 모델링에 양방향 LSTM을 학습시키되 여러 스텝의 서열 데이터 생성을 고려하였다. '뽀롱뽀롱 뽀로로' 시리즈 비디오로부터 추출된 약 200 개의 에피소드를 이용하여 실험결과를 보였다. 실험을 통해 에피소드들이 은닉공간에서 궤적 형태를 갖는 것과 일부 큐가 주어졌을 때 스토리를 재현하는 문제에 적용할 수 있음을 보였다.

의미 벡터 확장을 통한 유전자 클러스터링 (Genetic Clustering with Semantic Vector Expansion)

  • 쏭웨이;박순철
    • 한국콘텐츠학회논문지
    • /
    • 제9권3호
    • /
    • pp.1-8
    • /
    • 2009
  • 본 논문에서는 퍼지 논리 기반의 유전자 알고리즘(GA)과 의미 벡터 확장 기술을 이용한 문서 클러스터링 시스템을 제안한다. GA에 관련된 여러 논문에서 이미 알려졌듯이 GA알고리즘의 성공 여부는 군체의 다양성과 수렴하는 능력에 따라 결정된다. 이러한 두 인자 사이의 영향력을 조절하기 위하여 우리는 퍼지 논리 기반의 연산자를 사용한다. 전통적인 문서 클러스터링 알고리즘에서 문서를 나타내기 위한 가장 일반적이고 직선적인 방법은 벡터 공간 모델이다. 그러나 이 방법은 다차원 특징 공간의 원인이 될 뿐만 아니라, 클러스터링의 정확성에 영향을 미칠 수 있는, 단어 간의 의미상 관계성을 무시한다. 본 논문에서는 LSA를 사용하여 문서를 관련되는 의미상의 벡터 개념으로 확장시킨다. 또한 이것은 벡터의 크기를 크게 줄일 수 있다. 본 논문에서 제안한 클러스터링 알고리즘을 테스트하기 위하여 20개의 뉴스 그룹과 로이터 데이터를 사용했다. 제안된 방법은 문서를 표현하는 다양한 환경에서 일반적인 GA보다 더 나은 결과를 보여준다.