• 제목/요약/키워드: LDA 모형

검색결과 32건 처리시간 0.021초

LDA 혼합 모형을 이용한 얼굴 인식 (Face Recognition using LDA Mixture Model)

  • 김현철;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.789-794
    • /
    • 2005
  • LDA는 데이타를 잘 구분하게 하는 변환을 제공하고, 얼굴 인식에서 우수한 성능를 보였다. 그러나, LDA는 전체 데이타에 대해 단 하나의 변환 행렬만을 주므로 사람 얼굴과 같은 많은 클래스로 구성되어 있는 복잡한 데이타를 구분하기에 충분하지 않다. 이런 약점을 극복하기 위해 우리는 LDA 혼합 모형이라는 새로운 얼굴 인식 방법을 제안한다. LDA 혼합 모형에서는 모든 클래스가 여러 개의 군집으로 분할되고 각 군집에 대해서 하나의 변환 행렬을 얻는다. 이렇게 더 세세히 표현하는 방법은 분류 성능을 크게 향상시킬 것이다 얼굴 인식 실험 결과, LDA 혼합 모형은 PCA, LDA, PCA 혼합 모형보다 더 우수한 분류 성능을 보여주었다.

PCA 혼합 모형과 클래스 기반 특징에 의한 LDA의 확장 (Extensions of LDA by PCA Mixture Model and Class-wise Features)

  • 김현철;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.781-788
    • /
    • 2005
  • LDA는 클래스간 퍼진 정도와 클래스내 퍼진 정도의 비를 최대화하는 변환를 구하는 데이터 구분 기술이다. LDA는 여러 가지 응용에 성공적으로 응용되었지만 그 모델의 단순성과 관련된 두 가지 한계를 가지고 있다. 첫째는 각 클래스의 데이타가 가우시안 분포를 가진다고 가정되므로 복잡한 분포를 갖는 데이타를 구분하는데 실패한다는 것이다. 둘째는 LDA가 클래스의 전체 범위에 대해서 단지 하나의 변환만을 주므로 클래스 기반의 정보를 잃게 된다는 것이다. 본 논문은 위의 문제들을 극복하는 세가지 확장들을 제안한다. 첫 번째 확장은 더 복잡한 분포를 표현할 수 있는 PCA 혼합 모형을 이용하여 클래스내 퍼진 정도를 모델링함으로써 첫째 문제를 극복한다. 두번째 확장은 클래스 기반 특징들을 제공하기 위해서 각 클래스에 대해 다른 변환을 취함으로써 둘째 문제를 극복한다. 셋째 확장은 PCA 혼합 모형의 관점에서 각 클래스를 표현함으로써 앞의 두 확장을 결합하는 것이다. 숫자 인식과 알파벳 인식에 대한 실험에서 LDA의 모든 제안된 확장들이 LDA보다 더 좋은 분류 성능을 보여 주었다.

LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구 - 국외 문헌정보학 분야를 중심으로 - (A Comparative Study on Topic Modeling of LDA, Top2Vec, and BERTopic Models Using LIS Journals in WoS)

  • 이용구;김선욱
    • 한국문헌정보학회지
    • /
    • 제58권1호
    • /
    • pp.5-30
    • /
    • 2024
  • 이 연구는 토픽모델링 모형인 LDA, Top2Vec, BERTopic을 대상으로 실험데이터에서 토픽을 추출하고, 그 결과를 비교 분석함으로써 각각의 모형 간의 특성과 차이를 파악하는데 목적이 있다. 실험데이터는 Web of Science(WoS)에 등재된 문헌정보학 분야 학술지 85종에 게재된 논문 55,442편을 대상으로 하였다. 실험 과정으로 우선 각 모형의 파라미터를 기본값 그대로 이용하여 1차 토픽모델링 결과를 얻었고, 최적의 토픽 수를 설정하여 각 모형의 2차 토픽모델링 결과를 얻었으며, 이들을 각 모형과 단계별로 비교분석하였다. 1차 토픽모델링 단계에서는 LDA, Top2Vec, BERTopic 모형이 각각 100개, 350개, 550개의 토픽을 생성하여 세 모형은 각각 매우 다른 크기의 토픽 개수를 가져왔으며, LDA 모형에 비해 Top2Vec이나 BERTopic 모형이 토픽을 3배, 5배 더 세분화하였다. 또한 세 모형은 토픽 당 문서 수의 평균이나 표준편차에서도 많은 차이가 났다. 구체적으로 LDA 모형은 비교적 적은 수의 토픽에 많은 문서를 부여하는 반면, BERTopic 모형은 반대의 경향을 보였다. 25개의 토픽 수를 생성하는 2차 토픽모델링 단계에서는 다른 모형에 비해 Top2Vec 모형이 평균적으로 토픽 당 많은 문서를 부여하고 토픽간에 고르게 문서를 할당하여 상대적으로 편차가 작았다. 또한 모형간의 유사 토픽의 생성여부를 비교하면, LDA와 Top2Vec 모형이 전체 25개 중에 18개(72%)의 공통된 토픽을 생성하여 BERTopic 모형에 비해 두 모형이 더 유사한 결과를 보였다. 향후 토픽모델링 결과에서 각 토픽과 부여된 문서들이 주제적으로 올바르게 형성되었는지에 대한 전문가의 평가를 통해 보다 완전한 분석이 필요하다.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

LDA와 tri-tone 모델을 이용한 운율경계강도 예측 (Prosodic Break Index Estimation using LDA and Tri-tone Model)

  • 강평수;엄기완;김진영
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.17-22
    • /
    • 1999
  • 본 논문에서는 발화된 문장으로부터 운율 경계 강도를 효과적으로 예측하기 위해 LDA와 tri-tone 모델을 혼합한 방법을 제안하였다. 이 방법은 기존의 LDA 방법을 사용하여 음절과 휴지기의 길이 정보를 운율경계강도 예측에 적용하고 피치정보를 벡터양자화에 적용하여 tri-tone이란 개념을 도입한 혼합형 모형이다. 제안된 방법은 주어진 200문장의 운율경계 강도를 예측하는 실험에서 72%의 정확성을 나타내었다.

  • PDF

MTDFREML 방법과 Gibbs Sampling 방법에 의한 한우의 육질형질 유전모수 추정 (Estimation of Genetic Parameter for Carcass Traits According to MTDFREML and Gibbs Sampling in Hanwoo(Korean Cattle))

  • 김내수;이중재;주종철
    • Journal of Animal Science and Technology
    • /
    • 제48권3호
    • /
    • pp.337-344
    • /
    • 2006
  • 본 연구는 Gibbs sampler와 MTDFREML 방법에 의해서 한우 도체형질의 유전력 및 유전(공)분산을 단형질 및 다형질 개체모형을 가지고 추정하고 비교 하였다. 배장근단면적(longissimus dorsi area), 등지방 두께(backfat thickness), 상강도(marbling score)의 유전 모수를 추정하였으며, 분석에 이용된 자료는 총 1,941두 이고, 혈연계수를 구하기 위한 혈통 자료는 23,058두를 이용하였다. 도체형질에 대한 유전력 추정 시 단형질과 다형질 개체모형에 의한 편차는 크게 나타나지 않았다. 단형질 개체모형에서 Gibbs sampler 방법을 이용한 추정에서는 LDA, BF 및 MS에서 각각 0.52, 0.59 및 0.42로서 고도의 유전력을 보였다. MTDFREML 방법을 통한 추정 시에는 LDA 0.41, BF 0.52로서 고도의 유전력을 보였으며, MS는 0.32로서 중도의 유전력을 보였다. 분석 방법에 의한 유전력 추정은 Gibbs sampler에 의한 방법이 MTDFREML에 의한 방법에 비해서 0.1정도 높게 추정되었다. MTDFREML 방법과 Gibbs Sampler 방법에 의한 도체 형질간의 유전상관은 LDA와 BF, MS 간에는 모두 부의 상관을 보였고, BF과 MS에서는 정의 상관을 보였다. MTDFREML과 Gibbs Sampler에서 이들의 분석 방법 간에 육종가 추정치에 대한 상관계수는 LDA와 BF에서는 0.989 이상의 높은 추정치를 보였으나, MS에 대해서는 이보다 다소 낮은 0.985를 나타내었다. 그리하여, 상강도(marbling score)와 같은 범주형 자료에 대한 유전분석은 기존의 선형의 정규분포를 가정한 REML방법에 의한 것 보다 범주형 모형을 설정하여 Gibbs sampling algorithm을 응용한 분석방법이 더 적합할 것으로 사료된다.

LDA 기반 은닉 토픽 추론을 이용한 TV 프로그램 자동 추천 (Automatic TV Program Recommendation using LDA based Latent Topic Inference)

  • 김은희;표신지;김문철
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-283
    • /
    • 2012
  • 다채널 TV, IPTV 및 Smart TV 서비스의 등장으로 인해 수많은 방송 채널과 방대한 TV 프로그램 콘텐츠가 시청자 단말로 제공됨으로써 시청자들은 자신이 원하는 콘텐츠를 쉽게 찾고 소비하는 것이 어려운 TV 시청 환경을 맞게 되었다. 따라서 TV 사용자들에게 자신이 선호하는 콘텐츠를 자동 추천해 줌으로써 원하는 콘텐츠로의 접근성을 증대시키는 것은 미래의 지능형 TV 서비스에 있어서 주요한 이슈이다. 이에 본 논문에서는 사용자의 선호 취향과 대중의 선호취향을 모두 고려한 협업필터링 개념의 통계적 기계학습 기반 TV 프로그램 추천 모델을 제시한다. 이를 위해 시청한 TV 콘텐츠에 대한 선호 토픽을 사용자의 시청 선호도로 보고, 최근 널리 활용되고 있는 LDA(Latent Dirichlet Allocation)모델을 TV 프로그램 추천 모델에 적용하였다. LDA 기반 TV 프로그램 추천 성능을 개선하기 위해 본 논문에서는 TV시청 이용내역 데이터를 기반으로, TV 사용자들의 관심 토픽을 은닉 변수로 하고, TV 사용자들의 관심 토픽에 대한 다양성을 반영하기 위해 은닉 변수의 확률분포 특성을 비대칭 디리클레(Dirichlet) 분포로 모형화하여 실험에 적용하였다. 제안된 LDA 기반 TV 프로그램 자동 추천 방법의 성능을 검증하기 위해, 유사 시청 특성을 갖는 사용자 그룹에 대해 상위 5개의 TV 프로그램을 일주일 단위로 추천하였을 경우 평균 66.5%, 2개월 단위의 추천에 대해서는 평균 77.9%의 precision 추천 성능을 확인할 수 있었다.

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 (Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis)

  • 김규하;박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.151-159
    • /
    • 2015
  • 이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.

LDA 기법을 이용한 미세먼지 이슈의 토픽모델링 분석 (Topic Modeling on Fine Dust Issues Using LDA Analysis)

  • 윤순욱;김민철
    • 에너지공학
    • /
    • 제29권2호
    • /
    • pp.23-29
    • /
    • 2020
  • 본 연구에서는 최근 10년간의 미세먼지 관련 뉴스 데이터를 수집하여 LDA 분석을 통해 최적 토픽을 도출하였다. 최적 토픽으로 선별된 80개의 이슈를 미세먼지 정책의 시각에서 해석하였다. 연구결과, 기온과 같은 날씨와 관련된 정보와 미세먼지 농도가 관련되어서 이슈화되는 경향이 있었다. 다음으로 미세먼지 저감 대책의 일환으로 노후경유차 운행 제한 제도와 저감 장치 부착과 같은 이슈의 빈도수가 높았다. 국민에 대한 제도 변경 안내를 포함하여 시민과 운수업자와의 갈등도 주요한 토픽으로 나타났다. 미세먼지 문제의 해결을 위한 수소차 보급과 같은 대안도 주요 토픽으로 분석되었다. 또한 미세먼지 관련 공기청정기 등 제품 관련 주제, 취약계층을 미세먼지로부터 보호하는 정책과 관련된 주제, 연구개발을 통한 미세먼지 저감 관련 주제가 주요 화두로 제기되었다. 미세먼지 대책은 사회 이슈로 정부 정책과 밀접한 관련이 있다고 볼 수 있다. 또한 본 연구를 통해 토픽 상에서는 거시적인 정부정책 자체보다는 시민의 안전, 시혜적인 정책이나 이해관계자간의 갈등이 정부정책 변화와 연동하여 중요한 의미를 지니는 것으로 나타났다.

Analyzing the Factors of Gentrification After Gradual Everyday Recovery

  • Yoon-Ah Song;Jeongeun Song;ZoonKy Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.175-186
    • /
    • 2023
  • 본 연구는 단계적 일상회복 이후 상권 회복세와 함께 임대료가 급상승한 시점에 주목하여 젠트리피케이션 분석 모형을 구축하고 그 특징을 살펴보는 것이 목적이다. 최근 국내에서는 팬데믹 이후 거리두기의 영향으로 대규모 상권보다는 소규모 상권이 형성되었다. 바로 핫플레이스라고 알려진 골목상권이다. 핫플레이스는 다양한 미디어와 사회관계망서비스를 통해 집객효과를 누리며 인기를 끌고 있다. 그에 따라 유동인구가 증가하면서 상권이 활성화 되고 임대료가 급상승하는 현상이 발생하고 있다. 하지만 소상공인의 경우 임대료 급상승은 매출 증가로도 감당하지 못해 해당 지역을 이탈하는 젠트리피케이션 현상으로 이어질 수 있다. 따라서 본 연구에서는 상권이 다시 활성화되면서 임대료가 급상승하는 시점을 찾아 그 이전과 이후를 분석하고자 한다. 먼저 젠트리피케이션에 관련하여 언급되는 토픽을 탐색하기 위해 텍스트 데이터를 수집한 후 LDA 토픽 모델링을 실시한다. 이를 참고하여 상권 단위로 데이터를 수집하고 젠트리피케이션 분석 모형을 구축한 다음 특징을 분석한다. 팬데믹으로 상권이 침체된 이후 재활성화 되고 있는 시점에 본 모형을 통한 젠트리피케이션 분석이 소상공인 정책에 기여할 수 있기를 바란다.