• 제목/요약/키워드: k-means clustering algorithm

검색결과 545건 처리시간 0.031초

다목적 표본조사를 위한 다변량 층화 : 어업비계통생산량조사를 위한 표본설계 사례 (Multivariate Stratification Method for the Multipurpose Sample Survey : A Case Study of the Sample Design for Fisher Production Survey)

  • 박진우;김영원;이석훈;신지은
    • 한국조사연구학회지:조사연구
    • /
    • 제9권1호
    • /
    • pp.69-85
    • /
    • 2008
  • 층화는 표본설계 단계에서 예비정보를 활용하는 대표적인 방법으로 대부분의 전국 단위의 표본설계에서 널리 활용된다. 층화의 효율을 극대화시키기 위해서는 조사목적에 부합되는 적절한 층화변수를 선택하는 것이 매우 중요하다. 하나의 표본을 통해 여러 개의 관심변수를 동시에 조사하는 다목적조사에서 다변량 층화변수가 있을 때 층화 전략을 세우는 것은 매우 복잡한 양상을 띤다. 본 연구에서는 관심변수의 수가 매우 많은 다목적조사를 위한 층화전략을 다룬다. 층화를 위해 구체적으로 사용하는 통계적 도구는 요인분석과 군집분석 등의 다변량 통계기법인데, 먼저 요인분석을 통해 적절한 층화변수들을 선정한 후 그 변수들을 이용하여 군집분석을 통해 층화를 하는 전략을 소개한다. 본 연구에서는 구체적으로 해양수산부의 어업비계통생산량조사를 위한 표본설계에서의 층화과정을 다룬다.

  • PDF

주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화 (A study on the ordering of PIM family similarity measures without marginal probability)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권2호
    • /
    • pp.367-376
    • /
    • 2015
  • 데이터마이닝 기법 중의 하나인 군집분석은 다양한 특성을 지닌 관찰대상에 대해 유사성을 바탕으로 동질적인 군집으로 묶은 후, 동일 군집에 속해 있는 공통된 특성을 조사하는데 이용되는 기법이다. 본 논문에서는 주변 확률을 고려하지 않는 확률적 흥미도 측도 기반 유사성 측도인 Yule I과 II, Michael, Digby, Baulieu, 그리고 Dispersion 측도에 대해 상한 및 하한을 설정함으로써 이들의 대소관계를 규명하였다. 그 결과, 세 가지 유형의 대소 관계가 성립한다는 사실을 수식의 증명뿐만 아니라 실제 데이터 및 모의실험 데이터에 의해서도 확인할 수 있었다. 이들 측도들은 각 경계에 있는 측도와는 더욱 더 유사한 값을 가지므로 각 측도의 상한 및 하한은 여러 가지 측도들을 분류하는 도구가 되며, 실제 값의 관점에서 각 측도들의 관계를 알게 되면 주어진 알고리즘의 안정화에 도움이 될 수 있을 것이다.

비디오 감시시스템을 위한 영역 기반의 움직이는 물체 분할 (Region-Based Moving Object Segmentation for Video Monitoring System)

  • 이경미;김종배;이창우;김항준
    • 전자공학회논문지CI
    • /
    • 제40권1호
    • /
    • pp.30-38
    • /
    • 2003
  • 본 논문은 비디오 영상에서 움직이는 물체를 분할하는 방법을 제안한다. 물체들의 크기가 작거나 서로 겹쳐있을 경우(occlusion), 또는 잡음이 많은 경우에도 안정적인 이 방법은 움직임 검출(motion detection)과 움직임 분할(motion segmentation) 두 단계로 구성되어 있다. 움직임 검출을 하기 위하여 인접 영상간의 차영상(difference image) 분석을 통해 움직임이 있는 부분을 추출하며, 이때 적응적 임계치 방법을 이용하여 빛의 변화나 노이즈가 포함된 환경에서도 안정적으로 추출한다. 움직임 분할 단계에서는 움직임이 검출된 부분을 초기영역으로 분할 한 뒤, 이 영역들의 모션정보에 따라 이웃 한 영역들을 병합함으로써 독립적으로 움직이는 물체를 분할한다. 이러한 방법은 검출된 영역에 대해서만 움직임 분할을 함으로 많은 계산효과를 얻을 수 있으며 실제 도로영상에서 제안된 방법을 실험해본 결과 비디오 감시시스템에 적합함을 알 수 있었다.

Automated Training from Landsat Image for Classification of SPOT-5 and QuickBird Images

  • Kim, Yong-Min;Kim, Yong-Il;Park, Wan-Yong;Eo, Yang-Dam
    • 대한원격탐사학회지
    • /
    • 제26권3호
    • /
    • pp.317-324
    • /
    • 2010
  • In recent years, many automatic classification approaches have been employed. An automatic classification method can be effective, time-saving and can produce objective results due to the exclusion of operator intervention. This paper proposes a classification method based on automated training for high resolution multispectral images using ancillary data. Generally, it is problematic to automatically classify high resolution images using ancillary data, because of the scale difference between the high resolution image and the ancillary data. In order to overcome this problem, the proposed method utilizes the classification results of a Landsat image as a medium for automatic classification. For the classification of a Landsat image, a maximum likelihood classification is applied to the image, and the attributes of ancillary data are entered as the training data. In the case of a high resolution image, a K-means clustering algorithm, an unsupervised classification, was conducted and the result was compared to the classification results of the Landsat image. Subsequently, the training data of the high resolution image was automatically extracted using regular rules based on a RELATIONAL matrix that shows the relation between the two results. Finally, a high resolution image was classified and updated using the extracted training data. The proposed method was applied to QuickBird and SPOT-5 images of non-accessible areas. The result showed good performance in accuracy assessments. Therefore, we expect that the method can be effectively used to automatically construct thematic maps for non-accessible areas and update areas that do not have any attributes in geographic information system.

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

부분공간과 LVQ 분류기에 기반한 실시간 얼굴 인식 (Real-Time Face Recognition Based on Subspace and LVQ Classifier)

  • 권오륜;민경필;전준철
    • 인터넷정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.19-32
    • /
    • 2007
  • 본 논문에서는 실시간 얼굴인증 시스템의 구축을 위한 LVQ 신경망 기반의 새로운 얼굴 인식 방법을 제안한다. 기존의 연구에서 PCA, LDA 변환이 많이 적용되며 신경망을 결합한 형태가 제안되고 있지만 신경망 학습 시간이 오래 걸리는 단점을 가지고 있다. LVQ 신경망은 학습 시간이 짧고 클래스간의 분리도를 최대화할 수 있는 교사학습방법이다. 따라서, 본 논문에서 제안된 방법은 동영상으로부터 실시간으로 입력되는 얼굴영상을 PCA와 LDA변환을 순차적으로 적용하여 부분공간상의 변환된 특징벡터로부터 LVQ 신경망의 학습을 통하여 얼굴을 인식한다. 외부조명의 영향에 강건한 인식시스템을 구축하기 위하여 얼굴검출 단계에서 검출된 얼굴영역은 밝기값의 최대-최소 정규화 방법에 의해 보정된 정규화 영상을 생성한다. 정규화된 얼굴영상은 PCA와 LDA 변환을 통해 부분공간상의 특징벡터로 변환된다. 변환된 훈련 데이터로부터 LVQ 신경망의 초기 중심 벡터를 결정하고 신경망의 학습률 향상을 위해 K-Means 클러스터링 알고리즘을 적용하며, 초기 중심 벡터를 이용하여 LVQ2 학습 방법에 의해 학습된 중심벡터는 클래스의 대표 벡터가 된다. 결국 각 클래스의 대표 벡터로부터 입력 영상의 특징벡터간의 유클리디언 거리 비교법을 적용하여 얼굴 인식을 수행한다. ORL 데이터베이스를 이용한 정지 영상에 대한 인식과 실시간으로 입력되는 영상에 대한 인식 등 두 가지 형태의 영상을 기반으로 실험한 결과 두 경우에 모두 제안된 방법이 기존의 인식 방법보다 인식률에서 우수함을 입증할 수 있었다.

  • PDF

YOLOv4 네트워크를 이용한 자동운전 데이터 분할이 검출성능에 미치는 영향 (Influence of Self-driving Data Set Partition on Detection Performance Using YOLOv4 Network)

  • 왕욱비;진락;이추담;손진구;정석용;송정영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.157-165
    • /
    • 2020
  • 뉴-럴 네트워크와 자동운전 데이터 셋을 개발하는 목표중의 하나가 데이터 셋을 분할함에 따라서 움직이는 물체를 검출하는 성능을 개선하는 방법이 있다. 다크넷 (DarkNet) 프레임 워크에 있어서, YOLOv4 네트워크는 Udacity 데이터 셋에서 훈련하는 셋과 검증 셋으로 사용되었다. Udacity 데이터 셋의 7개 비율에 따라서 이 데이터 셋은 훈련 셋, 검증 셋, 테스트 셋을 포함한 3개의 부분 셋으로 나누어진다. K-means++ 알고리즘은 7개 그룹에서 개체 Box 차원 군집화를 수행하기 위해 사용되었다. 훈련을 위한 YOLOv4 네트워크의 슈퍼 파라메타를 조절하여 7개 그룹들에 대하여 최적 모델 파라메타가 각각 구해졌다. 이 모델 파라메타는 각각 7 개 테스트 셋 데이터에 비교하고 검출에 사용되었다. 실험결과에서 YOLOv4 네트워크는 Udacity 데이터 셋에서 트럭, 자동차, 행인으로 표현되는 움직이는 물체에 대하여 대/중/소 물체 검출을 할수 있음을 보여 주었다. 훈련 셋과 검증 셋, 테스트 셋의 비율이 7 ; 1.5 ; 1.5 일 때 최적의 모델 파라메타로서 가장 높은 검출 성능이었다. 그 결과값은, mAP50가 80.89%, mAP75가 47.08%에 달하고, 검출 속도는 10.56 FPS에 달한다.

딥러닝을 이용한 판류형 간판의 인식 (Recognition of Flat Type Signboard using Deep Learning)

  • 권상일;김의명
    • 한국측량학회지
    • /
    • 제37권4호
    • /
    • pp.219-231
    • /
    • 2019
  • 간판은 유형마다 간판의 규격이 정해져 있으나 실제 설치된 간판은 형태와 크기가 일정하지 않다. 또한, 간판은 간판 내부의 색상에 대한 규정이 정해져 있지 않기 때문에 다양한 색상을 갖고 있다. 간판을 인식하기 위한 방법은 도로표지판과 차량번호판을 인식하는 유사한 방법으로 생각할 수 있으나 간판의 특성으로 인해 도로표지판과 차량번호판과 유사한 방법으로 간판을 인식할 수 없는 한계점이 있다. 이에 본 연구에서는 딥러닝 기반의 Faster R-CNN 알고리즘을 이용하여 불법 및 노후 간판의 주요 대상이 되는 판류형 간판을 인식하고 간판의 영역을 자동으로 추출하는 방법론을 제안하였다. 스마트폰 카메라를 이용하여 촬영한 간판 영상을 통해 판류형 간판을 인식하는 과정은 2가지의 순서로 나뉜다. 먼저, 다양한 유형의 간판 영상에서 판류형 간판을 인식하기 위해 딥러닝을 이용하여 간판의 유형을 인식하였으며 그 결과는 약 71%의 정확도로 나타났다. 다음으로 판류형 간판의 경계영역을 인식하기 위해 간판 영역 인식 알고리즘을 적용하였을 때 85%의 정확도로 판류형 간판의 경계영역을 인식하였다.

유사도를 활용한 맞춤형 보험 추천 시스템 (Personalized insurance product based on similarity)

  • 김준성;조아라;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1599-1607
    • /
    • 2022
  • 저출산과 노령화로 보험 수요가 지속해서 감소하고 있다. 나아가 언택트 소비가 주류가 되면서 기존의 대면 서비스를 중심으로 한 보험상품 마케팅은 실효성이 크게 떨어지고 있다. 그러므로 보험업계는 비대면 서비스를 기반으로 한 새로운 마케팅이 절실한 시점이다. 확보된 내 외부 및 공공데이터를 바탕으로 보험 트렌드를 반영한 맞춤형 전략을 통해 기존 고객의 로열티를 강화하고 신규 고객을 확보할 수 있는 개인 맞춤형 보험 상품 추천시스템을 제안하고자 한다. 보험회사 데이터베이스에 등록된 고객을 대상으로 공공 데이터(시군구별 총인구수, 건강생활 실천율, 고령 인구 비율, 출생률, 노인여가복지 수, 연령대별 경제활동참가율 등), 고객 개인정보 및 기 계약 정보를 사용하여 인구통계학 기반과 모델 기반 추천시스템을 설계하였다. 인구통계학 기반 추천시스템은 군집화된 고객 내 코사인 유사도를 계산하여 유사도가 높은 고객들이 많이 가입한 보험상품을 추천하였다. K-means를 이용한 군집화 방식과 고객의 지역, 성별 및 연령대 기준의 Segmentation 방식으로 각각 수행하였다. 모델 기반 추천시스템은 Decision Tree, Random Forest Classifier를 사용하여 각각 추천시스템을 설계하였다. 본 연구 결과 군집 된 고객 간 코사인 유사도를 활용한 인구통계학 기반 추천시스템의 성능이 가장 우수하였다. 이는 개인의 특성(성별, 나이 등) 및 환경적인(경제력, 직업 거주지역 등) 요소에 따라 보험 상품을 선택하기 때문에 고객 간 유사도가 보험 추천시스템의 성능에 주요 요소인 것을 보여준다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.