• 제목/요약/키워드: Data Mining Technique

검색결과 638건 처리시간 0.029초

특성정보 프로파일에 기반한 동영상 데이터 분류 (Video Data Classification based on a Video Feature Profile)

  • 손정식;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권1호
    • /
    • pp.31-42
    • /
    • 2005
  • ]일반적으로 기존의 동영상 처리 방법들은 처리 대상 동영상 데이터의 메타 데이터 정보에 기반한다. 하지만, 동영상 데이터의 메타 데이터 정보는 해당 동영상의 상세한 의미적인 정보까지 표현하는데는 한계를 갖는다. 따라서, 메타 데이터 정보에 기반한 동영상 처리 기술은 다양한 동영상 정보를 보다 효율적으로 처리하는데 한계를 갖는다. 본 논문에서는 다양한 동영상 정보들을 효율적으로 분류하기 위한 방법으로 영상 정보에 기반한 직접 분류 방법을 제안한다. 본 논문에서 제안하는 영상 분류 방법에서는 관리자가 기준으로 제시한 동영상에 대한 마이닝을 수행하여 해당 동영상의 특성정보를 추출하여 동영상 분류의 기준이 되는 동영상 특성정보 프로파일을 생성한다. 이어서, 분류 대상 동영상들에 대해서 각 동영상을 기준 동영상의 특성정보 프로파일과 비교하여 유사성을 분석하고, 이론 기준으로 각 동영상을 분류한다. 또한, 분류 과정에서의 수행 속도를 향상 시키기 위한 방법으로 통합 프로과일 생성 및 비교 기법을 제시하며, 동영상 분류 과정에서의 정확도를 높이기 위한 가중치 기반 비교 방법을 제시한다. 끝으로 다양한 동영상 데이터를 활용한 유사도 비교 실험을 통해 제안된 방법의 효율성을 검증한다.

경의선숲길 조성 전후의 연남동 방문자의 경험 분석 - 블로그 텍스트 분석을 중심으로 - (The Analysis of the Visitors' Experiences in Yeonnam-dong before and after the Gyeongui Line Park Project - A Text Mining Approach -)

  • 김세령;최윤원;윤희연
    • 한국조경학회지
    • /
    • 제47권4호
    • /
    • pp.33-49
    • /
    • 2019
  • 선형공원은 도시조직과 교류가 활발한 만큼, 인근 지역에 다양한 영향을 미친다. 공원 관리에 있어 지역 방문자의 경험과 행태를 파악하는 것은 필수적이다. 본 연구에서는 이 점에서 착안하여 선형공원의 조성 전후를 포괄하는 기간 동안 인근 지역 방문자의 경험이 변화하는 추이를 알아보고자 하였다. 이를 위하여 블로그 글을 대상으로 텍스트 마이닝 기법을 사용하였으며, 연구 대상지는 경의선숲길과 연남동으로 하였다. 2013년 6월부터 2017년 5월까지 '연남동', '경의선', '연트럴파크'라는 키워드로 검색된 네이버 블로그 포스팅을 수집한 후 정제 및 무작위 추출을 이용해 분석 대상 자료를 선별하였다. 이를 1년 단위의 4개 시기로 구분한 후, 각 시기별 형태소 분석 및 사전구축, 빈도 분석을 실시했다. 그 후 중심성 분석과 응집성 분석을 수행해 연남동 방문자들의 주요 경험을 도출하였다. 연구 결과는 다음과 같다. 전체 기간 동안 연남동 방문자들의 가장 주된 경험은 꾸준히 식문화였지만, 마켓, 구경, 구매 등이 부수적인 활동들이 점점 많이 일어나고 있었다. 또한 경의선숲길 조성 후 공원에서 발생하는 산책, 놀기, 쉬기 등의 활동이 새롭게 등장했다. 뿐만 아니라, 공원 조성 후 연남동에 관해 더욱 다양한 의견이 블로그 상에서 오고 갔으며, 연남동은 여러 가지의 활동을 향유할 수 있는 공간으로 인식되고 있었다. 마지막으로 연남동 방문자들이 '식문화'에 대해 얘기할 때 함께 등장하는 하위 주제가 '먹다', '사진', '수다' 등의 단순한 주제에서 '마켓', '구경', '걷다' 등으로 그 범위가 넓어졌으며, '공원'과 함께 등장하는 주제 역시 초기에는 쉬기, 걷기 등의 일차적인 활동이었으나, 경의선 책거리의 등장과 함께 다양한 주제로 확대되었다. 본 연구는 텍스트 마이닝이라는 정량적 방법론으로 지역 방문자의 경험 변화를 공원 조성 전후를 포괄하여 비교적 객관적으로 분석했다. 하지만 텍스트 마이닝의 특성상 정제의 과정을 거치며, 부득이하게 주관이 이입된 점은 추후 보완되어야 한다. 또한 이러한 변화들과 공원 조성과의 직접적인 인과관계를 더욱 세밀하게 밝혀내는 후속 연구가 필요하다.

서울로 7017 방문자들의 이용행태 분석 -텍스트 마이닝과 소셜 네트워크 분석을 중심으로- (Analysis of Behavior of Seoullo 7017 Visitors - With a Focus on Text Mining and Social Network Analysis -)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제48권6호
    • /
    • pp.16-24
    • /
    • 2020
  • 본 연구는 국내 최초의 공중보행로인 서울로 7017의 이용행태를 이용객이 자율적으로 서술한 블로그를 분석하여 이용현황을 파악하고, 서울로 7017의 이용행태 및 개선방안을 제시하는 것을 목적으로 하였다. 이에 서울로 7017이 시민에게 개방된 2017년 6월부터 2020년 5월까지로 검색엔진 NAVER·DAUM의 블로그 제목과 원문에 '서울로 7017'이 포함된 텍스트 데이터를 빅데이터 기법인 텍스트 마이닝(Text Mining)과 소셜 네트워크(Social Network; 사회연결망)분석을 활용하여 분석하였다. 연구결과의 요약은 다음과 같다. 먼저 서울로 7017의 주요 행태는 '야경'과 '걷다'이고, 영향을 미치는 요소는 문화·예술과 관련된 요소로 여러 가지 프로그램 및 축제를 이용객의 요구에 맞는 프로그램을 개설하고 적극적으로 알린다면 주요 행태가 더 활발하게 일어나게 할 수 있을 것이다. 한편, 서울로 7017의 이용객들이 원하는 주요행태는 정적 행태인 '앉다'인데, 앉는 행태가 일어나기에 물리적인 조건이 충분하지 않으므로 그늘, 벤치 등 앉는 행태가 일어날 수 있는 시설을 개선하여 방문객의 요구를 충족시킬 수 있을 것이다. 서울로 7017의 행태변화의 특이점으로 코로나19로 인하여 공공다중이용시설 및 집단 활동이 제한되면서 혼자 여행하기 좋은 곳, 혼자 산책하기 좋은 곳으로 인식되고 있다는 점이다. 이에 코로나19와 같은 상황에서 사람들이 산책 등을 할 수 있는 시설, 여러 가지 볼거리 증대 등을 통하여 더 다양한 행태가 도출될 수 있고, 이용객의 만족도를 높일 수 있다. 서울로 7017은 국내 최초의 공중보행로서 공공공간의 의미를 넘어 주변 지역의 도시재생 및 도시자원의 효율적 활용을 위하여 조성되었으며, 역사, 자연, 복지, 문화, 관광자원 등 다양한 가치를 지니고 있는 장소이다. 그러나 이용행태 분석 결과, 서울로 7017에서 다양한 행태가 일어나지 않고 있으며, 주요 행태를 방해하는 요소가 도출되었다. 이러한 연구 결과를 참고하여 서울로 7017의 이용행태를 파악하고, 공간체계 및 시설 개선의 계획을 수립하여 서울로 7017이 도시민들에게 중요한 장소이자 도시를 활성화하는 동력이 될 수 있도록 발전시켜 나가야 할 것이다.

시계열 네트워크분석을 통한 데이터품질 연구경향 및 산업연관 분석 (Trend of Research and Industry-Related Analysis in Data Quality Using Time Series Network Analysis)

  • 장경애;이광석;김우제
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.295-306
    • /
    • 2016
  • 본 연구는 데이터품질과 관련된 선행연구의 메타정보를 활용하여 연구경향을 분석하고 이를 통해서 산업계의 흐름을 예측하기 위한 목적의 연구이다. 다양한 분야에서 연구경향을 분석하려는 시도는 이어져 왔으나, 데이터품질 영역은 그 범위가 방대하여 선행 연구자료에 대한 분석을 수행하기 어려웠다. 본 연구는 Web of Science 색인DB에 수록된 최근 10년간의 연구 메타데이터를 수집하여 텍스트 마이닝, 사회연결망 분석기법을 활용한 시계열 네트워크 분석을 수행하였다. 연구주제 분석 결과, 수학 및 전산 생물학, 화학, 건강관리 과학 및 서비스, 생화학 및 분자 생물학, 운영 연구 및 경영 과학, 의료정보학은 연구비율이 감소하고 있었고, 환경, 수자원, 지질학, 계측기 및 계측의 연구비율은 증가하고 있었다. 또한 사회연결망 분석 결과 데이터품질 연구에서는 분석, 알고리즘, 네트워크의 주제가 중앙성이 높은 중요한 주제로 나타났으며, 이미지와 모델, 센서, 최적화가 데이터품질에서 중요한 주제로 등장하는 추세를 보였다. 데이터품질의 산업과 연관관계 분석 결과는 기술, 산업, 건강, 유틸리티, 고객서비스가 연관성이 높은 산업으로 나타났다. 본 연구의 결과는 데이터품질 연구의 패턴을 분석하고 산업과 연관관계를 찾는 데이터품질 관련 연구자 뿐아니라 산업계에도 유용한 자료로 활용되리라 판단된다.

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석 (Sentiment analysis on movie review through building modified sentiment dictionary by movie genre)

  • 이상훈;최정;김종우
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.97-113
    • /
    • 2016
  • 인터넷상의 데이터가 급속하게 증가함에 따라 막대한 양의 데이터를 목적에 맞게 적절히 활용하는 빅데이터 분석이 활발하게 진행되고 있다. 최근에는 기존의 정형 데이터분석이 가진 한계점을 보완하는 방법으로 비정형 데이터 분석 분야 중 하나인 텍스트마이닝 기법에 대한 연구들이 다수 이루어지고 있으며, 특히 텍스트를 기반으로 문장의 긍정, 부정을 판별하고 분류하는 감성분석과 관련된 연구들이 활발하게 이루어지고 있다. 이러한 연구의 연장선 상에서, 본 연구는 감성분석에 사용되는 감성사전을 데이터의 특성에 맞게 적절하게 변형하여 구축하는 방법을 시도하였다. 데이터가 속한 영역의 특성을 고려하지 않은 기존의 범용 감성사전을 감성분석에 사용할 경우, 해당 영역에서 쓰이는 단어 또는 감정 표현을 반영하지 못하므로 감성분석의 정확성이 떨어질 수 있다. 따라서 감성분석에 있어서 영역 맞춤형 감성사전의 사용 시 데이터 영역의 특성을 정확하게 반영해 분석의 정확성을 높여줄 것으로 기대할 수 있다. 본 연구에서는 영화 리뷰 데이터를 분석 대상으로 선정하였으며, 대표적 영화정보 사이트 IMDb에서 발생된 약 2년간의 영화리뷰 데이터를 수집 분석하였다. 분석에 앞서 영화 장르별 사용되는 단어의 의미가 각각 다를 것을 고려하여 영화를 '액션', '애니메이션', '코메디', '드라마', '공포', '과학공상' 6개 장르로 분류했다. 맞춤형 감성사전 구축을 위한 핵심 기법으로 SO-PMI(Semantic Orientation from Point-wise Mutual Information)를 활용하였으며, 어휘 간 극성이 뚜렷하게 구분되는 형용사에 한정하여 연구를 진행했다. 분석결과 맞춤형사전을 활용한 감성분석 예측정확도는 영화 장르별로 상이했다. '애니메이션'을 제외한 5개 장르에서 기존의 범용 감성사전대비 맞춤형 감성사전의 예측정확도가 통계적으로 유의한 수준의 성능 향상을 보였다. 본 연구에서는 데이터 영역의 특성에 맞는 맞춤형 사전 구축을 통한 감성분석의 예측의 성능 향상을 확인하였다. 향후 감성사전 구축 시 동사, 부사 등 다양한 품사의 어휘를 추가하여 감성분석 예측정확도를 높이는 방안을 모색할 수 있을 것이다.

반복적 대화식 통합 탄성파 속도분석 (An Iterative, Interactive and Unified Seismic Velocity Analysis)

  • 서상용;정부흥;장성형
    • 지구물리와물리탐사
    • /
    • 제2권1호
    • /
    • pp.26-32
    • /
    • 1999
  • 탄성파 속도분석법은 일괄식 속도분석법과 대화식 속도 분석등 두 가지가 있다. 일괄식 속도분석법에서는 각 속도 분석점마다 셈블런스 컨투어, 슈퍼게더 및 중합 패널등을 일괄 작성하여 도면화 시킨 후 분석자가 그 도면을 보고 속도 함수를 결정하는 방법이다. 과거 유행한 전산처리 소프트웨어들이 이 방법을 사용하고 있다. 그러나 이 방법은 도면 분석시 아주 많은 수작업이 필요하고 속도분석 결과도 정밀치 못하다는 단점이 있다. 최근에는 워크스테이션의 고속 그래픽 기능을 이용한 대화식 속도분석 기술이 개발되었다. 그런데 이들 프로그램은 기존 일괄식 속도분석법과 대동소이한 내용을 그래픽 화면으로 처리할 수 있도록 함으로써 종이 절약 외에는 특별히 나아진 것이 없다. 프로그램의 주 기능은 속도 스펙트럼에서 속도점 노드를 선택하는 것이며, 입력자료에 있을 수 있는 잡음을 제거하여 다시 속도 스펙트럼을 수정하는 기능은 없다. 잡음의 제거없이 계산한 부정확한 속도 스펙트럼을 이용해서 속도 함수를 선정한다면 정밀 속도분석은 불가능할 것이다. 방대한 탄성파 탐사자료에 대한 속도분석을 신속 정확하게 수행하기 위해서는 속도 분석과 밀접한 관련이 있는 전산처리 공정들 즉, 슈퍼게더 조립, 셈블런스 계산, 동보정, 뮤트, 중합등을 동시에 지원하는 통합된 반복적 대화식 속도분석 프로그램이 필요하다. 분석 구간의 속도와 뮤트함수를 변화시켰을 때 그로부터 얻어지는 셈블런스와 동보정 및 중합을 검토하고 이러한 수정과 검토를 신속히 반복할 수 있도록 함으로써 정확한 속도분석이 가능하기 때문이다. 여기에서는 속도분석을 신속 정확하게 수행하기 위해 속도 분석과 밀접한 관련이 있는 전산처리 공정들 즉, 슈퍼게더 조립, 셈블런스 계산, 동보정, 뮤트, 중합등을 동시에 지원하는 대화식 속도분석 프로그램 xva를 작성하였다. 대화식 속도분석에서는 분석 구간의 트레이스들을 고속으로 참조해야 하는데 이를 위해 간단한 트레이스 인덱스 파일을 설계하여 사용하였다. 직접파와 굴절파등 천부 잡음을 제거하기 위한 효과적인 수단인 뮤트 함수 영역 변환법을 새로 고안하였으며, 본 프로그램은 이 기법을 이용하고 있다. 본 영 역 변환법은 기존 알려진 역동보정법과 같이 정밀 전산처리가 가능할 뿐만 아니라 동보정과 역동보정시 발생하는 자료의 내삽 오차가 없으며 계산 시간이 크게 단축되기 때문에 정밀 대화식 속도 분석에 사용 가능하다. 프로그램 xva는 28개의 소스 파일로 구성된 패키지인데 줄 수는 12,029, 단어 수는 34,990, 글자 수는 304,073이다. 프로그램 xva는 X-Window와 Motif 환경하에서 작동한다. 프로그램 메뉴는 Motif 표준 스타일에 따라 작성하였는 바 그 사용법을 간략히 기술하였다. 본 프로그램이 완성됨으로 인하여 정밀 탄성파 속도 분석이 가능하게 되었고 그 결과 가스층의 존재 여부를 직접 확인할 수 있는 AVO(Amplitude Versus Offset)단면도등의 제작에 활용할 수 있었다.

  • PDF

랜덤대치 기반 프라이버시 보호 기법의 정확성 개선 알고리즘 (An Algorithm for Improving the Accuracy of Privacy-Preserving Technique Based on Random Substitutions)

  • 강주성;이창우;홍도원
    • 정보처리학회논문지C
    • /
    • 제16C권5호
    • /
    • pp.563-574
    • /
    • 2009
  • 랜덤대치 기법은 실용적인 프라이버시 보호 방법으로 다양한 응용 가능성과 프라이버시 손상 관점의 안전성을 보장할 수 있다는 장점이 있다. 하지만 데이터 유용성을 위한 랜덤대치 기법의 정확성을 향상시키는 방법에 대해서는 그동안 면밀히 연구되지 않았다. 본 논문에서는 랜덤 대치 기법의 표준오차에 대한 보다 진전된 이론적 분석을 실시함으로써 정확성을 개선할 수 있는 알고리즘을 제안한다. 다양한 실험을 통하여 균등분포와 정규분포를 따르는 원본 데이터에 대한 랜덤대치 기법의 적용이 실용적이지 못한 정확성을 나타낸다는 사실과 함께 개선된 알고리즘의 정확성 향상 정도를 확인한다. 우리가 제안하는 알고리즘은 기존의 랜덤대치 기법과 동일한 프라이버시 수준을 유지한 상태에서 정확성을 원하는 수준만큼 높일 수 있는 방법이며, 이를 위해 추가로 소요되는 계산량은 실용적인 면에서 여전히 수용 가능한 것임을 밝힌다.

코로나-19관련 웨이보 정서 분석을 통한 중국 주식시장의 주판 및 차스닥의 민감도 예측 기법 (Sensitivity of abacus and Chasdaq in the Chinese stock market through analysis of Weibo sentiment related to Corona-19)

  • 이가기;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-7
    • /
    • 2021
  • 최근 코로나 19발생과 동시에 소셜 미디어의 투자자 정서가 증시 가격 움직임을 주도해 관심을 모으고 있다. 본 연구는 행동금융 이론 기반 빅 데이터 분석을 활용하여 소셜 미디어에서 추출한 정서가 중국 증시의 실시간 및 단기적 가격 모멘텀을 예측하는데 활용될 수 있는 기법을 제안한다. 이를 위해, COVID-19와 관련 200만 건 이상의 시나 웨이보 빅 데이터를 키워드 방식으로 수집 및 분석하고 시간이 따른 영향력이 높은 감정 요인을 추출한다. 최종 결과 도출을 위해 다양한 지도 및 비지도 학습 모델을 다 각도에서 구현 및 성능평가를 비교 분석 후, BiLSTM mdoel이 최적의 결과를 낼 수 있음을 증명했다. 또한, 제안하는 기법을 통해 주가변동과 심리요인 간에도 비슷한 움직임을 보이고 있음을 제안했고 소셜미디어에서 추출한 공공분위기가 어느 정도 투자자들의 심리를 대변할 수 있고, 주식시장에 영향을 미칠 수 있는 특수행사에 몰두할 때 증시변동에 차이를 만들 수 있음을 증명했다.

비정형 데이터를 이용한 ICO(Initial Coin Offering) 정량적 평가 방법에 대한 연구 (A Study on the Quantitative Evaluation of Initial Coin Offering (ICO) Using Unstructured Data)

  • 이한솔;안상호;강주영
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.63-74
    • /
    • 2022
  • 기업공개(IPO)는 투자자 보호를 위한 법적 테두리가 마련되어 있으며, 다양한 정량적 평가 요소가 존재하기 때문에 객관적인 분석이 가능하며 다양한 연구가 수행되어 왔다. 또한, 크라우드펀딩 역시 투자자 보호를 위한 법적 제도와 무분별한 펀딩을 방지하기 위한 여러 장치가 마련되어 있다. 반면에 최근 각광받는 블록체인 기반의 암호화폐 백서(ICO)는 투자자를 보호할 법적 수단과 기준이 모호하며 ICO를 객관적으로 평가하기 위한 정량적 평가 방법이 미흡한 상황이다. 따라서 본 연구는 ICO의 사기 여부를 탐지하기 위해 온라인상 공개된 ICO 백서를 수집하고 텍스트 임베딩 기법인 BERT에 기반한 ICO 사기 예측을 수행하였고 기존의 Random Forest 머신러닝 기법과 비교하여 정량적 방법으로 사기 탐지가 가능함을 보였다. 최종적으로 본 연구는 비정형 데이터에 기반하여 ICO의 사기 여부를 판단할 수 있는 정량적 접근 방법론의 활용 가능성을 제시함으로써 정량적 방법에 기초한 ICO 사기 탐지 연구에 기여할 수 있을 것으로 기대된다