• 제목/요약/키워드: 빅데이터분석기법

검색결과 594건 처리시간 0.026초

점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현 (Design and Implementation of a Generic Classification System Based on Incremental Learning Technology)

  • 민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

빅데이터 분석결과와 실증조사 결과의 비교 (Comparing the Results of Big-Data with Questionnaire Survey)

  • 김도관;신성윤
    • 한국정보통신학회논문지
    • /
    • 제20권11호
    • /
    • pp.2027-2032
    • /
    • 2016
  • 스마트폰 보급의 확산과 데이터 저장 및 분석 기법의 발전은 빅데이터 관련 산업을 미래의 유망 산업으로 탈바꿈하게 만들었다. 마케팅 분야에서는 소셜 데이터를 분석하여 소비자의 니즈를 파악하고, 효과적인 마케팅의 수단으로 활용하고 있다. 빅데이터 분석이 불가능했던 시대에는 소비자를 이해하기 위해서는 소수의 소비자를 대상으로 하는 조사 및 실험에 의존할 수밖에 없었으며, 이러한 전통적인 시장조사 방법은 현재도 활용되고 있다. 빅데이터 분석과 전통적인 조사방법 모두 고객을 이해하는 중요한 방법이기는 하지만, 두 가지 방법을 통해 도출된 결과가 소비자의 트랜드에 대하여 유사한 시사점을 주는지는 확인할 필요가 있다. 이러한 점에서 본 연구에서는 화장품 브랜드를 대상으로 소셜 데이터 분석 결과와 소비자를 대상으로 하는 설문조사의 결과를 비교하고자 하였다. 연구 결과 두 가지 방법 모두 유사한 시사점을 제공하는 것으로 나타났다.

데이터마이닝 기법을 활용한 상수 이용현황 분석 및 단기 물 수요예측 방법 비교 (The Comparison Among Prediction Methods of Water Demand And Analysis of Data on Water Services Using Data Mining Techniques)

  • 안지훈;김진화
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.9-17
    • /
    • 2016
  • 본 연구에서는 상수관망에 설치된 유량, 압력 센서를 통해 취득한 빅데이터에 대해 데이터마이닝 기법을 활용하여 해당 공급권역의 특성을 파악하고 그 정보에 기반하여 상수 공급에 있어서 유의할 점 등을 도출해보고자 하였다. 또한, 상수 사용에 대한 단기 수요예측을 수행하는데 있어서도 통계적 방법인 다중회귀분석과 데이터마이닝의 인공신경망 기법을 비교하여 좀 더 정확한 수요예측을 할 수 있는 모델을 제시해보고자 하였다. 데이터 수집과 테스트를 위하여 지자체 한 군의 소블록 지역을 대상으로 선정하였다. 해당 지역은 가정용 수요 외에도 관공서, 병원 등의 대형 업무용 수요도 일부 존재하고 있는 지역이다. 해당 지역의 센서를 통해 취득되는 연속 발생 데이터를 수집하였다. 이런 방식을 통해 취득된 데이터는 총 2,728건이며 이 중 2,632건은 예측모델을 생성하는데 96건은 예측모델의 예측력을 테스트 하는 데에 활용하였다. 이러한 테스트를 수행한 결과 상수 수요예측에 있어서 인공신경망이 다중회귀분석에 비교하여 더 좋은 예측율을 보였다.

  • PDF

ITS 빅데이터를 활용한 도시 교통네트워크 구조분석 (Analysis of Urban Traffic Network Structure based on ITS Big Data)

  • 김용연;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.1-7
    • /
    • 2017
  • ITS(Intelligent Transport Systems)는 시민들의 교통이용 안전과 편의를 도모하고 교통 시스템의 효율적인 운영 및 관리를 위해 대도시를 중심으로 도입되었다. 우리나라의 경우 ITS가 전국적으로 확대되면서 도로소통상황, 교통량, 대중교통운영현황 및 관리상황, 대중교통이용현황 등 다양한 교통정보가 생성되고 있다. 본 논문에서는 ITS에서 수집되는 데이터 중 하나인 DSRC(Dedicated Short Range Communications) 빅데이터를 활용하여 도시 교통구조를 네트워크 분석 기법을 통해 규명한다. 이를 통해 도심에서의 복잡한 교통현상을 단순화시키고, 차량 흐름에 따른 도시 교통의 구조적 특징을 도출한다. 분석 결과는 도시의 교통을 좀 더 쉽게 이해할 수 있도록 도와주고, 향후에 도시교통의 혼잡 해소방안, 도로 확장 계획 등의 교통정책 수립시 기초연구 자료로 활용할 수 있다.

  • PDF

연관 규칙 마이닝에서의 코사인 순수 신뢰도의 제안 (The proposition of cosine net confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.97-106
    • /
    • 2014
  • 빅 데이터 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하는 동시에 과거에는 불가능 했던 기술을 가능케 하였다. 이러한 빅 데이터 분석 기법은 국가 차원에서의 사회, 경제, 정치, 문화, 과학 기술 등 여러 분야에 활용될 수 있다. 빅 데이터 분석을 위해서는 먼저 데이터 마이닝 기술로 방대한 양의 데이터 속에서 가치 있는 정보를 찾는 것이 선행 되어야 하는데, 빅 데이터와 관련된 데이터 마이닝 기법으로는 텍스트 마이닝, 평판 분석, 군집 분석, 연관성 규칙 등이 있다. 본 논문에서는 데이터 마이닝 기법 중에서 많이 활용되고 있는 연관성 규칙의 평가 기준으로 코사인 순수 신뢰도를 제안한 후, Piatetsky-Shapiro가 제안한 흥미도 측도의 기준에 대한 충족여부를 점검하는 동시에 여러 가지 특성을 살펴보았다. 또한 예제를 통하여 고찰한 결과, 기존의 신뢰도와 코사인 유사성 측도는 모두 양의 값을 가지므로 연관성의 방향을 알 수 없어서 그 값만으로는 양의 연관성이 있는지 아니면 음의 연관성이 있는지를 알 수 없었다. 그러나 본 논문에서 제안한 코사인 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 알 수 있으므로 신뢰도와 코사인 유사성 측도가 가지고 있는 약점을 보완할 수 있는 측도라는 사실을 확인하였다.

사용자 큐레이션을 위한 빅데이터 영상 분석 기법 비교 (Comparison of big data image analysis techniques for user curation)

  • 이현섭;김진덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.563-565
    • /
    • 2021
  • 최근 증가하는 콘텐츠 제공 서비스의 가장 큰 특징은 콘텐츠의 시간의 흐름에 따른 콘텐츠 증가량이 매우 크다는 것이다. 이에 따라 사용자 큐레이션의 중요성이 같이 증가하고 있으며 이를 구현하기 위한 여러 가지 기법들이 사용되고 있다. 본 논문에서는 영상 추천을 위한 기법 중 음성데이터 및 자막을 활용한 분석 기법과 키프레임 추출 기반 영상 비교 기법을 실제 빅데이터 영상 콘텐츠를 대상으로 구현, 적용한 결과에 대하여 비교한다. 또한, 비교결과를 통해 각 분석 기법이 적용될 수 있는 영상 콘텐츠 환경에 대하여 제안한다.

  • PDF

빅데이터 및 인공지능을 활용한 축구선수 연봉등급 예측 (Predicting Soccer Players' Wage Grades Using Big Data and Artificial Intelligence)

  • 정현성;김진화;현대원
    • 산업융합연구
    • /
    • 제22권8호
    • /
    • pp.19-28
    • /
    • 2024
  • 본 연구는 빅데이터와 인공지능을 활용하여 축구선수의 연봉등급을 예측하는 새로운 방법을 제안한다. 축구선수의 연봉 예측은 선수의 성과와 잠재력을 정확하게 평가하고, 이를 연봉에 반영함으로써 축구 산업의 경제적 효율성을 높이는 중요한 과제이다. 본 연구는 FIFA 22에서 제공하는 선수 능력치 데이터를 분석하여, 다양한 빅데이터 및 인공지능 기법을 통해 선수의 연봉등급을 예측한다. 주요 연구 방법으로는 의사결정나무, 인공신경망, 랜덤 포레스트, 부스팅 등을 활용하였으며, 이를 통해 연봉등급을 예측하는 모델의 정확도를 비교 분석하였다. 연구 결과, 랜덤 포레스트와 부스팅 기법이 가장 높은 예측 정확도를 보였다. 이 연구는 빅데이터와 인공지능을 이용해 축구선수의 연봉등급을 예측하고, 축구 산업에 새로운 관점을 제공한다.

재난 위험신고 빅데이터를 활용한 사회연결망 분석 (Social Network Analysis by Utilizing Disaster Risk Big Data)

  • 한지아;정덕훈
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.45-63
    • /
    • 2016
  • 최근 기후변화 및 사회구조 변화에 따라 신종 또는 복합재난 발생빈도가 증가하고 있으며 재난예방의 중요성이 증가하고 있다. 중앙 및 지방정부에서의 재난예방활동 중 가장 대표적인 시설 안전관리에 대한 유용한 정보를 제공하기 위해 국민안전처의 "안전신문고" 주요처리사례 데이터를 활용하여 주민이 신고한 위험시설 신고내용의 키워드를 파악하여 시설간 계절 및 지역별 신고 분포 현황을 분석하였다. 이를 위해 사회 연결망 분석기법을 활용하여 시설 키워드를 중심으로 1-mode, 2-mode를 구성하였으며 계절별, 지역별로의 분포 차이를 분석하였다.

  • PDF

게임데이터를 이용한 승패예측 및 세분화된 변수 중요도 도출 기법 (Predicting win-loss using game data and deriving the importance of subdivided variables)

  • 오민지;최은선;;조완섭
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.231-240
    • /
    • 2020
  • 정보통신기술의 발달과 더불어 게임 산업이 성장하면서 유저의 게임데이터는 다양한 플레이 및 옵션에 따라 초 단위로 기록되며 방대한 양의 게임데이터를 빅데이터 기반으로 분석할 수 있게 되었다. 비즈니스와 결합하여 다양한 분야에서 수익창출을 위한 새로운 가치를 발견하는 것에 빅데이터를 활용하고 있지만, 게임 산업에서의 빅데이터 활용은 미흡한 실정이다. 본 연구에서는 리그오브레전드의 게임데이터를 이용하여 라인 별 승패예측모형을 구축한 뒤 세분화 된 라인의 특성을 반영한 변수 중요도를 도출하여 일반 게임유저가 승률을 올리기 위해 전적검색사이트를 이용하여 사전에 팀 구성원에 대한 정보를 제공받을 수 있도록 한다.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.