• Title/Summary/Keyword: Big data Processing

Search Result 1,063, Processing Time 0.032 seconds

Prediction of Good Seller in Overseas sales of Domestic Books Using Big Data (빅데이터를 활용한 국내 도서의 해외 판매시 굿셀러 예측)

  • Kim, Nayeon;Kim, Doyoung;Kim, Miryeo;Jung, Jiyeong;Kim, Hyon Hee
    • Annual Conference of KIPS
    • /
    • 2022.05a
    • /
    • pp.401-404
    • /
    • 2022
  • 한국 문학이 세계로 뻗어나감에 따라 해외 시장에서 자리를 잡는 것이 중요해진 시점이다. 본 연구에서는 2016 년도부터 2020 년도까지 최근 5 년간 해외 출간된 도서들 중에서 굿셀러로 분류되는 누적 5 천부 이상 판매 여부를 예측하고자 했다. 굿셀러로 분류되는 도서는 전체 번역 도서 중 적은 비율을 차지하여 데이터 불균형이 발생하였으며, 본 연구에서는 SMOTE 기법과 앙상블 알고리즘을 적용하여 데이터 불균형 문제를 해결하였다. 그 결과, 데이터 클래스 비율이 1:1 에 가까울수록 성능 개선 효과가 나타났으며 LightGBM 모델이 99.83%의 AUC 값을 얻어 다른 앙상블 알고리즘에 비해 가장 좋은 예측 성능을 보임을 검증하였다. 또한 누적 5 천부 이상 판매 여부 예측에 있어 큰 영향을 미치는 변수로는 작가가 가장 중요한 요인으로 나타났으며 출간 국가, 그리고 평점 평균, 평점 참여자 수 같은 온라인 요인도 판매 예측에 유의미한 변수로 나타난 것을 확인할 수 있었다.

KI Cloud: Design and Implementation of BigData Analysis and Machine Learning Applications on Supercomputer (KI Cloud: 슈퍼컴퓨터를 통한 빅데이터 분석 및 머신 러닝 서비스 구축 방안)

  • Park, Ju-Won;Lee, Seungmin;Jeong, Kimoon;Hong, TaeYoung
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.80-82
    • /
    • 2020
  • 전통적으로 기초 과학 분야의 대규모 워크로드 작업들은 슈퍼컴퓨터와 같은 대용량 클러스터 시스템을 이용하여 수행해왔다. 그러나 최근 빅데이터 및 머신 러닝과 같은 새로운 분야에서의 컴퓨팅 자원 요구가 증가하고 기존 사용자의 요구 사항도 다양해짐에 따라 기존의 클러스터 시스템 운영 환경에서는 많은 어려움이 나타나고 있다. 이러한 문제를 해결하기 위해 한국과학기술정보연구원(KISTI)에서는 지난 3 월부터 KI (KISTI Intelligent) Cloud 서비스를 개발하여 서비스를 제공하고 있다. KI Cloud 서비스는 다음과 같은 특징이 있다. 첫째, Jupyter 과 RStudio 와 같은 대화형 개발 환경을 웹을 통해 제공함으로써 사용자는 언제, 어디서나 손쉽게 서비스를 활용할 수 있다. 둘째, 컨테이너 기술을 활용하여 사용자가 요구하는 개발 및 실행 환경을 실시간으로 구성하여 제공한다. 셋째, 사용자의 서비스 환경을 동적으로 구성하여 제공함으로써 컴퓨팅 자원의 효율성을 높일 수 있다.

Interactive Map-based Spatio-Temporal Visualization of Typhoon Situation using Web News BigData (웹 뉴스 빅데이터를 이용한 태풍 상황정보의 인터렉티브 지도 기반 시공간 시각화 방안)

  • Lee, Jiae;Kim, Junchul
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.773-776
    • /
    • 2020
  • 웹 뉴스 기사는 태풍과 같은 재해 발생상황에 대한 신속하고 정확한 정보를 포함하고 있다. 예를 들어, 태풍의 발생시점, 이동·예측경로, 피해·사고 현황 등 유용한 정보를 텍스트, 이미지, 동영상의 형태로 관련 상황정보를 전달한다. 그러나 대부분의 재해재난 관련 뉴스 기사는 특정 시점의 정보만을 웹페이지 형태로 제공하므로, 시계열 측면의 연결성을 지니는 기사들에 대한 정보를 전달하기 어렵다. 또한 시간적 변화에 따라 기사 내용에 포함된 장소, 지역, 건물 등의 지명에 대한 공간적 정보를 지도와 연계하여 정보를 전달하는데 한계가 있어, 시공간적 변화에 따른 특정 재해재난 상황정보에 대한 전체적인 현황파악이 어렵다. 따라서, 본 논문에서는 데이터 시각화 측면에서 이러한 한계를 극복하기 위해, 1) 웹크롤링을 통해 구축된 뉴스 빅데이터를 자연어 처리를 통해 태풍과 관련된 뉴스 기사들을 추출하였고, 2) 시공간적 관련 정보를 지식그래프로 구축하였고, 이를 통해 최근 발생한 태풍 사건들과 관련된 뉴스 정보를 시계열 특성을 고려하여 3) 인터렉티브 지도 기반의 태풍 상황정보를 시각화하는 방안을 연구하였다.

A Study On AI Machine BigData based Cryptocurrency News (빅데이터 기반 가상화폐 공시 분석 AI 연구)

  • Jeong, Yong-Bin;An, Sang-Hun;Lee, Se-Uk;Park, Hyun-Sung;Lee, Do-Yun;Lee, Hyo-Kyung;An, Jeong-Wun;Koh, Jin-Gwang
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.68-70
    • /
    • 2021
  • 인터넷 가상화폐 거래소에 게시되는 공시를 분석하여 향후 게시된 공시가 가상화폐 가격에 줄 영향을 예측해보고자 한다. 과거 게시된 공시 데이터를 바탕으로 딥러닝을 이용해 영향치를 도출해낸다. 프로그램은 Python 언어로 작성하였으며, django 웹 프레임워크를 이용하여 결과치를 보여줄 수 있는 웹 사이트를 구현하였다. 또한 공시를 통합한 데이터를 이용하여 새로 게시되는 공시가 해당 가상화폐의 가격에 줄 예측치를 분석하였으며 해당 공시가 가상화폐의 가격에 어떻게 영향을 줄지 쉽게 판단할 수 없는 사용자들에게 도움을 줄 수 있을 것이다.

A Deep Learning Model for Identifying The Time Lag Between Explanatory Variables and Response Variable in Regression Analysis (회귀분석에서 설명변수와 반응변수 간의 시차를 파악하는 딥러닝 모델)

  • Kim, Chaehyeon;Ryoo, Euirim;Lee, Ki Yong
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.868-871
    • /
    • 2021
  • 기후, 경영, 경제 등 여러 분야의 회귀분석에서 설명변수가 반응변수에 일정 시차를 두고 영향을 미치는 경우들이 많다. 하지만 지금까지 대부분의 회귀분석은 설명변수가 반응변수에 즉각적으로 영향을 미치는 경우만을 가정하고 있으며, 설명변수와 반응변수 간에 존재하는 시차를 탐색하는 연구는 거의 이루어지지 않았다. 그러나 보다 정확한 회귀분석을 위해서는 설명변수와 반응변수 간에 존재하는 시차를 파악하는 것이 중요하다. 본 논문은 회귀분석 데이터가 주어졌을 때 설명변수와 반응변수 간에 존재하는 시차를 파악하는 딥러닝 모델을 제안한다. 제안하는 딥러닝 모델은 설명변수의 과거 값들 중 어떤 값이 현재 반응변수에 가장 큰 영향을 미치는지를 노드 간 가중치로 표현하고, 회귀모델의 오차를 최소화하는 가중치를 탐색한다. 훈련이 끝나면 이 가중치들을 사용하여 각 설명변수와 반응변수 간에 존재하는 시차를 파악한다. 실험을 통해 제안 방법은 시차를 고려하지 않는 기존 회귀모델에 비해 시차까지 고려함으로써 오차가 1/100 수준에 불과한 더 정확한 회귀모델을 찾을 수 있음을 확인하였다.

Development of diet-based personalized nutritional supplement recommendation system (식단 기반 개인 맞춤형 영양제 추천 시스템 개발)

  • Hong, Seong-Jun;Lee, Min-Hee;Jang, Jae-Ri;Jeong, Ha-Eun;Hong, Yu-Ri;Lee, Jee-Hang;Kim, Jin
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.359-361
    • /
    • 2022
  • 최근 현대인의 영양불균형이 점점 심화됨에 따라 영양결핍과 비만의 위험도가 점점 증가하고 있다. 이에 따라 건강기능식품에 대한 관심이 증가하여 일반인들의 건강기능식품 소비가 증가하고 있지만, 적정섭취량에 비해 영양소를 과도하게 섭취 중이거나 영양제를 먹지만 정작 필요한 영양소를 섭취하지 못하는 경우가 빈번히 나타나고 있다. 이러한 문제를 해소하고자 본 논문에서는 7 일간 사용자가 섭취한 식단을 기반으로 부족한 영양소를 수치상으로 계산하여 개인 맞춤 영양제를 추천하는 시스템을 제안한다.

Trends and Future Directions in Facial Expression Recognition Technology: A Text Mining Analysis Approach (얼굴 표정 인식 기술의 동향과 향후 방향: 텍스트 마이닝 분석을 중심으로)

  • Insu Jeon;Byeongcheon Lee;Subeen Leem;Jihoon Moon
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.748-750
    • /
    • 2023
  • Facial expression recognition technology's rapid growth and development have garnered significant attention in recent years. This technology holds immense potential for various applications, making it crucial to stay up-to-date with the latest trends and advancements. Simultaneously, it is essential to identify and address the challenges that impede the technology's progress. Motivated by these factors, this study aims to understand the latest trends, future directions, and challenges in facial expression recognition technology by utilizing text mining to analyze papers published between 2020 and 2023. Our research focuses on discerning which aspects of these papers provide valuable insights into the field's recent developments and issues. By doing so, we aim to present the information in an accessible and engaging manner for readers, enabling them to understand the current state and future potential of facial expression recognition technology. Ultimately, our study seeks to contribute to the ongoing dialogue and facilitate further advancements in this rapidly evolving field.

Movie Recommendation System using Community Detection and Parallel Programming (커뮤니티 탐지 및 병렬 프로그래밍을 이용한 영화 추천 시스템)

  • Sadriddinov Ilkhomjon;Yixuan Yang;Sony Peng;Sophort Siet;Dae-Young Kim;Doo-Soon Park
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.389-391
    • /
    • 2023
  • In the era of Big Data, humanity is facing a huge overflow of information. To overcome such an obstacle, many new cutting-edge technologies are being introduced. The movie recommendation system is also one such technology. To date, many theoretical and practical kinds of research have been conducted. Our research also focuses on the movie recommendation system by implementing methods from Social Network Analysis(SNA) and Parallel Programming. We applied the Girvan-Newman algorithm to detect communities of users, and a future package to perform the parallelization. This approach not only tries to improve the accuracy of the system but also accelerates the execution time. To do our experiment, we used the MovieLense Dataset.

Production of leisure score indicators for the elderly in Seoul and selection of vulnerable areas (서울시 노인여가점수 지표 제작 및 취약지역 선정)

  • HyunDong Kim;Jae Hoon Kang;Ju Yeon Lim;So Eun Kim;Woo Sung Jung;Hwa Jung Kim;Hyung Hu Kim;Jin-Kim
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.378-379
    • /
    • 2023
  • 본 연구의 목적은 최근 증가하고 있는 고령 인구를 위해 여러 가지 요인을 고려하여 노인만을 대상으로 하는 여가 만족도를 산출하는 것이다. 노인의 여가 만족도에 영향을 주는 요인으로 '여가시설', '노인 인구', '노인 건강', '노인 소득'을 산정하였다. 해당 요인들에 가중치를 분배하여 산정하기 위한 방법으로 PCA와 선형회귀를 사용하였다. 위 과정을 통해 제작된 노인 여가 만족도 지표에 인자값을 투입하여 자치구별로 노인 여가 만족도 점수를 산출하였고, 스코어 카드를 통해 현황을 살펴보았다. 본 연구는 산출된 각 자치구별 여가 만족도 점수와 인자에 해당하는 점수를 파악하여, 여가만족도가 낮은 지역들의 취약 분야를 파악하고 취약 분야를 중점으로 여가 만족도를 개선해나갈 것을 제안한다.

An Improved Skyline Query Scheme for Recommending Real-Time User Preference Data Based on Big Data Preprocessing (빅데이터 전처리 기반의 실시간 사용자 선호 데이터 추천을 위한 개선된 스카이라인 질의 기법)

  • Kim, JiHyun;Kim, Jongwan
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.5
    • /
    • pp.189-196
    • /
    • 2022
  • Skyline query is a scheme for exploring objects that are suitable for user preferences based on multiple attributes of objects. Existing skyline queries return search results as batch processing, but the need for real-time search results has increased with the advent of interactive apps or mobile environments. Online algorithm for Skyline improves the return speed of objects to explore preferred objects in real time. However, the object navigation process requires unnecessary navigation time due to repeated comparative operations. This paper proposes a Pre-processing Online Algorithm for Skyline Query (POA) to eliminate unnecessary search time in Online Algorithm exploration techniques and provide the results of skyline queries in real time. Proposed techniques use the concept of range-limiting to existing Online Algorithm to perform pretreatment and then eliminate repetitive rediscovering regions first. POAs showed improvement in standard distributions, bias distributions, positive correlations, and negative correlations of discrete data sets compared to Online Algorithm. The POAs used in this paper improve navigation performance by minimizing comparison targets for Online Algorithm, which will be a new criterion for rapid service to users in the face of increasing use of mobile devices.