• Title/Summary/Keyword: Big data Processing

Search Result 1,063, Processing Time 0.037 seconds

A study on the R&D Direction of BigData technologies (빅데이터 R&D 방향성에 대한 연구)

  • Kim, Pang-ryong;Hong, Jae-pyo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.05a
    • /
    • pp.732-733
    • /
    • 2014
  • This study aims to examine the R&D trends on Big Data sector through patent analysis and to suggest directions of the R&D activities in Korea. According to the results of analysis, the R&D trends of Big Data sector have shown two characteristics. First, the US has monopolized the world market of Big Data Sector. The patent activities of US have shown relatively even throughout every technology. And the average share of each technology is over 40%. Second, the trends of R&D have been changed. In the past, data analysis and processing technologies were the mainstream, whereas data operations and management technologies are mainly featured. However, the patent applications in Korea have been concentrated on storage technologies, while the applications for data operations and management technologies are correspondingly low; therefore, it seemingly needs urgent research and development of relevant technologies.

  • PDF

Energy Big Data Pre-processing System for Energy New Industries (에너지신산업을 위한 에너지 빅데이터 전처리 시스템)

  • Yang, Soo-Young;Kim, Yo-Han;Kim, Sang-Hyun;Kim, Won-Jung
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.5
    • /
    • pp.851-858
    • /
    • 2021
  • Due to the increase in renewable energy and distributed resources, not only traditional data but also various energy-related data are being generated in the new energy industry. In other words, there are various renewable energy facilities and power generation data, system operation data, metering and rate-related data, as well as weather and energy efficiency data necessary for new services and analysis. Energy big data processing technology can systematically analyze and diagnose data generated in the first half of the power production and consumption infrastructure, including distributed resources, systems, and AMI. Through this, it will be a technology that supports the creation of new businesses in convergence between the ICT industry and the energy industry. To this end, research on the data analysis system, such as itemized characteristic analysis of the collected data, correlation sampling, categorization of each feature, and element definition, is needed. In addition, research on data purification technology for data loss and abnormal state processing should be conducted. In addition, it is necessary to develop and structure NIFI, Spark, and HDFS systems so that energy data can be stored and managed in real time. In this study, the overall energy data processing technology and system for various power transactions as described above were proposed.

An Extraction Method of Sentiment Infromation from Unstructed Big Data on SNS (SNS상의 비정형 빅데이터로부터 감성정보 추출 기법)

  • Back, Bong-Hyun;Ha, Ilkyu;Ahn, ByoungChul
    • Journal of Korea Multimedia Society
    • /
    • v.17 no.6
    • /
    • pp.671-680
    • /
    • 2014
  • Recently, with the remarkable increase of social network services, it is necessary to extract interesting information from lots of data about various individual opinions and preferences on SNS(Social Network Service). The sentiment information can be applied to various fields of society such as politics, public opinions, economics, personal services and entertainments. To extract sentiment information, it is necessary to use processing techniques that store a large amount of SNS data, extract meaningful data from them, and search the sentiment information. This paper proposes an efficient method to extract sentiment information from various unstructured big data on social networks using HDFS(Hadoop Distributed File System) platform and MapReduce functions. In experiments, the proposed method collects and stacks data steadily as the number of data is increased. When the proposed functions are applied to sentiment analysis, the system keeps load balancing and the analysis results are very close to the results of manual work.

A Study on Linked Platform and Techonology of Big Data and IoT (빅데이터와 사물 인터넷의 연계 플랫폼 및 기술에 관한 연구)

  • Park, Kyung Yeob;Park, Jong Hyuk
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.350-353
    • /
    • 2017
  • 사물 인터넷(Internet of Things, IoT)이란 사물 인터넷으로서 사물을 서로 연결 및 통신하여 정보를 주고 받을 수 있게 하는 기술이다. 사물 인터넷의 급속한 성장으로 인해 수많은 데이터가 발생하게 되었고, 이러한 이유로 인해 빅데이터(big-data) 기술이 대두되었다. 빅데이터는 정형 데이터 뿐만 아니라 사진, 동영상 등의 비정형 데이터 또한 분석하고 활용하는 기술이기 때문에 사물 인터넷과 빅데이터 기술은 서로 보완적인 관계에 있다. 이러한 두 가지 기술의 특성에 기초하여, 본 논문에서는 빅데이터와 사물 인터넷에 대한 정의와 동향에 대하여 알아보고 이러한 두 가지 기술을 연계해 활용한 실제 플랫폼과 스마트 시티 등에 대한 실생활에 쓰이는 실제 사례 및 기술들에 대해 연구하였다.

Document Summarization using Semantic Feature and Hadoop (하둡과 의미특징을 이용한 문서요약)

  • Kim, Chul-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.9
    • /
    • pp.2155-2160
    • /
    • 2014
  • In this paper, we proposes a new document summarization method using the extracted semantic feature which the semantic feature is extracted by distributed parallel processing based Hadoop. The proposed method can well represent the inherent structure of documents using the semantic feature by the non-negative matrix factorization (NMF). In addition, it can summarize the big data document using Hadoop. The experimental results demonstrate that the proposed method can summarize the big data document which a single computer can not summarize those.

A Study on the Prediction Model for Student Dropout (학생 중도탈락 예측 모델에 관한 연구)

  • Lee, JongHyuk;Kim, DaeHak;Gil, JoonMin
    • Annual Conference of KIPS
    • /
    • 2018.05a
    • /
    • pp.37-40
    • /
    • 2018
  • 빅데이터 산업 부상과 함께 교육 데이터 분석 분야가 새롭게 주목받고 있다. 교육 현장에서 학습 데이터의 양과 종류는 꾸준히 증가하고 있고 이를 분석하기 위한 정보기술도 계속 발전하고 있다. 한편, 학교 교육은 사회적 성취와 밀접한 관련이 있어 사회이동의 중요한 수단이 되는 만큼 학교 교육으로부터 이탈할 위험이 있는 학생들을 조기에 발견하여 이탈을 방지하는 것은 매우 중요하다. 본 논문은 대학생의 중도탈락을 예방하기 위해 로지스틱 회귀분석과 다층 퍼셉트론 기법을 이용해 학습 데이터를 분석하여 예측 모델을 생성하고 해당 모델을 평가한다. 평가 결과, 다층 퍼셉트론 모델이 로지스틱 회귀분석 모델에 비해 정확도와 재현율은 우수하였지만 정밀도는 약간 저조하였다.

Automatic Construction and Evaluation of Movie Domain Korean Sentiment Dictionary (영화도메인 한국어 감성사전의 자동구축과 평가)

  • Cho, Heeryon;Choi, Sang-Hyun
    • Annual Conference of KIPS
    • /
    • 2015.04a
    • /
    • pp.585-587
    • /
    • 2015
  • 본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

A Method on Associated Document Recommendation with Word Correlation Weights (단어 연관성 가중치를 적용한 연관 문서 추천 방법)

  • Kim, Seonmi;Na, InSeop;Shin, Juhyun
    • Journal of Korea Multimedia Society
    • /
    • v.22 no.2
    • /
    • pp.250-259
    • /
    • 2019
  • Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

A Study on the Hierarchical Expression of Human Cell Lineage (인간 세포 Lineage 의 계층적 표현에 관한 연구)

  • Park, JaeSoon;Kwon, Seong Gyu;Oh, Ji Won;Lee, JongHyuk
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.663-664
    • /
    • 2020
  • 차세대 염기서열 분석 기술은 성능과 비용 면에서 매우 향상되어 한 개체 내 여러 세포의 유전자 분석이 가능한 수준이다. 한 개체 내 여러 조직 세포의 유전자는 모두 동일하지 않기 때문에 여러 조직 세포의 Lineage 를 계층적으로 표현하고 이를 조직 세포 간 변이 정도를 파악하는 데 활용한다면 암 돌연변이 발생 등을 미리 예측할 수 있다. 본 논문은 한 개체 내 여러 조직 간 변이를 관찰하기 위해 변이 검출 데이터를 계층적 군집 방법을 이용해 분석하고 이를 시각화 하는 방법을 제안한다. 실제의 8 개 조직 세포의 유전자를 분석하고 변이를 검출하여 Dendrogram 그래프로 시각화 하였다.

Decision Program for Advertisement Web Posts (광고성 웹 게시글 판단 프로그램)

  • Bae, Ji-Seon;Oh, Ye-Rim;Kim, Chae-won;Park, Ji-Won;Hong, Jin-Keun;Yoon, Hyung-Ki
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.1334-1336
    • /
    • 2021
  • 흔히, 웹 플랫폼에서 검색했을 때, 게시글 마지막부분에 광고인지 여부를 판단 할 수 있는 관련 글들이 나타난다. 이 글들은 사용자의 판단력을 흐리게 할 수 있다고 판단되며 개선의 필요성이 제기된다. 따라서 본 논문에서는 사용자들에게 웹 게시글에서 나타나는 광고성 여부에 대해 신속한 판단이 가능하도록 하는 환경에 대한 연구를 하고자 한다. 본 논문에서는 게시글에 포함된 광고 관련 문구를 찾아 페이지 상단에 해당 정보를 제공하는 프로그램을 제작 게시함으로써, 광고여부를 판단할 수 있도록 하였다.