• 제목/요약/키워드: Large Dataset

검색결과 560건 처리시간 0.026초

네트워크 분석과 LDA 토픽 모델링을 활용한 건강한 레스토랑의 지각된 건강성 요인 (Perceived Healthiness of Healthy Restaurants Based on Network Analysis and LDA Topic Modeling)

  • 김민지;서선희
    • 지식경영연구
    • /
    • 제25권3호
    • /
    • pp.201-230
    • /
    • 2024
  • 본 연구는 건강식 레스토랑의 소비자 리뷰를 분석하여 고객이 인식하는 건강성 요인을 파악하고자 하였다. 이전 연구들은 주로 식품 제품의 건강성에 초점을 맞춘 반면 레스토랑의 관점에서 온라인 리뷰 분석을 통한 건강성 연구는 제한적이다. 이를 위해 텍스트 마이닝 방법론 중 동시 출현 네트워크 분석과 LDA 토픽 모델링을 사용하여 대규모 온라인 리뷰 데이터에서 건강식 레스토랑에 대한 소비자의 건강 관련 인식과 선호도를 조사하였다. 분석 결과, 소비자들은 건강식 레스토랑을 선택할 때 맛, 식재료의 카테고리, 신선도, 가격, 영양 성분, 건강 옵션, 메뉴의 다양성 등 다양한 건강 관련 요소를 중시하며 이러한 요소들은 레스토랑의 평가 및 선택에 중대한 영향을 미치는 것으로 나타났다. 특히 건강식 레스토랑에서 제공되는 음식의 맛이 건강성과 밀접하게 연결되어 있음을 발견하였고 재료에서 느껴지는 건강한 맛에 대한 중요성이 강조되었다. 결론적으로 본 연구는 건강한 레스토랑이 소비자의 건강성 인식을 어떻게 반영하고 충족시킬 수 있는지에 대한 실질적인 통찰을 제공하며, 식품 및 외식 산업의 건강 트렌드에 대응하는 전략적 방향을 제시한다.

Random Forest 기법을 이용한 도심지 MT 시계열 자료의 차량 잡음 분류 (Classification of Transport Vehicle Noise Events in Magnetotelluric Time Series Data in an Urban area Using Random Forest Techniques)

  • 권형석;류경호;심익현;이춘기;오석훈
    • 지구물리와물리탐사
    • /
    • 제23권4호
    • /
    • pp.230-242
    • /
    • 2020
  • 201 6년 9월에 발생한 경주지진원 구역에 대한 정밀 지질구조 규명을 위해 MT 탐사를 적용하였다. 경주지역의 MT 측정자료는 조사지역 인근의 지하철, 전력선, 공장, 주택, 농경지에서 발생된 전기적 잡음과 철도, 도로에서의 차량잡음 등으로 인해 측정자료 왜곡이 심하게 발생되었다. 이 연구에서는 고속철도 및 고속도로와 인접한 4개소의 MT 탐사자료에 기계학습 기법을 적용하여 차량잡음이 포함된 시계열을 분류하였다. 고속열차 잡음이 포함된 시계열에 대해서는 확률적 경사 하강법, 서포트 벡터 머신과 랜덤 포레스트 3가지의 분류모델을 적용하여 그 결과를 비교하였다. 대형트럭 잡음이 포함된 시계열 자료에 대해서는 Hx 성분, Hy 성분과 Hx & Hy 합성성분 크기에 대한 3가지의 샘플 자료를 준비하였으며 랜덤 포레스트 분류모델을 구성하여 그 성능을 평가하였다. 마지막으로 차량잡음 제거 효과 분석을 위하여 차량잡음 제거 전후의 시계열, 진폭 스펙트럼과 겉보기비저항 곡선을 비교하였으며, 이를 통해 차량잡음이 영향을 미치는 주파수 대역과 차량잡음 제거 시 발생될 수 있는 문제점에 대해 고찰하였다.

Big Data Based Dynamic Flow Aggregation over 5G Network Slicing

  • Sun, Guolin;Mareri, Bruce;Liu, Guisong;Fang, Xiufen;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4717-4737
    • /
    • 2017
  • Today, smart grids, smart homes, smart water networks, and intelligent transportation, are infrastructure systems that connect our world more than we ever thought possible and are associated with a single concept, the Internet of Things (IoT). The number of devices connected to the IoT and hence the number of traffic flow increases continuously, as well as the emergence of new applications. Although cutting-edge hardware technology can be employed to achieve a fast implementation to handle this huge data streams, there will always be a limit on size of traffic supported by a given architecture. However, recent cloud-based big data technologies fortunately offer an ideal environment to handle this issue. Moreover, the ever-increasing high volume of traffic created on demand presents great challenges for flow management. As a solution, flow aggregation decreases the number of flows needed to be processed by the network. The previous works in the literature prove that most of aggregation strategies designed for smart grids aim at optimizing system operation performance. They consider a common identifier to aggregate traffic on each device, having its independent static aggregation policy. In this paper, we propose a dynamic approach to aggregate flows based on traffic characteristics and device preferences. Our algorithm runs on a big data platform to provide an end-to-end network visibility of flows, which performs high-speed and high-volume computations to identify the clusters of similar flows and aggregate massive number of mice flows into a few meta-flows. Compared with existing solutions, our approach dynamically aggregates large number of such small flows into fewer flows, based on traffic characteristics and access node preferences. Using this approach, we alleviate the problem of processing a large amount of micro flows, and also significantly improve the accuracy of meeting the access node QoS demands. We conducted experiments, using a dataset of up to 100,000 flows, and studied the performance of our algorithm analytically. The experimental results are presented to show the promising effectiveness and scalability of our proposed approach.

ADVANTAGES OF USING ARTIFICIAL NEURAL NETWORKS CALIBRATION TECHNIQUES TO NEAR-INFRARED AGRICULTURAL DATA

  • Buchmann, Nils-Bo;Ian A.Cowe
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1032-1032
    • /
    • 2001
  • Artificial Neural Network (ANN) calibration techniques have been used commercially for agricultural applications since the mid-nineties. Global models, based on transmission data from 850 to 1050 nm, are used routinely to measure protein and moisture in wheat and barley and also moisture in triticale, rye, and oats. These models are currently used commercially in approx. 15 countries throughout the world. Results concerning earlier European ANN models are being published elsewhere. Some of the findings from that study will be discussed here. ANN models have also been developed for coarsely ground samples of compound feed and feed ingredients, again measured in transmission mode from 850 to 1050 nm. The performance of models for pig- and poultry feed will be discussed briefly. These models were developed from a very large data set (more than 20,000 records), and cover a very broad range of finished products. The prediction curves are linear over the entire range for protein, fat moisture, fibre, and starch (measured only on poultry feed), and accuracy is in line with the performance of smaller models based on Partial Least Squares (PLS). A simple bias adjustment is sufficient for calibration transfer across instruments. Recently, we have investigated the possible use of ANN for a different type of NIR spectrometer, based on reflectance data from 1100 to 2500 nm. In one study, based on data for protein, fat, and moisture measured on unground compound feed samples, dedicated ANN models for specific product classes (cattle feed, pig feed, broiler feed, and layers feed) gave moderately better Standard Errors of Prediction (SEP) compared to modified PLS (MPLS). However, if the four product classes were combined into one general calibration model, the performance of the ANN model deteriorated only slightly compared to the class-specific models, while the SEP values for the MPLS predictions doubled. Brix value in molasses is a measure of sugar content. Even with a huge dataset, PLS models were not sufficiently accurate for commercial use. In contrast an ANN model based on the same data improved the accuracy considerably and straightened out non-linearity in the prediction plot. The work of Mr. David Funk (GIPSA, U. S. Department of Agriculture) who has studied the influence of various types of spectral distortions on ANN- and PLS models, thereby providing comparative information on the robustness of these models towards instrument differences, will be discussed. This study was based on data from different classes of North American wheat measured in transmission from 850 to 1050 nm. The distortions studied included the effect of absorbance offset pathlength variation, presence of stray light bandwidth, and wavelength stretch and offset (either individually or combined). It was shown that a global ANN model was much less sensitive to most perturbations than class-specific GIPSA PLS calibrations. It is concluded that ANN models based on large data sets offer substantial advantages over PLS models with respect to accuracy, range of materials that can be handled by a single calibration, stability, transferability, and sensitivity to perturbations.

  • PDF

불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례 (Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital)

  • 허준;김종우
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.45-65
    • /
    • 2007
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모델을 만들어 내기 위하여, 데이터 불균형 문제의 기본 해법인 Sampling과 오분류 비용의 다양한 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모델을 도출하였다.

데이터마이닝 기법을 활용한 대졸자 고용에 미치는 영향요인 분석 (The Factors that Affects the Employment Type of The Graduates by Data-mining Approach)

  • 김형래;전도홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.167-174
    • /
    • 2012
  • 데이터마이닝 기법은 대량 데이터로부터 유의미한 정보를 추출하기 위해 고용정보 분야 등 다양한 분야로 폭넓게 활용되고 있다. 대졸자 실업, 여성 재취업, 고령자 취업 등의 불안정한 고용형태가 사회적 문제로 등장함에 따라 고용 안정성을 높이려는 다양한 공공 고용서비스의 노력과 연구가 진행되고 있다. 대졸자의 고용형태(상용직, 무직자, 일용직 등)에 영향을 미치는 주요 요인을 개인생활 환경 또는 학교생활 측면에서 분석한 연구 결과는 효과적인 취업 지원과 대학생의 취업 준비를 지도하는 데에 사용될 수 있다. 이러한 사회 조사 분석은 다양한 요인과 방대한 데이터양으로 인해 일반적 통계적 분석만으로는 한계가 있다. 170여개의 속성들 간의 관계 분석과 2만여 개의 응답데이터를 다루기에는 데이터마이닝 기법이 유용하다. 본 연구는 고용형태에 영향을 미치는 요인을 학교생활 요인, 개인환경 요인, 또는 직장생활 요인으로 구분하고, 의사결정 알고리즘을 통해 연관 관계를 분석하였다. 분석결과 주요 부모님의 소득, 결혼 여부 속성과 같은 개인 환경요인이 개인의 고용형태에 큰 영향을 미치는 것으로 나타났고, 의사결정구조 모델은 87%정확성을 보였다. 학교생활 요인으로는 대학 소재 지역으로 추정되는 학교수준이 주요 요인으로 나타났다.

Estimation of Genetic Parameters and Trends for Weaning-to-first Service Interval and Litter Traits in a Commercial Landrace-Large White Swine Population in Northern Thailand

  • Chansomboon, C.;Elzo, M.A.;Suwanasopee, T.;Koonawootrittriron, S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제23권5호
    • /
    • pp.543-555
    • /
    • 2010
  • The objectives of this research were the estimation of genetic parameters and trends for weaning-to-first service interval (WSI), and litter traits in a commercial swine population composed of Landrace (L), Large White (T), LT, and TL animals in Chiang Mai, Northern Thailand. The dataset contained 4,399 records of WSI, number of piglets born alive (NBA), litter weight of live piglets at birth (LBW), number of piglets at weaning (NPW), and litter weight at weaning (LWW). Variance and covariance components were estimated with REML using 2-trait analyses. An animal model was used for WSI and a sire-dam model for litter traits. Fixed effects were farrowing year-season, breed group of sow, breed group of boar (litter traits), parity, heterosis (litter traits), sow age, and lactation length (NPW and LWW). Random effects were boar (litter traits), sow, permanent environment, and residual. Heritabilities for direct genetic effects were low for WSI (0.04${\pm}$0.02) and litter traits (0.05${\pm}$0.02 to 0.06${\pm}$0.02). Most heritabilities for maternal litter trait effects were 20% to 50% lower than their direct counterparts. Repeatability for WSI was similar to its heritability. Repeatabilities for litter traits ranged from 0.15${\pm}$0.02 to 0.18${\pm}$F0.02. Direct genetic, permanent environment, and phenotypic correlations between WSI and litter traits were near zero. Direct genetic correlations among litter traits ranged from 0.56${\pm}$0.20 to 0.95${\pm}$0.05, except for near zero estimates between NBA and LWW, and LBW and LWW. Maternal, permanent environment, and phenotypic correlations among litter traits had similar patterns of values to direct genetic correlations. Boar genetic trends were small and significant only for NBA (-0.015${\pm}$0.005 piglets/yr, p<0.004). Sow genetic trends were small, negative, and significant (-0.036${\pm}$0.013 d/yr, p<0.01 for WSI; -0.017${\pm}$0.005 piglets/yr, p<0.007, for NBA; -0.015${\pm}$0.005 kg/yr, p<0.01, for LBW; -0.019${\pm}$0.008 piglets/yr, p<0.02, for NPW; and -0.022${\pm}$0.006 kg/yr, p<0.003, for LWW). Permanent environmental correlations were small, negative, and significant only for WSI (-0.028${\pm}$0.011 d/yr, p<0.02). Environmental trends were positive and significant only for litter traits (p<0.01 to p<0.0003). Selection based on predicted genetic values rather than phenotypes could be advantageous in this population. A single trait analysis could be used for WSI and a multiple trait analysis could be implemented for litter traits.

경기도 커피 전문점의 입점 전략에 대한 실증 연구 (An Empirical Analysis of Coffee Franchise Location Strategies: Evidence from Gyeonggi Province)

  • 윤영태;이동엽
    • 한국산학기술학회논문지
    • /
    • 제17권8호
    • /
    • pp.192-199
    • /
    • 2016
  • 본 논문은 경기도의 5대 커피 프랜차이즈의 매장 위치 정보를 분석하여 각 브랜드의 커피 전문점의 입점 전략을 실증적으로 고찰한다. 경기도는 대도시와 비교해 상대적으로 넓은 면적, 많은 인구수, 다양한 산업구조를 지니고 있어 프랜차이즈의 경영 전략에 대한 연구를 수행하기 적합한 지역이라 할 수 있다. 이에 5대 커피 프랜차이즈의 경기도 내 모든 매장의 주소 정보를 수집하고, Google Maps Geocoding API를 통해 위도와 경도에 기반한 정확한 위치 정보로 변환한 다음, 이를 Haversine 공식에 대입하여 매장들 간의 거리를 미터 단위로 측정한다. 지금껏 계량적으로 입증하기 쉽지 않았던 비즈니스 주체들의 입점 전략을 매장사이의 실제 거리를 이용하여 실증적으로 조사하는 것은 새로운 시도이며, 이를 통해 다음의 세 가지 사항을 발견할 수 있다. 첫째, 자치구내 매장의 수와 커피 소비 연령 인구는 양의 관계를 가지며, 특히 유동인구가 많고 상권이 발달한 지역에서는 더 많은 매장을 찾을 수 있다. 둘째, 33%의 스타벅스 매장으로부터 반경 300m 이내의 지역에서 다른 스타벅스의 매장을 발견할 수 있으며, 이는 중심 상권에 다수의 매장을 배치하는 스타벅스의 집중적 초토화 전략을 잘 반영한다. 셋째, 80%의 스타벅스 매장으로부터 500m 이내에 이디야 커피의 매장이 자리하고 있으며, 이는 스타벅스의 옆자리에 입점하려는 이디야 커피의 전략을 구체적으로 설명한다. 본 연구의 분석 방법은 편의점, 패스트 푸드점, 휴대폰 판매점과 같은 여러 체인 소매업종 입점 전략 분석에도 유용하게 적용될 수 있다.

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

IoT 스트리밍 센서 데이터에 기반한 실시간 PM10 농도 예측 LSTM 모델 (Real-time PM10 Concentration Prediction LSTM Model based on IoT Streaming Sensor data)

  • 김삼근;오택일
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.310-318
    • /
    • 2018
  • 최근 사물인터넷(IoT)의 등장으로 인터넷에 연결된 다양한 기기들에 의해 대규모의 데이터가 생성됨에 따라 빅데이터 분석의 중요성이 증가하고 있다. 특히 실시간으로 생성되는 대규모의 IoT 스트리밍 센서 데이터를 분석하여 새로운 의미 있는 미래 예측을 통해 다양한 서비스를 제공하는 것이 필요하게 되었다. 본 논문은 AWS를 활용하여 IoT 센서로부터 생성되는 스트리밍 데이터에 기반하여 실시간 실내 PM10 농도 예측 LSTM 모델을 제안한다. 또한 제안 모델에 따른 실시간 실내 PM10 농도 예측 서비스를 구축한다. 논문에 사용된 데이터는 PM10 IoT 센서로부터 24시간 동안 수집된 스트리밍 데이터이다. 이를 LSTM의 입력 데이터로 사용하기 위해 PM10 시계열 데이터로부터 30개의 연속된 값으로 이루어진 시퀀스 데이터로 변환한다. LSTM 모델은 바로 인접한 공간으로 이동해 가는 슬라이딩 윈도우 프로세스를 통하여 학습한다. 또한 모델의 성능 개선을 위해 24시간마다 수집한 스트리밍 데이터에 대해 점진적 학습 방법을 적용한다. 제안한 LSTM 모델의 성능을 평가하기 위해 선형회귀 모델 및 순환형 신경망(RNN) 모델과 비교한다. 실험 결과는 제안한 LSTM 예측 모델이 선형 회귀보다 700%, RNN 모델보다는 140% 성능 개선이 있음을 보여주었다.