• 제목/요약/키워드: Models, statistical

검색결과 3,012건 처리시간 0.03초

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

여름철 북극 진동과 한반도 폭염의 관련성 (The Relationship between the Arctic Oscillation and Heatwaves on the Korean Peninsula)

  • 김정훈;노엘;김맹기
    • 한국제4기학회지
    • /
    • 제33권1_2호
    • /
    • pp.25-35
    • /
    • 2021
  • In this study, we identified characteristics of heatwaves on the Korean Peninsula and related atmospheric circulation patterns using data on the daily maximum temperature (TMX) and reanalysis data for the past 42 years (1979-2020) and analyzed their connection to the Arctic oscillation (AO). The heatwave on the Korean Peninsula showed to be stronger and more frequent in the 2000s. The recent strong and frequent heatwaves on the Korean Peninsula are mainly affected by abnormal high-pressure over the Korean Peninsula on the middle/upper-level atmosphere and the strengthening of the North Pacific high pressure. Interestingly, composite difference of sea level pressure showed very similar results to the positive AO pattern. The correlation coefficients between the summertime AO and the TMX and HWD of the Korean Peninsula were 0.407 and 0.437, respectively, which showed a statistical significance in 1%, and showed a clear relationship with the abnormal high-pressure over the Korean Peninsula and the strengthening of the North Pacific high pressure. In addition, in the positive AO phase, the TMX and HWD of the Korean peninsula were approximately 30.1 ℃ and 14.6 days, which were about 1.2 ℃ and 8.8 days higher than in the negative AO phase, respectively. As a result of the 15-year moving average correlation analysis, the relationship between the heatwave and AO on the Korean Peninsula has increased significantly since 2003, and the linear relationship between them has become more apparent. Moreover, after the 2000s, when the relationship developed, AO had more strongly induced the atmospheric circulation pattern to be more favorable to the occurrence of heatwaves in the Korean Peninsula. This study implies that understanding the AO, which is the large-scale variability in the Northern Hemisphere, and the Arctic-mid latitude teleconnection, can improve the performance of global climate models and help predict the seasonality of the summer heatwave on the Korean Peninsula.

유전자 알고리즘을 활용한 소셜네트워크 기반 하이브리드 협업필터링 (Social Network-based Hybrid Collaborative Filtering using Genetic Algorithms)

  • 노희룡;최슬비;안현철
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.19-38
    • /
    • 2017
  • 본 연구는 사용자 평점 이외에 사용자 간 직접 간접적 신뢰 및 불신 관계 네트워크의 분석 결과를 추가로 반영한 새로운 하이브리드 협업필터링(Collaborative filtering, CF) 추천방법을 제안한다. 구체적으로 사용자 간의 유사도를 계산할 때 사용자 평가점수의 유사성만을 고려하는 기존의 CF와 다르게, 사용자 신뢰 및 불신 관계 데이터의 사회연결망분석 결과를 추가적으로 고려하여 보다 정교하게 사용자 간의 유사도를 산출하였다. 이 때, 사용자 간의 유사도를 재조정하는 접근법으로 특정 이웃 사용자가 신뢰 및 불신 관계 네트워크에서 높은 신뢰(또는 불신)를 받을 때, 추천 대상이 되는 사용자와 해당 이웃 간의 유사도를 확대(강화) 또는 축소(약화)하는 방안을 제안하고, 더 나아가 최적의 유사도 확대 또는 축소의 정도를 결정하기 위해 유전자 알고리즘(genetic algorithm, GA)을 적용하였다. 본 연구에서는 제안 알고리즘의 성능을 검증하기 위해, 특정 상품에 대한 사용자의 평가점수와 신뢰 및 불신 관계를 나타낸 실제 데이터에 추천 알고리즘을 적용하였으며 그 결과, 기존의 CF와 비교했을 때 통계적으로 유의한 수준의 예측 정확도 개선이 이루어짐을 확인할 수 있었다. 또한 신뢰 관계 정보보다는 불신 관계 정보를 반영했을 때 예측 정확도가 더 향상되는 것으로 나타났는데, 이는 사회적인 관계를 추적하고 관리하는 측면에서 사용자 간의 불신 관계에 대해 좀 더 주목해야 할 필요가 있음을 시사한다.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

한국주식시장에서 기업특성모형 적용에 관한 실증연구 (An Empirical Study on Korean Stock Market using Firm Characteristic Model)

  • 김수경;박종해;변영태;김태혁
    • 경영과정보연구
    • /
    • 제29권2호
    • /
    • pp.1-25
    • /
    • 2010
  • 본 논문은 우리나라 주식시장을 대상으로 Haugen Baker(1996)가 제시한 기업특성요인모형을 적용하여 주식수익률 결정요인을 분석하였다. 분석기간은 1999년부터 2007년까지 총 8년간이며, 총 690개의 상장기업의 월별 자료를 이용하였다. 기존 연구에서 제시된 변수를 바탕으로 유동성, 위험, 과거주가, 가격수준, 수익성 등과 관련된 16개의 변수를 독립변수로, 690개 주식의 월별 수익률을 종속변수로 하여 시간가변 회귀분석을 통해 분석결과의 강건성을 높이고자 하였다. 본 연구의 결과는 다음과 같이 요약될 수 있다. 첫째, 기업특성정보가 주식수익률 결정에 미치는 사전적 영향을 분석한 결과 해당기업이 공개한 직전월의 기업특성 정보 중 당월의 주가에 유의적인 영향을 나타내는 기업특성은 유동성, 모멘텀 지표인 1개월, 3개월, 6개월 초과수익률, 주가 승수 중 PSR, PBR, 수익성을 나타내는 ROE와 EPS 등의 8개 요인이다. 예측된 수익률을 이용하여 구축한 10개의 분위별 포트폴리오를 대상으로 실현수익률을 분석한 결과 예측수익률이 높을수록 실현된 수익률이 일관되게 높게 나타나는 것으로 분석되었다. 둘째, Haugen Baker가 제안한 기업특성모형을 이용한 주가예측모형을 바탕으로 구성된 포트폴리오를 Fama French가 제안한 3요인 모형에 적용시킨 결과 수익률이 높을 것으로 예측된 포트폴리오의 실현수익률이 높게 나타남을 확인하였다. 즉, 우리나라 주식시장의 수익률을 예측하는 데는 Haugen Baker의 기업특성 요인모형을 응용한 모형이 더욱 적합할 수 있으며, 이를 이용하는 것이 실무적으로도 유용성이 높을 것으로 기대할 수 있다. 본 연구는 기존연구를 보완하여 보다 강건한 예측 및 운영성과를 보여주기 위해 노력하였다. 이를 위해, 시간 가변적으로 (1) 요인프리미엄을 추정, (2) 수익률예측 및 포트폴리오 조정, (3) 실현수익률 측정의 과정을 반복적으로 수행하였으며, 예측수익률이 높은 포트폴리오의 실현수익률이 상대적으로 높게 나타나는 일관된 결과를 강건하게 보여주고 있다.

  • PDF

생육모의에 의한 북한지방 시ㆍ군별 벼 재배기후 예비분석 (Agroclimatology of North Korea for Paddy Rice Cultivation: Preliminary Results from a Simulation Experiment)

  • 윤진일;이광회
    • 한국농림기상학회지
    • /
    • 제2권2호
    • /
    • pp.47-61
    • /
    • 2000
  • 북한 시ㆍ군별 벼 생육모의결과를 토대로 벼 재배 적합성 여부를 판정하였다. 생육모의에 필요한 시ㆍ군 별 일 기상자료는 지형기후학적 공간내삽기법을 근거로 한 3단계 과정을 통해 생산하였다. 우선 기온의 경우 51개 남북한 표준관측소의 14년간(1981~1994) 월평균값을 관측지점 위도, 해발고도, 해안거리, 경사도, 개방도 등 지리지형변수에 회귀시켜 얻은 통계모형(RMSE=0.4~1.6$^{\circ}C$)을 북한전역에 적용시켜 1 km$\times$1 km수평 격자점 단위로 월별 평균값을 추정하였다. 강수량의 경우 상대적으로 자료가 풍부한 남한의 지형-강수 관계를 도출하여 이를 북한지방에 적용한 윤 (2000)의 방법에 의해 월별 강수량 분포도를 작성하였다. 일사량의 경우 남한 19개 관측소의 14년간(1984~1997) 월 평균 수평면 전천일사량 관측값의 추정식([일사량, MJ m$^{-2}$ day$^{-1}$)=0.344+0.4756[대기외 일사량]+0.0299[남쪽 개방도]-1.307[운량]-0.01[상대습도], 결정계수 0.92, RMS error 0.95)에 의해 북한 지방 27개 지점의 일사량 자료를 복원하였다. 이를 거리역산가중법으로 공간내삽하여 북한전역의 월별 일사량 분포도를 작성하였다. 두 번째 단계에서는 얻어진 1 km$\times$1km 격자점 기후값을 183개 북한 시ㆍ군별로 공간평균값을 취했다. 마지막으로 시ㆍ군 단위 월별 기후값을 이용하여 통계적인 방법 (Pickering et al., 1994)에 의해 30년간의 일별 기상자료를 생성하였다. 북한의 대표적인 벼 품종 생육조사자료를 토대로 CERES-rice 모형의 유전적 모수를 조정하고, 준비된 기상자료를 입력시켜 183개 시ㆍ군별 벼의 생육을 30년치씩 모의하였다. 생육모의결과 중 성숙기와 수량 관련 특성을 점수화 하여 각 시ㆍ군의 벼 재배용 농업기후학적 잠재력을 정량적으로 표현하였다.

  • PDF

데이터마이닝을 활용한 사랑의 형태에 따른 연인관계 몰입수준 및 관계 지속여부 예측 (Prediction of commitment and persistence in heterosexual involvements according to the styles of loving using a datamining technique)

  • 박윤주
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.69-85
    • /
    • 2016
  • 연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.

FTA 비준동의안에 대한 국회의원들의 투표행태 분석: 제18대, 제19대 국회를 중심으로 (A Study on the Voting Behavior of National Assembly Members: Focused on the FTA Ratification of the 18th and 19th National Assembly)

  • 강신재;가상준
    • 의정연구
    • /
    • 제24권1호
    • /
    • pp.67-101
    • /
    • 2018
  • 본 연구는 제18대 국회와 제19대 국회에서 제출된 자유무역협정 비준동의안 표결에서 의원들에게 영향을 미친 요인이 무엇인지 분석하는 것을 목적으로 한다. 무엇보다 의원들은 표결 결정에 있어 지역구, 소속 정당의 당론, 정치적 이념 중 무엇이 중요하게 영향을 미쳤는지 알아보았다. 과거 의원들의 행태에 대해 분석한 연구들은 소속 정당과 의원들의 이념이 의원 표결 결정에 주요하게 영향을 미치는 요인임을 밝히고 있다. FTA 비준동의안 표결에서도 이러한 경향이 나타나고 있는지 분석해 보았다. 분석결과 가장 놀라운 발견은 의원들의 지역구 변수가 다른 무엇보다 항상 중요하게 나타난다는 점이다. 한국 정당의 강한 규율 때문에 정당 영향력이 가장 클 것이라 생각해보았지만 지역구 변수의 지속적인 영향력을 통해 자유무역협정 비준동의안 표결에서는 지역구의 이익이 가장 중요한 변수라는 점을 알 수 있었다. 이와 함께 의원들의 선호도를 볼 수 있는 이념 변수의 경우 사안별로, 모형별로 다르지만 투표행태에 영향을 미치는 것으로 나타났다. 의원들의 투표행태 분석에서 이념 변수의 측정과 표결에 미치는 영향력을 심층적이고 다각도로 분석해야만 하는 이유라고 하겠다. 여야 변수의 경우 몇몇 모형에서 통계적 영향력이 나타나지 않았지만 모든 사례에서 여-야 균열의 영향력은 꾸준하게 나타났다고 보는 것이 타당하다. 위의 연구는 다른 연구와 달리 자유무역협정 비준동의안에 대한 표결을 분석하고 있기 때문에 위의 결과가 의원들의 다른 표결에도 공통적으로 적용된다고 볼 수는 없다. 또한, 5개 자유무역협정에 대한 분석을 통해 의원들의 일반적 특징을 논하기에는 한계가 있다. 그럼에도 본 연구는 제16대 국회부터 꾸준히 국회에 제출된 자유무역협정 비준동의안에 있어 의원들 표결에 영향을 미치는 요인에 대해 심도 있게 분석하였다는 점에 의미를 둘 수 있을 것이다. 또한, 의원들의 이념측정이 쉽지 않은 상황에서 의원들의 이념을 다각적 차원에서 조명하여 분석하였다는 점에 의미가 크다고 하겠다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

PM2.5농도 산출을 위한 경험적 다중선형 모델 분석 (Analysis of Empirical Multiple Linear Regression Models for the Production of PM2.5 Concentrations)

  • 추교황;이규태;정명재
    • 한국지구과학회지
    • /
    • 제38권4호
    • /
    • pp.283-292
    • /
    • 2017
  • 본 연구에서는 서울지역의 지상 미세먼지($PM_{2.5}$) 농도를 산출하기 위하여 경험적인 모델들을 개발하였다. 연구에 이용한 자료는 2012년 1월 1일부터 2013년 12월 31일까지이며 Terra와 Aqua위성의 MODIS센서에서 산출되는 에어로졸 광학두께, 옹스트롬 지수, 기상변수들과 행성경계층두께와 관련된 6개의 다중 선형 회귀모델들의 차이를 분석하였다. 그 결과 에어로졸 광학두께와 옹스트롬 지수, 상대습도, 풍속, 풍향, 행성경계층두께, 기온 자료를 입력 자료로 사용한 $M_6$모델이 가장 좋은 결과를 보였다. 통계적인 분석에 따르면 $M_6$ 모델을 사용하여 계산된 $PM_{2.5}$와 관측된 $PM_{2.5}$농도 사이의 결과는 상관계수(R=0.62)와 평균제곱근오차($RMSE=10.70{\mu}gm^{-3}$)이다. 또한 산출된 계절별 지표면 $PM_{2.5}$농도는 여름철(R=0.38)과 겨울철(R=0.56)보다 봄(R=0.66)과 가을철(R=0.75)에 상대적으로 더 좋은 상관 관계를 보였다. 이러한 결과는 에어로졸 광학두께의 계절별 관측 특성으로 인한 것으로써 다른 계절에 비하여 여름과 겨울철 에어로졸 광학두께 관측이 구름과 눈/얼음 표면에 의한 관측 제한과 오차를 가져온 것으로 분석되었다. 따라서 본 연구에서 사용한 경험적 다중선형회귀 모델은 위성에서 산출된 에어로졸 광학두께 자료가 지배적인 변수로 작용하며 $PM_{2.5}$산출 결과들을 향상시키기 위해서는 추가적인 기상 변수를 이용해야 할 것이다. 또한 경험적 다중선형회귀 모델을 이용하여 $PM_{2.5}$를 산출한 결과는 인공위성 자료로부터 대기환경 감시를 가능하게 하는 방법이 될 수 있어 유용할 것이다.