• 제목/요약/키워드: 이항자료

검색결과 246건 처리시간 0.024초

랜섬웨어 탐지를 위한 동적 분석 자료에서의 변수 선택 및 분류에 관한 연구 (A study on variable selection and classification in dynamic analysis data for ransomware detection)

  • 이승환;황진수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.497-505
    • /
    • 2018
  • 최근 랜섬웨어는 일반 PC 사용자에 비해 상대적으로 수준 높은 보안 체계를 갖추고 있는 기업과 정부 기관에 침입하여 상당한 피해를 입히는 등 기존 보안 체계의 허점을 찾아 진화하는 모습을 보이고 있다. 이처럼 계속해서 변화하는 랜섬웨어를 탐지하기 위해 랜섬웨어의 특징을 파악하는 정적 분석과 동적 분석과 관련된 연구가 활발히 이루어지고 있다. 본 연구에서는 582개의 랜섬웨어 샘플과 942개의 정상 샘플 프로그램을 쿠쿠 샌드박스 가상환경 내에서 실행시킨 뒤, PC에서 이루어지는 30,967가지의 행동 여부를 기록한 동적 분석 자료를 활용하여 랜섬웨어 분류에 유의한 변수를 탐색하기 위한 여러 변수 선택 방법의 적용과 랜섬웨어 분류를 위한 기계학습 모형들을 구축하고자 하였다. 변수 선택법으로 LASSO와 이항변수 만으로 이루어진 고차원 자료라는 특성을 활용하기 위한 카이제곱검정을 이용한 변수 선택, 선행 연구에서 이용된 방법인 상호정보를 이용한 변수 선택법을 적용하였으며 기계 학습 모형으로는 능형 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, XGBoost가 활용되었다. 연구 결과, 정상 프로그램과 구별되는 랜섬웨어 프로그램만의 특징적인 행동을 확인할 수 있었으며 여러 변수 선택법과 기계학습 분류 모형들의 조합 중, 주어진 자료에서 카이제곱검정을 이용한 변수 선택법과 랜덤 포레스트 모형의 조합이 가장 높은 탐지율과 정분류율을 보이는 것을 확인하였다.

흡연력이 치과외래이용횟수에 미치는 영향 (Effect on ambulatory dental visitation frequency according to pack-years of smoking)

  • 정선락;두영택;이원기
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.419-427
    • /
    • 2016
  • 본 연구는 한국의료패널 조사 자료 2008-2012년의 연간 통합자료를 활용하여 흡연력에 따른 구강질환과 관련하여 치과외래이용횟수에 미치는 영향을 알아보고자 하였다. 2010-2012년의 연간 통합자료 중 연령이 20세-60세이면서 3차례 모두 조사된 남성 3,866명을 최종 분석대상으로 하였다. 음이항회귀모형을 이용한 분석에서 연령, 혼인상태, 가구소득수준와 만성질환여부를 통제한 후 치과외래이용횟수에 미치는 영향은 유의하였으며 흡연력이 10갑년 증가할 때마다 치과외래이용횟수는 6%씩 증가할 것으로 예측되었다. 특히, 40~50대 남성의 치과외래이용횟수는 비흡연자에 비교하여 평균적으로 20~29.9갑년의 흡연자는 25%, 30갑년 이상 흡연자는 52% 더 많이 이용하는 것으로 나타났다.

GPS 프로브 차량 속도자료를 이용한 고속도로 사고 위험구간 추출기법 (Extraction of Hazardous Freeway Sections Using GPS-Based Probe Vehicle Speed Data)

  • 박재홍;오철;김태형;주신혜
    • 한국ITS학회 논문지
    • /
    • 제9권3호
    • /
    • pp.73-84
    • /
    • 2010
  • 본 연구에서는 고속도로에서 GPS(Global Positioning System)수신기를 장착한 프로브차량을 이용하여 수집한 속도자료를 이용하여 사고 위험구간을 추출하는 방법론을 제시하였다. 위험구간 추출을 사고발생 유 무를 판단하는 분류문제(Classification)로 정형화하고 베이지안 신경망을 적용하였다. 개별차량의 속도자료를 이용하여 다양한 잠재적 독립변수를 설정하고 이항 로지스틱 회귀분석을 이용하여 통계적으로 유의미한 변수만을 추출하여 베이지안 신경망의 입력자료로 사용하였다. 제안된 방법론의 성능 평가를 위해 사고 발생 경험이 있는 위험구간을 정확히 추출하는 분류정확도를 효과척도로 활용하였다. 본 연구에서 제안한 방법론의 타당성을 60%의 분류정확도를 통해 확인할 수 있었다. 고속도로 신설노선의 교통안전성을 평가하고 사고예방을 위한 대응책 개발 및 적용에 본 연구의 결과가 효과적으로 활용될 것으로 기대된다.

화물차 DTG 데이터를 활용한 고속도로 졸음운전 위험구간 분석 (The Hazardous Expressway Sections for Drowsy Driving Using Digital Tachograph in Truck)

  • 조종석;이현석;이재영;김덕녕
    • 대한교통학회지
    • /
    • 제35권2호
    • /
    • pp.160-168
    • /
    • 2017
  • 지난 10년 간 졸음운전은 전체 고속도로 사고건수의 약 23%로 교통사고 사망원인 중 가장 높은 비중을 차지하고 있다. 과속, 주시태만 등 운전자 과실이 주요원인인 일반적인 사고유형과 달리, 졸음운전은 졸음이라는 불가항력적 원인에 의해 발생한다는 점에서 타 사고유형과 차별화된 접근이 요구된다. 그 동안의 졸음운전 감소대책은 일반적인 교통사고 대책과 마찬가지로 사고다발지점과 같은 특정지점(spot)에 집중하였으나, 도로특성(해당구간의 화물차 비율 등) 또는 시간특성(누적주행시간에 따른 위험 운전행동 증가 등)을 고려한 감소대책이 필요함에 따라, 본 연구에서는 시 공간적으로 확대한 구간(link) 개념을 도입하였다. 고속도로 졸음운전 위험구간 분석을 위해 화물차 디지털 운행기록계(digital tacho graph: DTG) 자료를 활용하였으며, 이를 바탕으로 졸음운전 위험구간을 산정하였다. 위험 행동지표와 사고 발생건수 간의 상관 분석을 위해 음이항 회귀모형(negative binomial regression)을 통한 졸음사고 예측모형을 추정하였으며 모형의 결과 값을 바탕으로 경험적 베이즈(empirical Bayes: EB) 추정치와 구간별 잠재적 안전개선 지수(potential for safety improvement: PSI)를 산출하여 졸음운전 위험 구간을 선정하였다. 졸음사고 모형 추정 결과, 연평균 일교통량, 화물차 비율, DTG 수집 자료건수, 평균 과속비율(20km/h 초과), 평균 급감속비율 및 평균 급차로변경비율이 늘어날 경우 졸음운전 사고건수 역시 증가하는 것으로 분석되었다.

벵갈만 지역의 컨테이너항만 효율성 분석에 관한 연구 (A Study on the Efficiency of Container Ports in the Bay of Bengal Area)

  • 태태쩌눈;김현덕
    • 한국항만경제학회지
    • /
    • 제36권1호
    • /
    • pp.41-58
    • /
    • 2020
  • 본 연구는 벵갈만 지역의 주요 컨테이너 항만들의 기술적 효율성을 조사하고 특정 요소가 컨테이너 항만 및 터미널의 효율성에 어떤 영향을 미치는지 분석하는데 목적이 있다. 주요 분석 대상은 스리랑카의 콜롬보항만, 인도의 첸나이항만, 방글라데시의 치타공항만 그리고 미얀마의 양곤 항만 등이다. 연구의 목적을 달성하기 위한 투입 변수로는 선석 길이, 보관 장소 및 크레인 수를 사용하였으며 산출 변수로는 컨테이너 물동량과 기항수가 분석에 사용되었다. 연구 결과에 의하면 동아시아와 유럽, 중동 그리고 아프리카를 연결하는 전략적 위치에 있는 콜롬보항만이 기술 규모면에서 가장 효율적인 항만으로 분석되었으며 그 다음으로는 첸나이항만, 양곤항만 그리고 치타공항만 순으로 나타났다. 제시된 연구 결과는 벵갈만에 위치한 항만들의 효율성을 제고하기 위해서 어떤 변수에 주안점을 두어야 할지에 대한 기초 자료로서 의미가 있으며 주요 항만 정책 입안자 또는 터미널 운영업자 등의 의사결정에 유의미한 영향을 미칠 수 있다.

발명자 생산성 결정요인: 네트워크 특성을 이용한 패널회귀분석결과 (Determinants of Inventor Productivity: An Empirical Result from Panel Regressions Using Network Characteristics)

  • 추기능
    • 기술혁신연구
    • /
    • 제25권3호
    • /
    • pp.83-113
    • /
    • 2017
  • 본 연구는 1991년~2005년의 기간 동안 한국 특허청에 출원된 내국인 특허의 공동발명자료를 이용해 네트워크 특성 변수들의 '연도별 x 발명자별' 패널 자료를 구축하고, 이 자료를 사용하여 발명자 네트워크의 특성변수들이 발명자의 특허생산성에 미치는 효과를 패널 회귀분석하였으며, 다음과 같은 결과를 얻었다. 첫째 네트워크상의 강한 연계는 발명자 생산성에 정(+)의 효과를 미치는 것으로 나타났다. 둘째, 네트워크내 중심에 있는 발명자일수록 특허생산성이 높았다. 셋째, 네트워크의 기술적 다양성은 발명자의 특허생산성을 높이는 요인이다. 넷째, 발명자 네트워크의 질이 좋을수록 그 네트워크에 속한 발명자의 특허생산성이 높아진다. 다섯째, 네트워크의 크기가 클수록 네트워크내 발명자의 특허생산성이 높다. 여섯째, 네트워크에만 의존하는 발명자의 특허생산성은 상대적으로 낮았지만, 네트워크에 속하지 않은 발명자의 특허생산성은 오히려 높았다. 일곱째, 네트워크 변수들의 효과는 지역별로 차이가 있다. 여덟째, 지리적 경계가 약화되고 있지만, 네트워크 효과의 지역적 차이는 줄어들지 않고 있다.

국립공원 방문객 특성을 이용한 핵심수요시장연구 -인구통계학적 변인과 사회경제학적 변인을 중심으로- (Core Demand Market by Visitor's Characteristics of Mountain Types of a National Park -focused on Demographic and Social Economical Factors-)

  • 곽강희
    • 한국콘텐츠학회논문지
    • /
    • 제13권7호
    • /
    • pp.361-368
    • /
    • 2013
  • 본 연구는 무등산 국립공원 방문객들의 인구통계학적 특성 및 사회경제학적 특성을 조사하여 공원방문객 수요증진을 위한 마케팅전략차원의 정보제공을 목적으로 수행되었다. 이 연구를 수행하기 위해서는 적절한 모형설정이 중요하다. 이른바 종속변수가 이산확률분포를 가진 이산형 변수일 경우, 연속확률분포의 자료 분석에 적합한 회귀모형을 설정한다면 추정치에 대한 심각한 오류가 발생하기 때문이다. 따라서 본 연구의 자료 분석은 포아송모델을 통해 수행되었으며, 자료의 특성이 과산포를 보였기 때문에 이를 고려할 수 있는 보다 적합한 모델로 음이항 포아송모델을 설정하여 최종적으로 파라미터를 추정하였다. 그 결과, 수요자의 연령, 직업, 방문선호계절, 동반유형, 주 5일 근무제 그리고 선호관광형태 등이 방문객 수요에 긍정적인 역할을 하고 있는 것으로 파악되었으며, 이 주요영향변수들을 바탕으로 국립공원 측에 핵심시장에 대한 특성과 그들을 위한 마케팅 전략 및 정보 등을 제공할 수 있었다.

1인가구 문화예술 소비에 영향을 미치는 요인에 관한 연구 (A Study on the Determinants of Culture and Art Consumption of One Person Households)

  • 최순화
    • 디지털융복합연구
    • /
    • 제19권8호
    • /
    • pp.151-160
    • /
    • 2021
  • 본 연구의 목적은 「2019 국민문화예술활동조사」 자료를 사용하여 1인가구의 문화예술 소비에 영향을 미치는 요인을 파악하는 것이다. 기존 연구를 바탕으로 문화자본, 경제자본, 건강 인식, 거주지역 등을 문화예술 소비의 선행요인으로 설정하였으며, 1인가구 1,755명의 문화예술관람, 문화예술교육, 인구통계학적 자료를 추출하여 영향 관계를 분석하였다. 본 연구는 문화예술 관람 횟수가 '0'인 응답자가 다수라는 자료의 특수성을 고려하여 영과잉음이항 모형을 적용하였다. 1인가구의 학력은 순수 및 대중예술 관람 가능성과 횟수에 유의한 영향을 미치는 것으로 나타났다. 반면 유·아동기 및 청소년기 문화예술 교육, 소득, 건강 인식, 거주지역은 문화예술 유형별 소비 가능성과 소비량에 선별적인 영향을 미치는 것으로 분석되었으며, 여기에는 다양한 경험을 적극적으로 추구하는 1인가구의 고유한 특성이 작용한 것으로 해석된다. 본 연구는 1인가구에 집중하여 문화예술 소비의 결정변수를 파악함으로 관련 연구의 발전에 기여하고, 관련 시장을 활성화하기 위한 실무적, 정책적 시사점을 제공한다. 끝으로 심리사회적 변수 도입 등 후속 연구를 위한 방안을 제시하였다.

범주형 자료를 포함한 다형질 임계개체모형에서 유전능력 추정 알고리즘 (Computing Algorithm for Genetic Evaluations on Several Linear and Categorical Traits in A Multivariate Threshold Animal Model)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권2호
    • /
    • pp.137-144
    • /
    • 2004
  • 불연속 범주형 자료에 대한 잠재변수가 존재한다는 가정하에 임계값을 추정하고 잠재변수를 생성하며 생성된 잠재변수 및 기타 연속변량에 대한 관측치를 포함하는 다변량 임계개체모형을 설정하고 유전능력을 예측하기 위한 방법을 제시하였다. 각각의 범주형 조사 자료의 특성을 갖는 형질에 있어서 임계점의 추정은 추정 가능한 임계점에 대한 1차 미분값(gradient)과 2차 미분값(Hessian)을 이용한 Newton 방법을 이용하면 추정가능하며 지역모수인 육종가의 추정은 PCG 방법으로 구현 가능하다. 이러한 이론은 Quaas(2001)가 제시한 하나의 이산형 자료와 하나의 연속형 자료의 2변량 동시 분석방법을 확장하여 전개한 것이며 이때 잠재변수 및 임계점의 추정은 기타 형질의 잔차 회귀계수 및 상관을 고려해야 한다. 본 연구를 위한 모의실험은 2개의 연속변량으로 체중과 유량을 고려하였고 또 다른 2개의 불연속 변량인 분만난이도와 출생시 생존유무를 고려하여 4형질 동시 분석을 실시하였다. 임계모형에 의한 육종가 추정치의 정확도는 4개의 구간으로 분류되어 기록된 분만난이도의 경우에 91${\sim}$92%의 정확도를 보였고 이항분포인 분만시 생존유무에 대하여는 87~89%의 정확도를 보였다. 반면에 이들 범주형 자료를 선형으로 간주하고 분석한 선형 동물개체 혼합모형에서는 72${\sim}$84% 및 59${\sim}$70%으로 비교적 낮은 추정의 정확도를 보였다. 따라서 범주형 자료의 유전분석은 선형 혼합모형 보다 임계형 혼합모형이 크게 타당할 것으로 사료되었다.

영-과잉 회귀모형을 활용한 폭염자료분석 (Heat-Wave Data Analysis based on the Zero-Inflated Regression Models)

  • 김성태;박만식
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2829-2840
    • /
    • 2018
  • 음이 아닌(non-negative) 측정값을 가지는 확률변수에 있어서, 영(0)이 과도하게 측정되는 자료를 반연속형(semi-continuous) 자료와 영-과잉(zero-inflated) 자료로 구분한다. 이러한 자료에서는 특정 확률 분포(probability distribution) 하에서의 확률보다 훨씬 큰 확률로 0을 관측하게 되는데, 연속형(continuous) 확률분포를 고려하는 경우에는 반연속형으로, 이산형(discrete) 확률분포를 고려하는 경우에는 영-과잉이라고 한다. 본 연구에서는 경계값(0)의 측정 여부에 관한 모형과 0보다 큰 확률변수에 대한 확률분포를 활용한 모형 등 두 개의 부문으로 이루어진 모형, 즉 2-부문 모형(two-part model)을 소개하고자 한다. 특히, 이산형 확률분포 중 포아송 분포와 음이항 분포를 고려한 영-과잉 회귀모형(regression model)을 설명하고 그 특성을 파악하고자 한다. 실증연구에서는 이러한 영-과잉 회귀모형을 활용하여 지난 10년(2009년부터 2018년) 간 한국의 여름철(6-8월) 폭염주의보(heat-wave advisory) 및 폭염경보(heat-wave warning) 발생일수를 적합하였다. 또한 공간예측기법 중 하나인 범용크리깅(universal kriging)을 이용하여 적합결과를 바탕으로 한 폭염 발생일수에 대한 예측지도를 작성하였다.