통합 검색 | Korea Science

비용효율적 지능형 침입탐지시스템 구현을 위한 유전자 알고리즘 기반 통합 모형 (An Integrated Model based on Genetic Algorithms for Implementing Cost-Effective Intelligent Intrusion Detection Systems)

이현욱;김지훈;안현철
- 지능정보연구
- /
- 제18권1호
- /
- pp.125-141
- /
- 2012
본 연구는 최근 그 중요성이 한층 높아지고 있는 침입탐지시스템(IDS, Intrusion Detection System)의 침입탐지모형을 개선하기 위한 방안으로 유전자 알고리즘에 기반한 새로운 통합모형을 제시한다. 본 연구의 제안모형은 서로 상호보완적 관계에 있는 이분류 모형인 로지스틱 회귀분석(LOGIT, Logistic Regression), 의사결정나무(DT, Decision Tree), 인공신경망 (ANN, Artificial Neural Network), 그리고 SVM(Support Vector Machine)의 예측결과에 적절한 가중치를 부여해 최종 예측결과를 산출하도록 하였는데, 이 때 최적 가중치의 탐색을 위한 방법으로는 유전자 알고리즘을 사용한다. 아울러, 본 연구에서는 1차적으로 오탐지율을 최소화하는 최적의 모형을 산출한 뒤, 이어 비대칭 오류비용 개념을 반영해 오탐지로 인해 발생할 수 있는 전체 비용을 최소화할 수 있는 최적 임계치를 탐색, 최종적으로 가장 비용 효율적인 침입탐지모형을 도출하고자 하였다. 본 연구에서는 제안모형의 우수성을 확인하기 위해, 국내 한 공공기관의 보안센서로부터 수집된 로그 데이터를 바탕으로 실증 분석을 수행하였다. 그 결과, 본 연구에서 제안한 유전자 알고리즘 기반 통합모형이 인공신경망이나 SVM만으로 구성된 단일모형에 비해 학습용과 검증용 데이터셋 모두에서 더 우수한 탐지율을 보임을 확인할 수 있었다. 비대칭 오류비용을 고려한 전체 비용의 관점에서도 단일모형으로 된 비교모형에 비해 본 연구의 제안모형이 더 낮은 비용을 나타냄을 확인할 수 있었다. 이렇게 실증적으로 그 효과가 검증된 본 연구의 제안 모형은 앞으로 보다 지능화된 침입탐지시스템을 개발하는데 유용하게 활용될 수 있을 것으로 기대된다.
https://doi.org/10.13088/jiis.2012.18.1.125 인용 PDF KSCI

비 상업용 3차원 치료계획시스템인 Plunc의 임상적용 가능성에 대한 연구 (A Study of a Non-commercial 3D Planning System, Plunc for Clinical Applicability)

조병철;오도훈;배훈식
- Radiation Oncology Journal
- /
- 제16권1호
- /
- pp.71-79
- /
- 1998
목적 : 비 상업용 3차원 컴퓨터치료계획시스템인 Plunc의 구축 사례를 소개하고 이의 임상적용 가능성에 대하여 검증하고자 한다. 대상 및 방법 : 미국 North Carolina 대학에서 개발된 3차원 치료계획시스템인 Plunc의 소스코드를 제공받아, PC용 Unix인 Linux 환경의 Pentium Pro 200MHz(128MB RAM, Millennium VGA)에서 설치하였다. 본과의 6MV 광자선(Siemens MXE 6740)에 대한 출력인자, 최대산란비, 최대산란인자, 쐐기의 모양 및 감쇄인자 등의 빔데이터를 입력한 후, 일반적인 치료조건인 loom 깊이의 회전중심점에서의 심부선량백분율, 선량측면도, oblique 입사빔 및 공기간격 하에서의 선량계산 결과를 물팬톰에서의 측정치와 비교, 분석하였다. 결과 : Plunc는 원래 CT 영상데이터를 이용한 모의치료기로써 개발되어, 빔 설계가 매우 편리하도록 사용자 인터페이스가 구성되어 있으며, BEV, DRR 및 영상합성 등의 기능을 갖추고 있다. 선량계산은 10초 정도가 소요되는 3차원 선량분포나 선량체적히스토그람을 제외하고는 거의 실시간으로 실행되었다. Plunc에 의한 선량 계산 값을 측정값과 비교한 결과, 심부선량백분율의 경우, 선량증가영역을 제외하고는 $1\%$이내에서 일치하였다. 또한, 선량측면도의 경우, $5\%$가량의 선량감소를 나타내는 치료영역 크기 밖의 저선량 영역을 제외하고는 $2\%$ 이내에서 일치하였다. Oblique 입사 빔의 경우, 빔 중심축을 포함하는 평면상의 선량분포가 선량이 $30\%$ 이하인 영역을 제외하고는 비교적 잘 일치하였다. 공기간격을 통과한 빔에 대한 선량측면도의 비교 결과, 중심 축에서의 선량 값에 대해 $5\%$의 오차를 보였다. 결론 : Plunc의 광자선량계산의 정밀도는 일반적인 치료조건하에서 약 $2-5\%$ 내외의 오차로써, 측정치에 대한 보정에 근거한 알고리즘을 사용하는 일반 치료계획시스템과 비슷한 수준이라 사료된다. 현재로서는 전자선에 대한 선량계산이 불가능하기 때문에 완전한 형태의 치료계획시스템이 되기 위해서는 향후, 전자선에 대한 계산모듈의 개발과 광자선 선량계산 또한 보다 정밀한 선량계산이 가능한 컨벌루션 방법과 같은 3차원 선량계산모듈의 개발도 필요하다. Plunc는 상업용 3차원 치료계획 시스템의 사용이 현실적으로 어려운 여건의 병원에서 2차원 치료계획시스템과 상호 보완적으로 사용한다면 2차원 치료계획시스템이 갖는 많은 제약을 극복할 수 있을 것으로 사료된다.
PDF

조사로봇의 재난현장 활용을 위한 다중센서모듈 개발 및 성능평가에 관한 연구 (Development and Performance Evaluation of Multi-sensor Module for Use in Disaster Sites of Mobile Robot)

정용한;홍준우;한수희;신동윤;임언택;김성삼
- 대한원격탐사학회지
- /
- 제38권6_3호
- /
- pp.1827-1836
- /
- 2022
재난은 돌발적으로 발생하여 예측하기가 쉽지 않고 그 규모도 과거에 비해 커지고 있어 피해가 증가하고 있으며, 하나의 재난이 2차 재난으로 발전하는 경우가 많다. 재난관리의 4가지 단계 중 응급상황이 발생하는 대응단계에서 행해지는 수색과 구조 과정에서, 현장에 투입되는 인원들은 많은 위험을 감수하고 현장에 투입되고 있다. 이러한 점에서 로봇은 재난현장의 초기 대응과정에서 인명 및 재산의 피해를 줄일 수 있는 가능성이 높은 기술이다. 또한, Light Detection And Ranging (LiDAR)는 레이저를 이용하여 비교적 넓은 범위의 3차원 정보를 획득하고 정확도 및 정밀도가 높아 재난 현장의 특징을 생각할 때 매우 유용한 센서이다. 이에 본 연구에서는 로봇이 재난 현장에서 활용될 수 있도록 LiDAR와 Inertial Measurement Unit (IMU) 센서에 실시간 모니터링을 위한 컴퓨팅 보드를 결합하여 하나의 다중센서모듈 및 조사로봇 맞춤형 Simultaneous Localization and Mapping (SLAM) 알고리즘을 개발하였다. 다중센서모듈이 재난 현장에서 최적의 정확도를 유지할 수 있도록 조사로봇에 안정적으로 탑재하는 방안에 대해 연구하였고, 모듈의 성능을 확인하기 위해 재난건축물 실내에서 SLAM 맵핑을 수행하여 다양한 SLAM알고리즘과 거리 비교를 수행하였다. 그 결과, 본 연구에서 개발한 PackSLAM이 낮은 오차를 나타내어 활용 가능성을 보였다. 향후 재난현장에서의 적용성을 더욱 높이기 위해 장애물이 많은 험지환경을 구축하여 다양한 실험을 수행할 예정이다.
https://doi.org/10.7780/kjrs.2022.38.6.3.7 인용 PDF KSCI HTML

드론을 활용한 고주파 레이다의 안테나 패턴 측정(APM) 가능성 검토 (Evaluation of Antenna Pattern Measurement of HF Radar using Drone)

정다운;김재엽;송규민
- 한국해안·해양공학회논문집
- /
- 제35권6호
- /
- pp.109-120
- /
- 2023
광해역의 표층 해수유동을 준 실시간으로 측정하는 장비인 해양 고주파 레이다(High Frequency Radar, HFR)는 특정 전파대역(HF)의 주파수를 해수면으로 발사하고 후방으로 산란된 전파를 분석하여 표층 유속 벡터를 측정한다(Crombie, 1955; Barrick, 1972). 본 연구에서 사용되는 Codar사의 Seasonde HF radar의 경우, 무지향성 안테나에서 송·수신한 전파의 브래그 피크(Bragg peak)의 강도와 다중신호분류(Mutiple Signal Classification, MUSIC) 알고리즘을 통하여 방사형 해류(Radial Vector)의 속도와 위치를 결정하게 된다. 이때 생산된 해류는 관측 전파 수신 환경의 특성이 고려되지 않은 이상적인 전파환경(Ideal Pattern)이 적용된 자료로써 이를 보정하기 위하여 안테나 패턴 측정(Antenna Pattern Measurement, APM)을 시행하여 보정된 방사해류장(Measured Radial Vector)을 계산하게 된다. APM의 관측원리는 안테나로부터 수신되는 각 위치별 신호 강도값을 측정하여 해류의 위치 및 위상 정보를 수정하는 것으로 일반적으로 선박에 안테나를 설치하여 실험을 진행한다. 하지만 선박을 활용할 시, 기상조건과 해양 상황 등 다양한 환경에 의해 최적의 APM 결과를 산출하기까지 많은 제약이 따른다. 따라서 APM 실험에 대하여 해상 상황에 대한 의존도를 낮추고 경제적인 효율성을 높이기 위하여 무인항공기인 드론을 이용한 APM 활용 가능성을 검토하였다. 본 연구에서는 전남 완도군 당사리 당사도등대에 설치된 고주파레이다를 활용하여 선박을 활용한 APM 실험과 드론을 활용한 APM 실험을 진행하였으며 선박과 드론으로 관측된 결과가 적용된 방사형 해류와 계류된 고정부이를 활용하여 그 결과를 비교 분석하였다.
https://doi.org/10.9765/KSCOE.2023.35.6.109 인용 PDF

Himawari-8 정지궤도 위성 영상을 활용한 딥러닝 기반 산불 탐지의 효율적 방안 제시 (Efficient Deep Learning Approaches for Active Fire Detection Using Himawari-8 Geostationary Satellite Images)

이시현;강유진;성태준;임정호
- 대한원격탐사학회지
- /
- 제39권5_3호
- /
- pp.979-995
- /
- 2023
산불은 예측이 어려운 재해이기 때문에 실시간 모니터링을 통해 빠르게 대응하는 것이 중요하며, 정지 궤도 위성 영상은 광역을 짧은 시간 간격으로 모니터링할 수 있어 산불 탐지 분야에 활발히 이용되고 있다. 기존의 위성 영상 기반 산불 탐지 알고리즘은 밝기 온도의 통계량 분석을 통한 임계값 기반으로 이상치를 탐지하는 방향으로 진행되어 왔다. 그러나 강도가 약한 산불을 탐지하기 어렵거나, 적절한 임계값 설정의 어려움으로 일반화 성능이 저하되는 한계점이 있어 최근에는 기계학습을 이용한 산불 탐지 알고리즘들이 제시되고 있다. 현재까지는 random forest, VanillaConvolutional neural network (CNN), U-net 구조 등의 비교적 간단한 기법이 적용되고 있다. 따라서, 본 연구에서는 정지궤도 위성인 Advanced Himawari Imager를 이용하여 동아시아와 호주를 대상으로 State of the Art (SOTA)딥러닝 기법을 적용한 산불 탐지 알고리즘을 개발하고자 하였다. SOTA 모델은 EfficientNet과 lion optimizer를 적용하여 개발하고, Vanilla CNN 구조를 사용한 모델과 산불 탐지 결과를 비교하였다. EfficientNet은 동아시아와 호주에서 0.88 및 0.83의 F1-score를 기록함으로써 CNN (동아시아: 0.83, 호주: 0.78)에 비해 뛰어난 성능을 입증하였다. EfficientNet에 불균형 문제 해결을 위한 weighted loss, equal sampling, image augmentation 기법 적용 시, 동아시아와 호주에서 각각 0.92와 0.84의 F1-score를 기록함으로써 적용 전(동아시아: 0.88, 호주: 0.83)에 비하여 성능이 향상되었음을 확인하였다. 본 연구를 통하여 제시된 SOTA 딥러닝 기법의 산불 탐지에의 적용 가능성과 딥러닝 모델의 성능 향상을 위해 고려해야 할 방향은 향후 산불탐지 분야에 대한 딥러닝 적용에 도움이 될 것으로 기대된다.
https://doi.org/10.7780/kjrs.2023.39.5.3.8 인용 PDF HTML

예측 불가능한 호흡 변화에 따른 사이버나이프 종양 추적 방사선 치료의 정확도 분석 (An accuracy analysis of Cyberknife tumor tracking radiotherapy according to unpredictable change of respiration)

서정민;이창열;허현도;김완선
- 대한방사선치료학회지
- /
- 제27권2호
- /
- pp.157-166
- /
- 2015
목 적 : 사이버나이프 종양 추적 시스템(Cyber-knife tumor tracking system)은 환자 외부에 부착한 LED marker에서 얻어진 실시간 호흡 주기 신호와 호흡에 따라 움직이는 종양의 위치와의 상관관계를 바탕으로 종양의 위치를 미리 예측하고 종양의 움직임을 치료기와 동기화 (Synchronize) 시켜 실시간으로 종양을 추적하며 치료하는 시스템이다. 본 연구의 목적은 사이버나이프 종양 추적 방사선 치료 중 기침이나 수면 등으로 인해 예측 불가능한 갑작스러운 호흡 형태 변화에 따른 종양 추적 방사선 치료 시스템의 정확도를 평가하고자 한다. 대상 및 방법 : 연구에 사용된 호흡 Log 파일은 본원에서 호흡 동조 방사선치료(Respiratory gating radiotherapy)나 사이버나이프 호흡 추적 방사선수술(Cyber-knife tracking radiosurgery)을 받았던 환자의 호흡 Log 파일을 바탕으로, 정현곡선 형태(Sinusoidal pattern)와 갑작스런 변화 형태(Sudden change pattern)의 Log 파일을 이용하여 측정이 가능하도록 재구성하였다. 재구성 된 호흡 Log 파일을 사이버나이프 동적 흉부 팬텀에 입력하여 호흡에 따른 움직임을 구현할 수 있도록 기존 동적 흉부 팬텀의 구동장치를 추가 제작하였고, 호흡의 형태를 팬텀에 적용 시킬 수 있는 프로그램을 개발하였다. 팬텀 내부 표적(Ball cube target)의 움직임은 호흡의 크기에 따라 상하(Superior-Inferior)방향으로 5 mm, 10 mm, 20 mm 3가지 크기의 변위로 구동하게 하였다. 팬텀 내부 표적에 EBT3 필름 2장을 교차 삽입하여 표적 움직임의 변화에 따라 사이버나이프 제조사에서 제공된 End-to-End(E2E) test를 호흡의 형태에 따라 각각 5회씩 실시하고 측정하였다. 종양 추적 시스템의 정확도는 삽입된 필름을 분석하여 표적 오차(Targeting error)로 나타내었고, 추가로 E2E test가 진행되는 동안 상관관계 오차(Correlation error)를 측정하여 분석하였다. 결 과 : 표적 오차는 정현곡선 호흡 형태일 경우 표적 움직임의 크기가 5 mm, 10 mm, 20 mm 에 따라 각각 평균 $1.14{\pm}0.13mm$, $1.05{\pm}0.20mm$, $2.37{\pm}0.17mm$이고, 갑작스런 호흡 변화 형태일 경우 각각 평균 $1.87{\pm}0.19mm$, $2.15{\pm}0.21mm$, $2.44{\pm}0.26mm$으로 분석되었다. 표적 추적에 있어 변위 벡터의 길이로 정의할 수 있는 상관관계 오차는 정현곡선 호흡 형태일 경우 표적 움직임의 크기가 5 mm, 10 mm, 20 mm 에 따라 각각 평균 $0.84{\pm}0.01mm$, $0.70{\pm}0.13mm$, $1.63{\pm}0.10mm$이고, 갑작스런 호흡 변화 형태일 경우 각각 평균 $0.97{\pm}0.06mm$, $1.44{\pm}0.11mm$, $1.98{\pm}0.10mm$으로 분석되었다. 두 호흡 형태에서 모두 상관관계 오차 값이 클수록 표적 오차 값이 크게 나타났다. 정현곡선 호흡 형태의 표적 움직임 크기가 20 mm 이상일 경우, 두 오차 값 모두 사이버나이프 제조사의 권고치인 1.5 mm 이상으로 측정되었다. 결 론 : 표적 움직임의 크기가 클수록 표적 오차 값과 상관관계 오차 값이 증가하는 경향이 있었으며, 정현곡선 호흡 형태보다 갑작스런 호흡 변화 형태에서 오차 값이 크게 나타났다. 호흡의 형태가 규칙적인 정현 곡선 형태더라도 표적의 움직임이 클수록 종양 추적 시스템의 정확도가 감소하는 것으로 판단할 수 있다. 사이버나이프 종양 추적 시스템의 알고리즘을 이용하여 치료 시행 시 환자의 기침 등으로 인하여 갑작스럽게 예측 불가능한 호흡 변화가 있는 경우 치료를 멈추고 내부 표적 확인 과정을 재실시 하여야 하며 호흡 형태를 재조정해야 할 필요가 있다. 치료 중 환자가 본인의 호흡 형태를 관찰 할 수 있는 고글 모니터 등을 착용하여 규칙적인 호흡 형태를 유도하는 것이 치료의 정확도는 향상될 수 있다고 판단된다.
PDF

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

최유지;박도형
- 지능정보연구
- /
- 제23권3호
- /
- pp.155-175
- /
- 2017
최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.
https://doi.org/10.13088/jiis.2017.23.3.155 인용 PDF KSCI

트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법의 성능분석 (Performance analysis of Frequent Itemset Mining Technique based on Transaction Weight Constraints)

윤은일;편광범
- 인터넷정보학회논문지
- /
- 제16권1호
- /
- pp.67-74
- /
- 2015
최근, 아이템들의 가치를 고려한 빈발 아이템셋 마이닝 방법은 데이터 마이닝 분야에서 가장 중요한 이슈 중 하나로 활발히 연구되어왔다. 아이템들의 가치를 고려한 마이닝 기법들은 적용 방법에 따라 크게 가중화 빈발 아이템셋 마이닝, 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝, 유틸리티 아이템셋 마이닝으로 구분된다. 본 논문에서는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝들에 대해 실증적인 분석을 수행한다. 일반적으로 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법들은 데이터베이스 내 아이템들의 가치를 고려함으로써 트랜잭션 가중치를 계산한다. 또한, 그 기법들은 계산된 각 트랜잭션의 가중치를 바탕으로 가중화 빈발 아이템셋들을 마이닝 한다. 트랜잭션 가중치는 트랜잭션 내에 높은 가치의 아이템이 많이 포함 될수록 높은 값으로 나타나기 때문에 우리는 각 트랜잭션의 가중치의 분석을 통해 그 가치를 파악할 수 있다. 우리는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법 중에서 가장 유명한 알고리즘인 WIS와 WIT-FWIs, IT-FWIs-MODIFY, WIT-FWIs-DIFF의 장 단점을 분석하고 각각의 성능을 비교한다. WIS는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝의 개념과 그 기법이 처음 제안된 알고리즘이며, 전통적인 빈발 아이템셋 마이닝 기법인 Apriori를 기반으로 하고 있다. 또 다른 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 방법인 WIT-FWIs와 WIT-FWIs-MODIFY, WIT-FWIs-DIFF는 가중화된 빈발 아이템셋 마이닝을 더 효율적으로 수행하기 위해 격자구조(Lattice) 형태의 특별한 저장구조인 WIT-tree를 이용한다. WIT-tree의 각 노드에는 아이템셋 정보와 아이템셋이 포함된 트랜잭션의 ID들이 저장되며, 이 구조를 사용함으로써 아이템셋 마이닝 과정에서 발생되는 다수의 데이터베이스 스캔 과정이 감소된다. 특히, 전통적인 알고리즘들이 수많은 데이터베이스 스캔을 수행하는 반면에, 이 알고리즘들은 WIT-tree를 이용해 데이터베이스를 오직 한번만 읽음으로써 마이닝과정에서 발생 가능한 오버헤드 문제를 해결한다. 또한, 공통적으로 길이 N의 두 아이템셋을 이용해 길이 N+1의 새로운 아이템셋을 생성한다. 먼저, WIT-FWIs는 각 아이템셋이 동시에 발생되는 트랜잭션들의 정보를 활용하는 것이 특징이다. WIT-FWIs-MODIFY는 조합되는 아이템셋의 정보를 이용해 빈도수 계산에 필요한 연산을 줄인 알고리즘이다. WIT-FWIs-DIFF는 두 아이템셋 중 하나만 발생한 트랜잭션의 정보를 이용한다. 우리는 다양한 실험환경에서 각 알고리즘의 성능을 비교분석하기 위해 각 트랜잭션의 형태가 유사한 dense 데이터와 각 트랜잭션의 구성이 서로 다른 sparse 데이터를 이용해 마이닝 시간과 최대 메모리 사용량을 평가한다. 또한, 각 알고리즘의 안정성을 평가하기 위한 확장성 테스트를 수행한다. 결과적으로, dense 데이터에서는 WIT-FWIs와 WIT-FWIs-MODIFY가 다른 알고리즘들보다 좋은 성능을 보이고 sparse 데이터에서는 WIT-FWI-DIFF가 가장 좋은 효율성을 갖는다. WIS는 더 많은 연산을 수행하는 알고리즘을 기반으로 했기 때문에 평균적으로 가장 낮은 성능을 보인다.
https://doi.org/10.7472/jksii.2015.16.1.67 인용 PDF KSCI

검색결과 5,388건 처리시간 0.03초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)