• 제목/요약/키워드: data clustering

검색결과 2,769건 처리시간 0.028초

소셜 태깅에서 관심사로 바라본 태그 특징 연구 - 소셜 북마킹 사이트 'del.icio.us'의 태그를 중심으로 - (A Study of User Interests and Tag Classification related to resources in a Social Tagging System)

  • 배주희;이경원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.826-833
    • /
    • 2009
  • 최근 소셜 태깅(social tagging)이 화두로 떠오르면서 전문가 집단에서 이루어지던 택소노미(taxonomy)에서 점차 사람들이 만들어가는 분류법인 폭소노미(folksonomy)의 형태로 변화하고 있다. 태그(tag)는 콘텐츠와의 접근이 직관적이기 때문에 원하는 콘텐츠로의 이동이 용이하며 그와 관련된 태그들을 만나면서 개인적인 회상능력을 증가시키고 사회적 영향력을 높이며, 우연한 정보의 발견, 재미있는 경험을 얻을 수 있다. 점차 네트워크 형성이 관심사로 연결된 형태로 커지면서 태그가 다른 형태의 콘텐츠를 한 곳에 묶어주는 역할을 담당하고 있다. 따라서 이 연구는 소셜 태깅에서 나타나는 사용자(user), 태그(tag), 리소스(resource) 간의 관계를 정리하고 사람들이 자신의 즐겨찾기 목록에 사이트를 추가하는 행위를 관심사로 보아, 이 때 입력한 태그를 어떠한 특징으로 나누어 볼 수 있을지 연구하였다. 이를 위해, 리소스 중심의 태그 분류를 7가지로 나누고, 이 분류법를 이용하여 소셜 북마킹(social bookmarking) 사이트 'del.icio.us' 에서 사용되고 있는 태그를 중심으로 음악, 사진, 게임의 세 가지 관심사 영역에서 사람들이 URL을 등록할 때에 어떠한 태그를 선택 하고 있는지 7가지 특징에 따라 분석하였다. 이를 통해 사이트를 바라보는 사람들의 관점을 파악해 볼 수 있고, 소셜 서비스 확장, 다양한 비지니스 모델을 설정 할 수 있는 가능성을 모색 해 볼 수 있을 것이다.

  • PDF

실시간 침입탐지를 위한 자기 조직화 지도(SOM)기반 트래픽 속성 상관관계 메커니즘 (Traffic Attributes Correlation Mechanism based on Self-Organizing Maps for Real-Time Intrusion Detection)

  • 황경애;오하영;임지영;채기준;나중찬
    • 정보처리학회논문지C
    • /
    • 제12C권5호
    • /
    • pp.649-658
    • /
    • 2005
  • 네트워크 기반의 공격은 그 위험성과 피해의 규모가 크기 때문에 공격 초기에 빨리 탐지하는 것이 중요하다. 그러나 지도학습 데이터 마이닝을 이용한 네트워크상의 비정상 트래픽을 탐지하는 방법은 방대한 양의 데이터 전처리와 관리자의 분석이 요구되며 관리자의 분석이 정확하다는 보장이 없을 뿐만 아니라 각 네트워크의 실시간 특성을 고려하지 못하기 때문에 탐지의 어려움이 크다. 본 논문에서는 실시간 침입 탐지와 점진적 학습을 위해 비지도학습의 데이터마이닝 기법중 하나인 자기 조직화 지도를 기반으로 트래픽 속성 상관관계 메커니즘을 제안한다. 이는 세 단계로 이루어진다. 첫 번째 단계는 초기 학습이 이루어지는 단계로 비지도 학습을 통하여 성격이 비슷한 트래픽끼리 클러스터링 한 맵을 생성시킨다. 두 번째 단계는 맵의 각 클러스터가 정상과 비정상 트래픽의 클러스터로 구분되기 위해 각 공격별로 추출된 규칙(rule)을 적용하여 맵을 분석한다. 이 규칙은 지도 학습을 통한 규칙 기반의 방법으로, 각 데이터 항목마다 SOM을 이용한 속성별 맵의 상관관계(correlation) 분석을 통해 생성되었다. 마지막으로 분석된 맵을 이용하여 실시간 탐지와 함께 점진적 학습이 이루어지게 된다. 여러 실험을 통하여 비지도 학습과 지도 학습을 결합한 SOM 기반 트래픽 속성 상관관계 메커니즘이 지도 학습에 비해 실시간 탐지에 우수함을 증명하였다.

L 및 LH-모멘트법과 지역빈도분석에 의한 가뭄우량의 추정 (II)- LH-모멘트법을 중심으로 - (Estimation of Drought Rainfall by Regional Frequency Analysis Using L and LH-Moments (II) - On the method of LH-moments -)

  • 이순혁;윤성수;맹승진;류경식;주호길;박진선
    • 한국농공학회논문집
    • /
    • 제46권5호
    • /
    • pp.27-39
    • /
    • 2004
  • In the first part of this study, five homogeneous regions in view of topographical and geographically homogeneous aspects except Jeju and Ulreung islands in Korea were accomplished by K-means clustering method. A total of 57 rain gauges were used for the regional frequency analysis with minimum rainfall series for the consecutive durations. Generalized Extreme Value distribution was confirmed as an optimal one among applied distributions. Drought rainfalls following the return periods were estimated by at-site and regional frequency analysis using L-moments method. It was confirmed that the design drought rainfalls estimated by the regional frequency analysis were shown to be more appropriate than those by the at-site frequency analysis. In the second part of this study, LH-moment ratio diagram and the Kolmogorov-Smirnov test on the Gumbel (GUM), Generalized Extreme Value (GEV), Generalized Logistic (GLO) and Generalized Pareto (GPA) distributions were accomplished to get optimal probability distribution. Design drought rainfalls were estimated by both at-site and regional frequency analysis using LH-moments and GEV distribution, which was confirmed as an optimal one among applied distributions. Design rainfalls were estimated by at-site and regional frequency analysis using LH-moments, the observed and simulated data resulted from Monte Carlotechniques. Design drought rainfalls derived by regional frequency analysis using L1, L2, L3 and L4-moments (LH-moments) method have shown higher reliability than those of at-site frequency analysis in view of RRMSE (Relative Root-Mean-Square Error), RBIAS (Relative Bias) and RR (Relative Reduction) for the estimated design drought rainfalls. Relative efficiency were calculated for the judgment of relative merits and demerits for the design drought rainfalls derived by regional frequency analysis using L-moments and L1, L2, L3 and L4-moments applied in the first report and second report of this study, respectively. Consequently, design drought rainfalls derived by regional frequency analysis using L-moments were shown as more reliable than those using LH-moments. Finally, design drought rainfalls for the classified five homogeneous regions following the various consecutive durations were derived by regional frequency analysis using L-moments, which was confirmed as a more reliable method through this study. Maps for the design drought rainfalls for the classified five homogeneous regions following the various consecutive durations were accomplished by the method of inverse distance weight and Arc-View, which is one of GIS techniques.

이동체 데이타베이스를 위한 통합 색인의 설계 및 구현 (Design and Implementation of Unified Index for Moving Objects Databases)

  • 박재관;안경환;정지원;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권3호
    • /
    • pp.271-281
    • /
    • 2006
  • 최근 PDA, 휴대폰, 노트북, GPS, RFID와 같은 모바일 장치의 발달과 범용적인 사용으로 위치 기반 서비스(LBS: Location Based Service)에 대한 요구가 점점 증대되고 있다. 위치 기반 서비스의 핵심 기술로는 이동체의 위치를 저장 및 관리하기 위한 이동체 데이타베이스를 들 수 있다. 이러한 데이타베이스는 이동체 정보를 빠르게 검색하기 위해 색인을 필요로 하며, 이 색인은 다수의 이동체에 의해 갱신되는 업데이트를 관리하고 실시간으로 위치를 추적할 수 있어야 한다. 따라서 이동체 데이터베이스를 위한 색인은 실시간 처리를 위해서 메인 메모리에서 동작하는 색인의 구조를 가져야 하며, 다수 이동체의 위치 정보를 관리하기 위해 색인의 일부분을 메모리에서 디스크로 이동하거나 디스크에서 메모리로 로딩하는 기법을 지원해야 한다. 이 논문에서는 이러한 색인의 요구 조건을 충족시키기 위해서 메인 메모리와 디스크를 연동하는 통합색인 기법과 메모리 공간 부족 시에 색인의 일부를 디스크로 이동시키는 이주 정책들을 제시하였다 이주 정책은 디스크 I/O를 줄이기 위해 노드 단위가 아닌 서브트리 단위로 이동하도록 함으로써, 벌크 연산 및 동적 클러스터링의 효과를 얻게 된다. 통합 색인은 이주 정책에 따라 다른 형태로 구성될 수 있으며, 본 논문에서는 Oldest Node 정책과 LRU Buffer 정책을 적용하였다. 또한 통합 색인을 구현하고, 각 이주 정책 별로 실험 평가를 수행하여 성능을 측정하였다

감시체계를 통하여 보고된 직업성 피부질환의 특성에 관한 연구 - 사업장, 특수건강진단기관, 피부과의사의 보고사례를 중심으로 기술 - (Characteristics of Occupational Skin Disease Reported by Surveillance System)

  • 김형옥;이준영;정호근;안연순
    • Journal of Preventive Medicine and Public Health
    • /
    • 제32권2호
    • /
    • pp.130-140
    • /
    • 1999
  • Objectives: This study was carried out to estimate the magnitude of skin disease related to occupation and to find out the characteristics of it. Methods: We collected and analyzed the cases of occupational skin disease reported by surveillance system composed of doctors and nurses in 150 enterprises with dispensary or attacked hospital and physicians in 92 specific health examination institutes and 150 dermatologists from May to November, 1998. Results: Among members of surveillance system, 66 enterprises and 47 specific health examination institutes and 55 dermatologists reported 571 cases of occupational skin disease in 512 workers. Excepting 81 cases reported by dermatologists, We analyzed 490 cases reported by enterprises and specific health examination institutes. Among 490 cases, contact dermatitis was most common(368 cases, 75.1%) and the second was hyper or hypopigmentation(36 cases, 7.3%). When we analyzed the characteristics of workers with occupational contact dermatitis, male workers were 281 (79.2%) and female were 74(20.8%). 165 workers(64.5%) had chronic skin disease with repeated cure and relapse. 245 workers(72.5%) answered positively that their coworkers had similar skin disease. 27 workers(8.7%) experienced absence due to contact dermatitis related to occupation. To analyze the type of industries of workers with occupational contact dermatitis, automobile and trailer manufacturing industry was most common(105 cases, 29.6%) and the second was manufacturing industry for image, sound and communication equipment(55 cases, 15.5%). Organic solvent(183 cases, 46.7%) was the most common treating material of workers with contact dermatitis and the second was various kinds of chemicals(59cases, 15.1%). Conclusions: This is the first study using nationwide surveillance system to collect data of occupational skin disease. We found that many workers had skin disease related to occupation and characteristics of occupational skin disease were chronic and clustering. Therefore, we had to establish counterplan to manage occupational skin disease and to operate surveillance system to identify trends of occupational skin disease, continuously.

  • PDF

교통기반 공공보건 정책 수립을 위한 고속도로 차량배출가스 시공간 패턴분석 (Spatio-temporal Analysis of Freeway Emissions for Establishing Public Health Policies Based on Transportation)

  • 이설영;주신혜;윤석민;오철
    • 대한교통학회지
    • /
    • 제34권5호
    • /
    • pp.377-393
    • /
    • 2016
  • 차량배출가스는 대기오염을 유발하는 주요 요인인 것으로 알려져 있으며, 배출가스 감소를 위한 다양한 정책수립 및 기술개발이 활발히 진행 중이다. 이에 본 연구는 차량의 배출가스 중 호흡기 질환에 특히 유해한 것으로 알려진 질소산화물($NO_x$)과 초미세먼지($PM_{2.5}$)를 대상으로 시공간적 배출량의 패턴을 분석하고 교통기반 공공보건 증진 방안을 제시하였다. 서울외곽순환고속도로를 공간적 분석범위로 설정하고 2015년 1월부터 6월 사이에 수집된 속도와 교통량 자료를 기반으로 배출계수를 이용하여 거시적 모형을 통한 차량배출가스 발생 총량을 추정하였다. 추정된 배출가스 자료에 군집분석을 적용하여 차량배출가스 수준(Level of Vehicle Emission)을 정의하였으며, 평일 차량배출가스 발생량의 물질별 시간대별 공간별 패턴을 분석하였다. 이를 바탕으로 교통기반 공공보건 정책방안을 교통계획 및 교통시설물, 공공보건 정보, 교통운영 및 관리 측면으로 나누어 제시하였다. 본 연구에서 제시한 차량배출가스 분석방향 및 전략은 공공보건 정책 마련에 기여할 것으로 판단된다.

RAPD 및 ITS 염기서열 분석을 이용한 곰취 속(Ligularia) 식물의 유연관계 분석 (Phylogenetic Relationship of Ligularia Species Based on RAPD and ITS Sequences Analyses)

  • 안순영;조광수;유기억;서종택
    • 원예과학기술지
    • /
    • 제28권4호
    • /
    • pp.638-647
    • /
    • 2010
  • RAPD와 ITS 염기서열 분석을 통하여 $Ligularia$ 속 식물 5종류의 유연관계를 밝혔다. RAPD 분석에서는 총 196개의 random primer를 사용하여 밴드수가 많고 선명한 63개의 primer를 선발하였다. 다형성을 나타낸 밴드는 141개(31.8%)이었으며, 증폭된 크기는 0.2-1.6kb로 다양하였다. 유집 분석 결과, 유사도 값은 0.54-0.95의 범위로 나타났고, 0.77을 기준으로 크게 5그룹으로 나누었다. ITS 영역의 염기서열 분석 결과, ITS 1과 ITS 2 지역은 각각 248-256bp와, 220-222bp로 구성되어 있으며, 5.8S 부분은 164bp로 나타났다. ITS 1과 ITS 2 지역의 총 478개의 염기 중 49(10.2%)군데에서 변이가 있었으며, 구아닌(G)과 시토신(C)의 비율은 ITS 1 지역에서 49.4%, ITS 2에서는 53.5%로 나타났다. 염기서열 분석결과 5종류는 단계통을 형성하였으며, 갯취는 군외군으로 부터 가장 먼저 분계조를 형성하였다. 한대리곰취와 어리곤달비는 79%의 지지율을 가지고 유집되었으며, 곰취와 곤달비도 함께 유집되었지만 지지도는 52%로 낮았다. 이상의 결과에서 두 데이터는 일치하는 결과를 보였지만 한 대리 곰취의 분류학적 위치는 RAPD와 ITS 분석결과가 일치하지 않았다.

특허 등록 예측을 위한 특허 문서 분석 방법 (Analysis method of patent document to Forecast Patent Registration)

  • 구정민;박상성;신영근;정원교;장동식
    • 한국산학기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.1458-1467
    • /
    • 2010
  • 최근 지식재산권의 모방과 권리 침해는 국가 산업발전의 저해요소로 인식되고 있다. 많은 연구자들은 이러한 저해요소로 인하여 발생하는 막대한 손실을 막기 위해 지식재산권의 보호와 효율적 관리에 관한 연구를 다양하게 진행 중이다. 특히, 특허 등록 예측은 지식재산권 보호와 권리 주장을 위해 매우 중요한 연구이다. 본 연구는 텍스트 마이닝 기법을 이용한 특허문서 분석을 통하여 특허 등록 및 거절 여부를 예측하는 방법을 제안한다. 먼저 거절된 특허문서들의 단어 빈도수를 이용하여 데이터베이스를 생성한다. 그리고 생성한 데이터베이스와 다른 특허문서들을 비교하여 각 문서와 데이터베이스와의 유사한 정도를 판단하는 유사치를 도출한다. 본 논문에서는 특허 거절 기준 값을 선정하기 위하여 분할 군집화 알고리즘인 k-means 사용하였다. 그 결과로 거절된 특허 문서와 유사한 특허 문서는 거절될 가능성이 높다는 결론을 얻을 수 있었다. 실험을 위한 데이터는 현재 미국에 출원되어 있는 블루투스 기술, 태양전지 기술 그리고 디스플레이에 관한 특허 문서를 이용하였다.

지하철 역사 내 WSN 환경구축을 위한 고정 전파범위 기반의 효율적인 AP설치에 관한 연구 (A Study on Efficient Access Point Installation Based on Fixed Radio Wave Radius for WSN Configuration at Subway Station)

  • 안태기;안치형;이영석;남명우
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.740-748
    • /
    • 2016
  • 도시철도는 많은 사람들이 이용하는 대표적인 대중교통 수단으로 이용객의 안전 및 편의를 위한 다양한 장비들이 지속적으로 설치되어 왔다. 최근에는 IT기술의 발전에 힘입어 무선네트워크 기술과 접목된 여러 센서들을 설치한 후 데이터를 수집하여 이용객에게 편의를 높이고 있다. 도시철도 역사 내에 무선 센터 네트워크 환경을 구축하기 위해서는 센서들의 데이터를 수집할 수 있는 AP의 설치 방법이 중요하다. 그러나 현재 AP의 설치방법은 역사 내를 이동하며 전파 세기를 측정한 후 AP를 설치하는 방법을 사용하고 있다. 효율적인 AP설치는 적은 수의 AP설치만으로 넓은 지역에 설치된 센서들의 데이터를 수집할 수 있으며, 추후 추가적인 센서 설치시 유지보수 비용을 줄일 수 있다. 이를 위해 본 연구에서는 센서들의 설치 위치와 AP의 전파 범위를 기반으로 최적의 AP설치 위치와 개수를 추정할 수 있는 방법을 제안하였다. 그리고 제안된 방법을 이용하여 시뮬레이터를 개발한 후 부산 서면역 도면에 적용하여 WSN을 구축하는 모의실험을 수행하였다. 개발된 시뮬레이터는 향후 도시철도 환경에 WSN을 구축하는데 유용한 자료로 활용될 수 있을 것으로 기대된다.

통증어휘를 이용한 통증비율척도의 개발연구 (A Study for Development of Ratio Beale Measuring Pain Using Korean Pain Tersm)

  • 이은옥;윤순녕;송미순
    • 대한간호학회지
    • /
    • 제14권2호
    • /
    • pp.93-111
    • /
    • 1984
  • The main purpose of this study is to develop a ratio scale measuring level of pain using Korean pain terms. The specific purposes of this study are to identify the degree of pain of each pain term in each subclass: to classify each subclass in terms of dimensions of pain; and to analyze factors of the Korean pain ratio scale clustering together. One hundred an4 fifty eight pain terms which were originally identified as representative terms and their synonyms were used for data collection. Fifty eight nursing professors ana sixty one medical doctors who have contacted with patients having pain were asked to rate the weight of each pain term on a visual analogue scale. Subclasses in which ranks of pain terms were same f s findings in two previous studies were 1) thermal 3 am 2) cavity pressure, 3) single stimulating pain, 4) radiation pain. and 5) chemical pain. Subclasses in which ranks of pain terms were confused were 1) incisive pressure, and 2) cold pain. Subclasses in which one new pain term was added were 1) inflammatory-repeated pain, 2) punctuate pressure, 3) constrictive pressure, 4) fatigue-related pressure, and 5) suffering-relate4 pain. Subclasses in which two new pain terms were added were 1) traction pressure, 2) peripheral nerve pain, 3) dull pain, 4) pulsation-related pain, 5) digestion-related pain, 6) tract pain, and 7) punishment-related pain. Subclass in which 3 new pain terms were included was fear-related pain. Rating scores of 5 words in 4 subclasses were significantly different between the normal group and the extreme group of subjects in terms of subjective rating. Only one word among 6 words was that newly added to the scale. Rating scores of 12 words in 9 subclasses were significantly different between doctor group and nursing professor group. Among these 12 words, only 3 were those newly added to the scale. In comparison of these 12 words, mean scores of the nursing professors were always 7 to 16 points higher than those of the medical doctors. In the analysis of judgement of subjects in terms of dimensions of pain terms, subclasses of dull pain, cavity pressure, tract pain and cold pain were suggested to be included in the miscellaneous dimension. As a result of factor analysis of the ratings given to 96 pain words using principal components analysis without iteration and with varimax rotation limiting the number of factors to 4, factors of severe pain (factor I) mild-moderate pain (factor II) , causative pain (factor III) and temperature-related pain(factor IV) were extracted with the factor loading above 0.388. When the pain words were re-arranged on the bases of factor loading above 0.368, number of factors decreased to only first two factors. Maximum score of pain word in factor II was 46.17 and the minimum score of the factor I was 45.36. Further studies are needed to identify the validity, reliability, sensitivity and practicability of this ratio scale using patients having various sources of pain.

  • PDF