• Title/Summary/Keyword: similarity based clustering

검색결과 322건 처리시간 0.029초

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

Isolation, Characterization and Numerical Taxonomy of Novel Oxalate-oxidizing Bacteria

  • Sahin, Nurettin;Gokler, Isa;Tamer, Abdurrahman
    • Journal of Microbiology
    • /
    • 제40권2호
    • /
    • pp.109-118
    • /
    • 2002
  • The present work is aimed at providing additional new pure cultures of oxalate utilizing bacteria and its preliminary characterization for further work in the field of oxalate-metabolism and taxonomic studies. The taxonomy of 14 mesophilic, aerobic oxalotrophic bacteria isolated by an enrichment culture technique from soils rhizosphers, and the juice of the petiole/stem tissue of plants was investigated. Isolates were characterized with 95 morphological, biochemical and physiological tests. Cellular lipid components and carotenoids of isolates were also studied as an aid to taxonomic characterization. All isolates were Gram-negative, oxidase and catalase positive and no growth factors were required. In addition to oxalates, some of the strains grow on methanol and/or formate. The taxonomic similarities among isolates, reference strains or previously reported oxalotrophic bacteria were analysed by using the Simple Matching (S/ sub SM/) and Jaccard (S$\_$J/) Coefficients. Clustering was performed by using the unweighted pair group method with arithmetic averages (UPGMA) algorithm. The oxalotrophic strains formed five major and two single-member clusters at the 70-86% similarity level. Based on the numerical taxonomy, isolates were separated into three phenotypic groups. Pink-pigmented strains belonged to Methylobacterium extorquens, yellow-pigmented strains were most similar to Pseudomonas sp. YOx and Xanthobacter autorophicus, and heterogeneous non-pigmented strains were closely related to genera Azospirillum, Ancylobacter, Burkholderia and Pseudomonas. New strains belonged to the genera Pseudomonas, Azospirillum and Ancylobacter that differ taxonomically from other known oxalate oxidizers were obtained. Numerical analysis indicated that some strains of the yellow-pigmented and nonpigmented clusters might represent new species.

자기 조직화 신경망(SOM)을 이용한 협력적 여과 기법의 웹 개인화 시스템에 대한 연구 (Collaborative Filtering System using Self-Organizing Map for Web Personalization)

  • 강부식
    • 지능정보연구
    • /
    • 제9권3호
    • /
    • pp.117-135
    • /
    • 2003
  • 개인화 된 정보를 제공하기 위한 협력 여과 기법에 대한 많은 연구가 이루어지고 있는데, 유사 사용자들을 찾는 과정에서 상관계수와 같은 유사성 척도를 이용하여 모든 사용자와의 유사성을 계산하는 과정을 거친다. 이때 사용자 수가 많아지게 되면, 계산의 복잡도가 지수적으로 증가하게 되는 규모의 문제가 발생한다. 본 연구는 협력 여과 기법에서 주로 사용하는 유사성 척도가 사용자 집단이 커짐에 따라 계산의 복잡도가 지수적으로 증가하는 문제를 해결하기 위한 방안을 제시하는 것이 주목적이다. 규모의 문제를 해결하기 위해 클러스터링 모델 기반 접근 방식을 사용하고 아이템의 선호도 계산을 위해 RPM(Recency, Frequency, Momentary) 기준의 사용을 제안한다. 먼저 SOM을 이용하여 전체 사용자를 사용자 집단으로 클러스터링하고 사용자 집단별로 RFM 기준에 의해 아이템의 점수를 계산하여 선호도가 높은 순으로 정렬하여 저장한다. 사용자가 로그인하면 학습된 SOM을 이용하여 대상 사용자 집단을 선정하고 미리 저장된 추천 아이템을 추천한다. 추천결과에 대해 사용자가 평가하면 그 결과를 이용하여 현 시스템의 개정 여부를 결정한다. 제안한 방안에 대해 MovieLens 데이터 셋에 적용하여 실험한 결과 기존의 협력적 여과 기법에 비해 추천 성능이 비교적 우수하면서도 추천 시스템 운용시의 계산 복잡도를 일정하게 유지시킬 수 있음을 보였다.

  • PDF

Modeling and Simulation of Scheduling Medical Materials Using Graph Model for Complex Rescue

  • Lv, Ming;Zheng, Jingchen;Tong, Qingying;Chen, Jinhong;Liu, Haoting;Gao, Yun
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1243-1258
    • /
    • 2017
  • A new medical materials scheduling system and its modeling method for the complex rescue are presented. Different from other similar system, first both the BeiDou Satellite Communication System (BSCS) and the Special Fiber-optic Communication Network (SFCN) are used to collect the rescue requirements and the location information of disaster areas. Then all these messages will be displayed in a special medical software terminal. After that the bipartite graph models are utilized to compute the optimal scheduling of medical materials. Finally, all these results will be transmitted back by the BSCS and the SFCN again to implement a fast guidance of medical rescue. The sole drug scheduling issue, the multiple drugs scheduling issue, and the backup-scheme selection issue are all utilized: the Kuhn-Munkres algorithm is used to realize the optimal matching of sole drug scheduling issue, the spectral clustering-based method is employed to calculate the optimal distribution of multiple drugs scheduling issue, and the similarity metric of neighboring matrix is utilized to realize the estimation of backup-scheme selection issue of medical materials. Many simulation analysis experiments and applications have proved the correctness of proposed technique and system.

예쁜꼬마선충의 수영 행동 영상과 기계학습 모델을 이용한 수질 오염 물질 구분 방법 (A Method for the Classification of Water Pollutants using Machine Learning Model with Swimming Activities Videos of Caenorhabditis elegans)

  • 강승호;정인선;임형석
    • 한국정보통신학회논문지
    • /
    • 제25권7호
    • /
    • pp.903-909
    • /
    • 2021
  • 예쁜꼬마선충(Caenorhabditis elegans)은 염기서열이 완전히 밝혀진 동물로 유전자 기능 분석, 동물 행동 연구 등 다양한 연구 분야에 사용되는 대표적인 생물 종이다. 그동안 선충을 이용해 물의 오염 여부를 판별하기 위한 바이오 모니터링 시스템에 대한 여러 연구들이 있었다. 본 논문은 하천의 수질 오염의 원인이 되는 화학물질을 식별하기 위해 선충의 수영 행동이 활용 가능한 지를 보여주기 위해 기계학습 기반의 바이오 모니터링 시스템을 제안한다. 선충의 수영 행동을 대표하기 위해 선충을 대상으로 가지 길이 유사성(Branch Length Similarity) 엔트로피를 계산한다. 그리고 BLS 엔트로피의 조합인 BLS 엔트로피 프로파일을 클러스터링 알고리즘을 사용해 몇 가지 패턴으로 유형화하여 데이터 집합을 만든다. 0.1ppm 농도의 포름알데히드, 벤젠, 톨루엔이 첨가된 아레나에서 선충의 수영 행동을 촬영하고 개발한 히든 마코프 모델(Hidden Markov Model: HMM)의 성능을 검증한다.

컴퓨터 문헌 분석 기법을 활용한 <적벽가> 이본의 계통 분류 연구 (A Study on the Classification of Jeokbyeok-ga's Version by the Computer Analysis Technique of Bibliographies)

  • 이진오;김동건
    • 한국콘텐츠학회논문지
    • /
    • 제19권6호
    • /
    • pp.1-9
    • /
    • 2019
  • 본 연구는 컴퓨터 문헌 분석 기법을 활용하여 <적벽가> 전체 이본의 계통을 파악하는 한편, 기존 이본론의 연구 성과를 검토하는 데에 목적을 둔다. 우선 분석의 기초자료를 마련하기 위해 <적벽가>의 이본 중 46종을 선정하고 이를 대상으로 원시 코퍼스를 구축하였다. 이를 통해서 <적벽가>의 공통 서사단위는 5개의 계층으로 파악할 수 있었으며, 146개의 개별 내용 단락을 추출할 수 있었다. 다음으로 인코딩 된 코퍼스를 바탕으로 이본간의 유사도와 거리 측정을 시도하였는데, <적벽가>의 계통과 이본간의 거리를 시각적으로 제시할 수 있었다. 이후 다차원 척도법, 계층적 군집 분석, 계통의 분기 분석 기법을 활용하여 이본군의 분포를 확인할 수 있었다. 이처럼 컴퓨터 문헌 분석 기법을 종합하여 적용해보면 <적벽가>의 이본군은 완판 계열과 창본 계열로 양분되어 있음을 확인할 수 있는데, 기존의 논의보다 더 세밀한 계통 구분을 할 수 있었다. 또한 판소리의 유파와 전승에 따른 영향 관계도 검토할 수 있었다.

공간적 상관성을 고려한 민수용 도시가스 수요결정 요인 분석 (Analysis of Determinants of Civilian City Gas Demand Considering Spatial Correlation)

  • 박은비;원두환
    • 자원ㆍ환경경제연구
    • /
    • 제33권1호
    • /
    • pp.59-86
    • /
    • 2024
  • 최근 도시가스 수요에 관한 연구는 광역별, 지역별로 각 지역 특성을 반영하여 미시적 관점에서 접근하는 경향이 확대되는 추세이다. 이때 인접지역이 가지는 사회구조의 유사성과 공급 인프라의 밀집성은 지역 간 미시적인 관계를 가지는 군집성과 공간적 상관성을 유도한다. 이에 민수용 도시가스 수요에 대해 34개 도시가스사의 관할지역을 기준으로 총 54개의 지역으로 구분한 후 공간 상관성을 분석한 결과 전역적, 국지적 관점에서 양의 공간적 상관성이 있음을 확인할 수 있었다. 본 연구에서는 2014년 1월부터 2022년 12월까지 54개 지역에 대한 민수용 도시가스 수요를 패널데이터로 구성하여 공간패널회귀분석과 일반 패널회귀분석을 비교하였으며, 오차에 공간적 효과가 존재하는 공간오차모형(SEM)이 가장 적합한 모형임을 도출할 수 있었다. 이는 한 지역의 민수용 도시가스 수요가 인접지역과 유의한 관계가 있음을 확인함으로써 정책적, 실무적 시사점을 제시한다.

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

올챙고랭이(Scirpus juncoides)를 중심으로 한 주요(主要) 논 잡초종(雜草種)의 벼 경합생태적(競合生態的) 분류(分類) (Competition - Ecological Classification of the Prominent Paddy Weed Species around Bulrush(Scirpus juncoides))

  • 구자옥;허상만
    • 한국잡초학회지
    • /
    • 제5권2호
    • /
    • pp.96-102
    • /
    • 1985
  • 최근에 발생빈도가 늘어가고 있는 것으로 알려진 올챙고랭이를 중심으로 하여 논에 빈발하는 10개 잡초종의 경합생태적 특성을 정리 분류할 목적(目的)으로 단식(單植)과 벼 입묘하(立苗下)에 공시하였다. 분류 및 해석은 공시잡초종의 공간경합성과 양분경합성, 이들 잡초종에 대한 벼의 공간경합성과 양분경합성 및 수량성 반응을 기초로 하는 Singk-link-cluster 법(法)에 의하였다. 1. 잡초종들의 생장특성은 단식(單植)과 입묘하(立苗下)에서 대체로 유사한 경향(r= $0.969^{**}$) 이었으며 공간점유성이 큰 초종(草種)(피 * 여뀌바는 등)이 영양수탈력도 큰편이었으나(r=$0.712^*$), 벼의 종간경합으로 인한 생육억제율은 오히려 커지는 경향이었다(r-0.513). 2. 잡초의 종내 및 종간경합성에 의한 분류결과는 피 여뀌바늘 너도방동산이 및 매자기가 한 무리, 올망개 올챙고랭이가 한 우리, 그러고 골풀과 가래가 다른 우리를 이루는 경향이었다. 3. 잡초에 대한 벼의 종간경합성과 수량반응을 기초로 분류한 결과는 바람하늘직이 올챙고랭이 올망개 매자기 및 골풀이 한 무리로, 그러고 여뀌 바늘과 가래 및 물달개비가 다른 우리로 나타났다. 4 잡초 및 벼의 종간경합에 따른 경합성을 종합적으로 분류한 결과, 생장특성은 크나 벼 경합력은 낮은 바람하늘직이 올챙고랭이 올방개 골풀이 제 I 군, 모두가 큰 너도방동산이 피 가래 여뀌바늘이 제 II군, 생장특성은 작아도 경합력은 큰 물달개비와 매자기가 제 III군으로 구분될 수 있었다.

  • PDF

Water resources potential assessment of ungauged catchments in Lake Tana Basin, Ethiopia

  • Damtew, Getachew Tegegne;Kim, Young-Oh
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.217-217
    • /
    • 2015
  • The objective of this study was mainly to evaluate the water resources potential of Lake Tana Basin (LTB) by using Soil and Water Assessment Tool (SWAT). From SWAT simulation of LTB, about 5236 km2 area of LTB is gauged watershed and the remaining 9878 km2 area is ungauged watershed. For calibration of model parameters, four gauged stations were considered namely: Gilgel Abay, Gummera, Rib, and Megech. The SWAT-CUP built-in techniques, particle swarm optimization (PSO) and generalized likelihood uncertainty estimation (GLUE) method was used for calibration of model parameters and PSO method were selected for the study based on its performance results in four gauging stations. However the level of sensitivity of flow parameters differ from catchment to catchment, the curve number (CN2) has been found the most sensitive parameters in all gauged catchments. To facilitate the transfer of data from gauged catchments to ungauged catchments, clustering of hydrologic response units (HRUs) were done based on physical similarity measured between gauged and ungauged catchment attributes. From SWAT land use/ soil use/slope reclassification of LTB, a total of 142 HRUs were identified and these HRUs are clustered in to 39 similar hydrologic groups. In order to transfer the optimized model parameters from gauged to ungauged catchments based on these clustered hydrologic groups, this study evaluates three parameter transfer schemes: parameters transfer based on homogeneous regions (PT-I), parameter transfer based on global averaging (PT-II), and parameter transfer by considering Gilgel Abay catchment as a representative catchment (PT-III) since its model performance values are better than the other three gauged catchments. The performance of these parameter transfer approach was evaluated based on values of Nash-Sutcliffe efficiency (NSE) and coefficient of determination (R2). The computed NSE values was found to be 0.71, 0.58, and 0.31 for PT-I, PT-II and PT-III respectively and the computed R2 values was found to be 0.93, 0.82, and 0.95 for PT-I, PT-II, and PT-III respectively. Based on the performance evaluation criteria, PT-I were selected for modelling ungauged catchments by transferring optimized model parameters from gauged catchment. From the model result, yearly average stream flow for all homogeneous regions was found 29.54 m3/s, 112.92 m3/s, and 130.10 m3/s for time period (1989 - 2005) for region-I, region-II, and region-III respectively.

  • PDF