• 제목/요약/키워드: Standard Dataset

검색결과 194건 처리시간 0.027초

산림병해충 피해의심목 자동탐지 알고리즘 개발 연구 (A study on the development of an automatic detection algorithm for trees suspected of being damaged by forest pests)

  • 이후동;이성희;이영진
    • 한국지리정보학회지
    • /
    • 제25권4호
    • /
    • pp.151-162
    • /
    • 2022
  • 최근 우리나라의 산림은 지속적인 산림재해로 인해 피해가 누적되고 있어 산림을 관리하기 위한 모니터링 기술이 조명받고 있으며, 산림재해 피해대상지의 규모가 큰 지형 특성으로 인해 드론, 인공지능, 빅데이터 등을 활용한 기술들이 연구되고 있다. 본 연구에서는 산림재해의 병해충을 모니터링하기 위해 딥러닝과 드론을 활용하여 산림 병해충 피해 의심목을 자동으로 탐지하는 산림 병해충 자동탐지 알고리즘 개발을 위한 표준 데이터 세트를 구축하였다. 객체검출 알고리즘으로서 YOLO 알고리즘을 활용한 실험결과에서는 YOLOv4-P7 모델이 재현율 69.69%와 정밀도 69.15%로 가장 높게 나타났으며, 이미지 사이즈가 큰 정사영상인 검출대상임을 고려할 때 산림병해충 피해의심목 자동탐지 알고리즘으로 YOLOv4-P7이 적합함을 확인하였다.

고혈압 위험 예측에 적용된 특징 선택 방법의 비교 (Comparison of Feature Selection Methods Applied on Risk Prediction for Hypertension)

  • ;김미혜
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.107-114
    • /
    • 2022
  • 본 논문에서는 질병관리청 국민건강영양조사(KNHANES: Korea National Health and Nutrition Examination Survey) 데이터베이스에서 특징선택 방법으로 고혈압을 감지 예측하는 방법을 개선했다. 또한 만성 고혈압과 관련된 다양한 위험 요인을 확인하였다. 본 논문은 3가지로 나누어, 첫째 결측값을 제거하고 Z-변환을 하는 데이터 전처리 단계이다. 다음은 데이터 셋에서 특징선택법을 기반으로 하는 요인분석(FA)을 사용하는 특징선택 단계이며, 특징선택을 기반으로 다중공선형 분석(MC)와 특징중요도(FI)을 비교했다. 마지막으로 예측분석단계에서 고혈압 위험을 감지하고 예측하는데 적용했다. 본 연구에서는 각 분류 모델에 대해 ROC 곡선(AUC) 아래의 평균 표준 오차(MSE), F1 점수 및 면적을 비교한다. 테스트 결과 제안한 MC-FA-RF모델은 80.12% 가장 높은 정확도를 보이고, MSE, f-score, AUC 모델의 경우 각각 0.106, 83.49%의, 85.96% 으로 나타났다. 이러한 결과는 고혈압위험 예측에 대한 제안된 MC-FA-RF 방법이 다른 방법에 비해 우수함을 보이고 있다.

웹기반 의료영상 표준 데이터셋 변환 및 관리 시스템 구축 (Construction of Web-Based Medical Imgage Standard Dataset Conversion and Management System)

  • 김지언;임동욱;유영주;노시형;이충섭;김태훈;정창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.282-284
    • /
    • 2021
  • 최근 4차 산업혁명으로 의료빅데이터 기반으로 한 AI 기술이 급속도로 발전하고 있다. 특히, 의료영상을 기반으로 병변을 탐색, 분활 및 정량화 그리고 자동진단 및 예측 관련된 기술이 AI 제품으로 출시되고 있다. AI 기술개발은 많은 학습데이터가 요구되며, 임상검증에 단일기관에서 2개 이상 기관의 검증이 요구되고 있다. 그러나 아직까지도 단일기관에서 학습용 데이터와 테스트, 검증용 데이터를 달리하여 기술개발에 활용하고 있다. 본 논문은 AI 기술개발에 필요한 영상데이터에 대한 표준화된 데이터셋 변환 및 관리를 위한 시스템에 대해 기술한다. 다기관 데이터를 수집하기 위해서는 각 기관의 의료영상 데이터 수집 및 저장하는 기준이 명확하지 않아 표준화 작업이 필요하다. 제안한 시스템은 기관 또는 다기관 연구 그룹의 의료영상데이터를 표준화하여 저장할 수 있을 뿐만 아니라 의료영상 뷰어 및 의료영상 리스트를 통해 연구자가 원하는 의료영상 데이터 셋을 검색하여 다양한 데이터셋으로 제공할 수 있기 때문에 수집 및 변환 그리고 관리까지 지원할 수 있는 시스템으로 영상기반의 머신러닝 연구에 활력을 불어넣을 수 있을 것으로 기대하고 있다.

Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach

  • Misbah Iram;Saif Ur Rehman;Shafaq Shahid;Sayeda Ambreen Mehmood
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.97-106
    • /
    • 2023
  • Sentiment analysis using social network platforms such as Twitter has achieved tremendous results. Twitter is an online social networking site that contains a rich amount of data. The platform is known as an information channel corresponding to different sites and categories. Tweets are most often publicly accessible with very few limitations and security options available. Twitter also has powerful tools to enhance the utility of Twitter and a powerful search system to make publicly accessible the recently posted tweets by keyword. As popular social media, Twitter has the potential for interconnectivity of information, reviews, updates, and all of which is important to engage the targeted population. In this work, numerous methods that perform a classification of tweet sentiment in Twitter is discussed. There has been a lot of work in the field of sentiment analysis of Twitter data. This study provides a comprehensive analysis of the most standard and widely applicable techniques for opinion mining that are based on machine learning and lexicon-based along with their metrics. The proposed work is helpful to analyze the information in the tweets where opinions are highly unstructured, heterogeneous, and polarized positive, negative or neutral. In order to validate the performance of the proposed framework, an extensive series of experiments has been performed on the real world twitter dataset that alter to show the effectiveness of the proposed framework. This research effort also highlighted the recent challenges in the field of sentiment analysis along with the future scope of the proposed work.

Association between exposure to particulate matter and school absences in Korean asthmatic adolescents

  • Seongmin Jo;Kiook Baek;Joon Sakong;Chulyong Park
    • Annals of Occupational and Environmental Medicine
    • /
    • 제34권
    • /
    • pp.21.1-21.13
    • /
    • 2022
  • Background: Because particulate matter (PM) and asthma are closely related, the prevalence of school absence among adolescents with asthma can be affected by the concentration of PM. We aimed to investigate the relationship between school absences due to asthma and the total number of days that the PM concentration exceeded the standard. Methods: We used the data from the 16th Korea Youth Risk Behavior Survey and the PM levels of 17 metropolitan cities and provinces gathered from the AirKorea. Information on the characteristics of asthmatic adolescents and the prevalence of school absence was obtained using a questionnaire, while the PM levels based on the total number of days with poor and very poor PM grades were collected from the AirKorea website. Both χ2 test and logistic regression analysis were performed using the weights presented in the original dataset. Results: In the case of particulate matter of 10 microns in diameter or smaller (PM10), the odds ratio (OR) after adjusting for confounders (sex, school year, body mass index, smoking history, diagnosis of allergic rhinitis, diagnosis of atopic dermatitis and city size) was 1.07 (95% confidence interval [CI]: 1.01-1.13) for absents due to asthma when the total days of poor and very poor grades of PM10 (81 ㎍/m3 or higher) increased by 1 day. In the analysis of particulate matter of 2.5 microns in diameter or smaller (PM2.5), the OR after adjusting for confounders was 1.01 (95% CI: 1.00-1.03) for absents due to asthma when the total number of days with poor and very poor PM2.5 grades (36 ㎍/m3 or higher) increased by 1 day. Conclusions: A significant association was observed between the total number of days of poor and very poor PM10 and PM2.5 grades and school absence due to asthma; PM can cause asthma exacerbation and affect the academic life.

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

표준관입시험결과를 이용한 사질토 지반의 전단파속도 예측 : 인공신경망 모델의 적용 (Prediction of Shear Wave Velocity on Sand Using Standard Penetration Test Results : Application of Artificial Neural Network Model)

  • 김범주;호준기;황영철
    • 한국지반공학회논문집
    • /
    • 제30권5호
    • /
    • pp.47-54
    • /
    • 2014
  • 전단파 속도는 내진설계시 중요한 설계인자이나 지반조사의 목적으로는 흔히 경제적, 시간적 제약 등으로 시험을 통한 측정이 널리 이루어지지 않고 있다. 본 연구에서는 인공신경망 기법을 이용하여 가장 일반적인 현장 지반조사시험인 표준관입시험 결과를 바탕으로 사질토 지반에서의 전단파 속도를 예측하는 연구를 수행하였다. 650개 데이터 세트를 이용해 표준관입시험 저항치 $N_{60}$, 함수비, 세립분함량, 비중을 입력변수로 하여 전단파속도를 추정하는 인공신경망 모델을 구축하고 입력변수별 전단파속도에 미치는 영향을 민감도 해석을 통해 조사하였다. 그리고, 기존의 국내 외 7개의 표준관입시험을 이용한 전단파속도 예측 경험식들과 인공신경망에 의한 결과를 비교하였다. 민감도 분석결과 표준관입시험 저항치의 영향이 월등히 큰 것으로 나타났으며, 모델효율계수와 평균제곱근오차를 사용하여 기존의 경험식들과 인공신경망 모델의 예측 능력을 비교한 결과 인공신경망 모델의 예측 결과가 가장 좋은 것으로 나타났다.

다기관 임상연구를 위한 인공지능 학습 플랫폼 구축 (Construction of Artificial Intelligence Training Platform for Multi-Center Clinical Research)

  • 이충섭;김지언;노시형;김태훈;윤권하;정창원
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권10호
    • /
    • pp.239-246
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문은 의료영상 표준인 R_CDM(Radiology Common Data Model)으로 변환하고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 기존 공통데이터모델(CDM : Common Data Model)과 연계에 중점을 두어 DICOM(Digital Imaging and Communications in Medicine) 태그정보를 기반으로 의료영상 표준 모델의 스키마와 다기관 연구를 위한 Report 정보를 포함하여 시스템을 모델링하였다. 이렇게 변환된 데이터 집합을 기반으로 인공지능 학습 플랫폼에서 수행 과정을 결과로 보인다. 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

다변량 기법을 이용한 혼합치열기 분석법 (Mixed dentition analysis using a multivariate approach)

  • 서승현;안홍석;이신재;임원희;김봉래
    • 대한치과교정학회지
    • /
    • 제39권2호
    • /
    • pp.112-119
    • /
    • 2009
  • 본 연구는 다변량 기법을 도입하여 치아 크기의 다양성을 고려하면서 정확성이 높은 혼합치 열기 분석법을 개발하기 위해 시행되었다. 견치 및 소구치 크기를 예측하는 데 이용된 변수는 상악 중절치, 상악 제1대구치, 하악 중절치, 하악 측절치 및 하악 제1대구치로서 총 5개 치아 크기 변수가 이용되었다. 우선 정상교합자 연구 표본 307명을 5개 치아 변수를 이용하여 k-means 군집 분석으로 치아 크기에 따라 나눈 후 판별식을 이용, 치아 크기가 큰 그룹과 작은 그룹으로 분류하였다. 이후 견치와 소구치 크기의 합을 예측하기 위하여 남녀별, 상하악별, 치아 크기 그룹별로 다중선형 분석을 이용하여 회귀식을 구했다. 검증 표본에는 504명의 부정교합자가 이용되었으며, 이들에 대하여 정상교합자로부터 도출된 판별식을 이용하여 2그룹으로 할당한 후 정상교합자로부터 도출된 회귀식을 이용하여 상악과 하악의 견치 및 소구치 크기 합을 예측하였다. 오차 분석 결과 정상교합자는 최대 0.71, 부정교합자 검증표본은 최대 0.82 mm의 residual standard deviation 값을 보였다. 부정교합 분류별, 치아 크기 패턴별로 예측 오차의 유의한 차이는 없었다. 1 mm 및 2 mm 이상의 예측 오차를 보인 빈도는 각각 17.3%와 1.8%였다. 본 연구 결과 도출된 혼합치열기 분석법은 기존의 연구들과 비교하여 그 정확성이 높은 것으로 고찰되었다. 다만, 임상 적용 시 복잡한 계산 과정으로 인하여 전산화 환경에서 더욱 유용할 것으로 생각된다.

일부 제련 및 리사지 사업장에서 공기중 납 노출농도의 변화 (The change of air lead concentrations in litharge making and smelting industries)

  • 최재욱;김남수;조광성;함정오;이병국
    • 한국산업보건학회지
    • /
    • 제20권1호
    • /
    • pp.10-18
    • /
    • 2010
  • To provide necessary information for future environmental monitoring of smelting and litharge making industries in Korea, environmental monitoring dataset of air lead concentration of 4 lead industries(1 primary smelting, 2 secondary smelting and 1 litharge making industry) were analyzed from 1994 to 2007. Data were compared using geometric mean and standard deviation with minimum and maximum values according to year of measurement, type of lead industries and type of operation of lead industries. The geometric mean and standard deviation of air concentration for a total of 1140 samples in all lead industries for overall 14 years were 70.7${\mu}g/m^3$ and 5.51 with minimum of 1${\mu}g/m^3$ and maximum of 9,185 ${\mu}g/m^3$. The overall geometric means of air concentration were above the permissible exposure levels(PEL) until year of 2001 and thereafter they were remained at the level of half of PEL. The geometric means of primary smelting, secondary smelting and litharge making industry for overall 14 years were 21.7${\mu}g/m^3$(number of samples: 353), 82.5${\mu}g/m^3$(number of samples: 357) and 164.2 ${\mu}g/m^3$(number of samples: 430) respectively. In primary smelting industry, the highest geometric mean air concentration was 35.4 ${\mu}g/m^3$ in the secondary smelting operation; followed by casting operation (24.9 ${\mu}g/m^3$) and melting operation (14.9 ${\mu}g/m^3$), respectively. On the other hand, in secondary smelting industries, the highest geometric mean air concentration was 125.4${\mu}g/m^3$ in melting operation; followed by casting operation (90.5${\mu}g/m^3$) and pre-treatment operation (43.4${\mu}g/m^3$), respectively. However, in litharge making industries, there were no significant differences of geometric mean air concentrations between litharge operation and stabilizer operation. The proportion of over PEL (50${\mu}g/m^3$) was highest in litharge industry and followed by secondary smelting industries. However The proportions of over PEL(${\mu}g./m^3.$) were decreased by the years of environmental monitoring. The significant reduction of mean air lead concentration since year of 2000 was observed due to more active environmental engineering control and new introduction of new operation in manufacturing process, but may be also influenced by non-engineering method such as reduction of operation hours or reduction of exposure time during actual environmental measurement by industrial hygienist according to more strict enforcement of occupational and safety law by the government.