• 제목/요약/키워드: unsupervised analysis

검색결과 313건 처리시간 0.023초

자율 학습을 이용한 선형 정렬 말뭉치 구축 (Construction of Linearly Aliened Corpus Using Unsupervised Learning)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.387-394
    • /
    • 2004
  • 본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

Development of an unsupervised learning-based ESG evaluation process for Korean public institutions without label annotation

  • Do Hyeok Yoo;SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.155-164
    • /
    • 2024
  • 본 연구는 ESG 등급이 제공되지 않는 국내 공공기관의 ESG 등급을 추정하는 비지도 학습 기반 군집모형을 제안한다. 이를 위해, 스펙트럼 군집과 k-means 군집에서 최적의 클러스터 수를 비교했고, 그 결과의 신뢰성을 보장하기 위해 성능지표인 Davies-Bouldin Index (DBI)를 계산했다. 결과적으로, 스펙트럼 군집과 k-means 군집에서 각각 0.734 및 1.715의 DBI 값을 산출했는데, 이는 값이 작을수록 우수한 성능을 의미하므로 스펙트럼 군집의 우수성을 확인하였다. 게다가, T-검정 및 ANOVA를 이용하여 ESG 비재무 데이터 간 통계적으로 유의미한 차이를 밝혀내고, 상관계수를 이용하여 ESG 항목 간 상관관계를 확인했다. 본 연구는 이러한 결과를 바탕으로 기존 ESG 등급 없이 공공기관별 ESG 성과 순위를 추정할 가능성을 제시한다. 이는 최적의 클러스터 수를 계산한 다음, 각 클러스터 내 ESG 데이터의 평균 총합을 결정함으로써 달성된다. 따라서, 제안된 모델은 다양한 국내 공공기관의 ESG 등급을 평가하는 근거로 활용될 수 있고, 국내 지속가능경영 실천과 성과관리에 유용할 것으로 기대된다.

Research Trends Analysis on ESG Using Unsupervised Learning

  • Woo-Ryeong YANG;Hoe-Chang YANG
    • 융합경영연구
    • /
    • 제11권3호
    • /
    • pp.47-66
    • /
    • 2023
  • Purpose: The purpose of this study is to identify research trends related to ESG by domestic and overseas researchers so far, and to present research directions and clues for the possibility of applying ESG to Korean companies in the future and ESG practice through comparison of derived topics. Research design, data and methodology: In this study, as of October 20, 2022, after searching for the keyword 'ESG' in 'scienceON', 341 domestic papers with English abstracts and 1,173 overseas papers were extracted. For analysis, word frequency analysis, word co-occurrence frequency analysis, BERTopic, LDA, and OLS regression analysis were performed to confirm trends for each topic using Python 3.7. Results: As a result of word frequency analysis, It was found that words such as management, company, performance, and value were commonly used in both domestic and overseas papers. In domestic papers, words such as activity and responsibility, and in overseas papers, words such as sustainability, impact, and development were included in the top 20 words. As a result of analyzing the co-occurrence frequency of words, it was confirmed that domestic papers were related mainly to words such as company, management, and activity, and overseas papers were related to words such as investment, sustainability, and performance. As a result of topic modeling, 3 topics such as named ESG from the corporate perspective were derived for domestic papers, and a total of 7 topics such as named sustainable investment for overseas papers were derived. As a result of the annual trend analysis, each topic did not show a relatively increasing or decreasing tendency, confirming that all topics were neutral. Conclusions: The results of this study confirmed that although it is desirable that domestic papers have recently started research on consumers, the subject diversity is lower than that of overseas papers. Therefore, it is suggested that future research needs to approach various topics such as forecasting future risks related to ESG and corporate evaluation methods.

Regime 탐지 분석을 이용한 동적 자산 배분 기법 (Dynamic Asset Allocation by Applying Regime Detection Analysis)

  • 김우창
    • 대한산업공학회지
    • /
    • 제38권4호
    • /
    • pp.258-261
    • /
    • 2012
  • In this paper, I propose a new asset allocation framework to cope with the dynamic nature of the financial market. The investment performance can be much improved by protecting the capital from the market crashes, and such crashes can be pre-identified with high probabilities by regime detection analysis via a specialized unsupervised machine learning technique.

독립성분분석에 의한 복합특징 형성 (Complex Features by Independent Component Analysis)

  • 오상훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 춘계종합학술대회논문집
    • /
    • pp.351-355
    • /
    • 2003
  • 포유류 동물의 시각피질 세포에 나타나는 특징은 크게 단순특징을 추출하는 simple cell과 복잡한 특징에 반응하는 complex cell로 구분된다. 이 연구에서는 입력영상에 독립성분분석을 적응하여 complex cell에 대응하는 복잡한 특징을 추출하였다. 이 결과는 시각피질 세포의 정보처리에 대한 방식을 이해하는 데 기여할 것이다.

  • PDF

인용분석에서의 모호한 저자명 식별을 위한 방법들에 관한 고찰 (Review of Author Name Disambiguation Techniques for Citation Analysis)

  • 김현정
    • 한국비블리아학회지
    • /
    • 제23권3호
    • /
    • pp.5-17
    • /
    • 2012
  • 서지 데이터베이스를 이용한 인용분석연구를 진행하기 이전에 이루어져야 할 과정 중 하나가 모호한 저자명의 식별이라고 할 수 있다. 대부분 서지 데이터베이스에는 저자의 성(姓)과 이름의 이니셜만을 표기하는 경우가 많은데, 중국이나 한국 등 아시아 국가 출신의 연구자들은 같은 성을 가진 사람이 매우 많고, 이름의 이니셜까지 같은 경우도 상당히 많아서 이름검색만으로 찾고자 하는 저자를 식별해내기가 쉽지 않기 때문이다. 아시아 국가 출신의 학자들이 유난히 많은 연구분야들에서는 이러한 문제들이 더더욱 큰 문제가 되며, 인용분석 뿐만 아니라 일반적인 정보검색에서도 매우 중요한 요인이 될 수 있다. 모호한 저자명을 식별해내는 방법에는 자동화된 알고리듬을 이용하여 각각의 저자를 식별해내는 방법과 저자 클러스터링을 얻어내기 위해 일일이 수작업으로 데이터셋을 구축하는 방법, 그리고 두 가지 방법을 혼용한 반자동화된 방법 등이 있다. 본 연구는 "모호한 저자명 식별"을 위해 개발된 여러 가지 방법들을 고찰해보기로 한다.

실시간 침입탐지를 위한 자기 조직화 지도(SOM)기반 트래픽 속성 상관관계 메커니즘 (Traffic Attributes Correlation Mechanism based on Self-Organizing Maps for Real-Time Intrusion Detection)

  • 황경애;오하영;임지영;채기준;나중찬
    • 정보처리학회논문지C
    • /
    • 제12C권5호
    • /
    • pp.649-658
    • /
    • 2005
  • 네트워크 기반의 공격은 그 위험성과 피해의 규모가 크기 때문에 공격 초기에 빨리 탐지하는 것이 중요하다. 그러나 지도학습 데이터 마이닝을 이용한 네트워크상의 비정상 트래픽을 탐지하는 방법은 방대한 양의 데이터 전처리와 관리자의 분석이 요구되며 관리자의 분석이 정확하다는 보장이 없을 뿐만 아니라 각 네트워크의 실시간 특성을 고려하지 못하기 때문에 탐지의 어려움이 크다. 본 논문에서는 실시간 침입 탐지와 점진적 학습을 위해 비지도학습의 데이터마이닝 기법중 하나인 자기 조직화 지도를 기반으로 트래픽 속성 상관관계 메커니즘을 제안한다. 이는 세 단계로 이루어진다. 첫 번째 단계는 초기 학습이 이루어지는 단계로 비지도 학습을 통하여 성격이 비슷한 트래픽끼리 클러스터링 한 맵을 생성시킨다. 두 번째 단계는 맵의 각 클러스터가 정상과 비정상 트래픽의 클러스터로 구분되기 위해 각 공격별로 추출된 규칙(rule)을 적용하여 맵을 분석한다. 이 규칙은 지도 학습을 통한 규칙 기반의 방법으로, 각 데이터 항목마다 SOM을 이용한 속성별 맵의 상관관계(correlation) 분석을 통해 생성되었다. 마지막으로 분석된 맵을 이용하여 실시간 탐지와 함께 점진적 학습이 이루어지게 된다. 여러 실험을 통하여 비지도 학습과 지도 학습을 결합한 SOM 기반 트래픽 속성 상관관계 메커니즘이 지도 학습에 비해 실시간 탐지에 우수함을 증명하였다.

자연공원 용도지구 설정을 위한 환경공간정보와 SOM(Self-Organizing map)을 활용한 지역 특성 도출 - 태안해안국립공원을 대상으로 - (Deduction of regional characteristics using environmental spatial information and SOM (Self-Organizing map) for natural park zoning - Focused on Taeanhaean National Park -)

  • 이성희;손용훈
    • 한국환경복원기술학회지
    • /
    • 제26권3호
    • /
    • pp.1-17
    • /
    • 2023
  • Korea's natural parks are managed by dividing them into four use districts: nature preservation district, natural environment district, cultural heritage district, and park village district within the park under the goal of 'conservation and sustainable use of natural parks'. However, the use districts divided in this way are designated by reflecting the results derived from the simple drawing overlapping method, and there is a limit in that objective and scientific evidence for this is insufficient. In addition, in Taeanhaean National Park, the case of this study, only a very small area of less than 1% of the nature preservation district is designated, and the natural environment district that serves as a buffer space is designated on an excessively wide scale, making it difficult to efficiently manage the national park. Therefore, the use district is not fulfilling its role. In this study, the purpose of this study was to present a method for analyzing the spatial characteristics of natural parks using environmental indicators and unsupervised learning analysis methods to set the use districts of natural parks. In this study, evaluation indicators that can evaluate the natural and human environments were derived, and the distribution patterns for each indicator were analyzed. Afterwards, by applying Self-Organizing Map (SOM) analysis, one of the unsupervised learning analysis methods, districts with similar characteristics were derived in Taeanhaean National Park, and the characteristics of each district were analyzed. As a result of the study, 7 districts with different characteristics were derived in Taeanhaean National Park, and by examining the contribution of each indicator together, it was possible to reveal that each district had different representative characteristics even though it was an adjacent area. This study evaluated natural parks by comprehensively considering the indicators of the natural and human environments. In addition, the SOM method used in the study is meaningful in that it can provide scientific and objective grounds for the existing zoning and apply it to the management plan.

ITPCA 기반의 무감독 변화탐지 기법을 이용한 산림황폐화 분석 (Deforestation Analysis Using Unsupervised Change Detection Based on ITPCA)

  • 최재완;박홍련;박녕희;한수희;송정헌
    • 대한원격탐사학회지
    • /
    • 제33권6_3호
    • /
    • pp.1233-1242
    • /
    • 2017
  • 본 연구에서는 KOMPSAT 위성영상을 활용하여 산불에 의한 산림황폐화 발생 지역을 탐지하고자 하였다. 산림황폐화 분석을 위하여 다시기 위성영상에 무감독 변화탐지 기법을 적용하고자 하였다. 산불 전후에 대한 다시기 영상으로부터 생성한 NDVI(Normalized Difference Vegetation Index)에 ITPCA(ITerative Principal Component Analysis)를 적용하여 산림황폐화에 의하여 발생한 변화지역을 추출하였다. 또한, SRTM(Shuttle Radar Topographic Mission)자료를 이용한 후처리 기법을 통하여 오탐지를 최소화하고자 하였다. KOMPSAT-2, 3 영상을 이용한 실험결과, 해당 지역 내에 존재하는 산림황폐화 지역을 효과적으로 추출할 수 있음을 확인하였다.

시스템 결함 분석을 위한 이벤트 로그 연관성에 관한 연구 (Correlation Analysis of Event Logs for System Fault Detection)

  • 박주원;김은혜;염재근;김성호
    • 산업경영시스템학회지
    • /
    • 제39권2호
    • /
    • pp.129-137
    • /
    • 2016
  • To identify the cause of the error and maintain the health of system, an administrator usually analyzes event log data since it contains useful information to infer the cause of the error. However, because today's systems are huge and complex, it is almost impossible for administrators to manually analyze event log files to identify the cause of an error. In particular, as OpenStack, which is being widely used as cloud management system, operates with various service modules being linked to multiple servers, it is hard to access each node and analyze event log messages for each service module in the case of an error. For this, in this paper, we propose a novel message-based log analysis method that enables the administrator to find the cause of an error quickly. Specifically, the proposed method 1) consolidates event log data generated from system level and application service level, 2) clusters the consolidated data based on messages, and 3) analyzes interrelations among message groups in order to promptly identify the cause of a system error. This study has great significance in the following three aspects. First, the root cause of the error can be identified by collecting event logs of both system level and application service level and analyzing interrelations among the logs. Second, administrators do not need to classify messages for training since unsupervised learning of event log messages is applied. Third, using Dynamic Time Warping, an algorithm for measuring similarity of dynamic patterns over time increases accuracy of analysis on patterns generated from distributed system in which time synchronization is not exactly consistent.