• Title/Summary/Keyword: 데이터 부족 문제

Search Result 553, Processing Time 0.032 seconds

Detecting Common Weakness Enumeration(CWE) Based on the Transfer Learning of CodeBERT Model (CodeBERT 모델의 전이 학습 기반 코드 공통 취약점 탐색)

  • Chansol Park;So Young Moon;R. Young Chul Kim
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.10
    • /
    • pp.431-436
    • /
    • 2023
  • Recently the incorporation of artificial intelligence approaches in the field of software engineering has been one of the big topics. In the world, there are actively studying in two directions: 1) software engineering for artificial intelligence and 2) artificial intelligence for software engineering. We attempt to apply artificial intelligence to software engineering to identify and refactor bad code module areas. To learn the patterns of bad code elements well, we must have many datasets with bad code elements labeled correctly for artificial intelligence in this task. The current problems have insufficient datasets for learning and can not guarantee the accuracy of the datasets that we collected. To solve this problem, when collecting code data, bad code data is collected only for code module areas with high-complexity, not the entire code. We propose a method for exploring common weakness enumeration by learning the collected dataset based on transfer learning of the CodeBERT model. The CodeBERT model learns the corresponding dataset more about common weakness patterns in code. With this approach, we expect to identify common weakness patterns more accurately better than one in traditional software engineering.

Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM (딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증)

  • Cha, Sungjae;Kang, Jungseok
    • Journal of Intelligence and Information Systems
    • /
    • v.24 no.4
    • /
    • pp.1-32
    • /
    • 2018
  • In addition to stakeholders including managers, employees, creditors, and investors of bankrupt companies, corporate defaults have a ripple effect on the local and national economy. Before the Asian financial crisis, the Korean government only analyzed SMEs and tried to improve the forecasting power of a default prediction model, rather than developing various corporate default models. As a result, even large corporations called 'chaebol enterprises' become bankrupt. Even after that, the analysis of past corporate defaults has been focused on specific variables, and when the government restructured immediately after the global financial crisis, they only focused on certain main variables such as 'debt ratio'. A multifaceted study of corporate default prediction models is essential to ensure diverse interests, to avoid situations like the 'Lehman Brothers Case' of the global financial crisis, to avoid total collapse in a single moment. The key variables used in corporate defaults vary over time. This is confirmed by Beaver (1967, 1968) and Altman's (1968) analysis that Deakins'(1972) study shows that the major factors affecting corporate failure have changed. In Grice's (2001) study, the importance of predictive variables was also found through Zmijewski's (1984) and Ohlson's (1980) models. However, the studies that have been carried out in the past use static models. Most of them do not consider the changes that occur in the course of time. Therefore, in order to construct consistent prediction models, it is necessary to compensate the time-dependent bias by means of a time series analysis algorithm reflecting dynamic change. Based on the global financial crisis, which has had a significant impact on Korea, this study is conducted using 10 years of annual corporate data from 2000 to 2009. Data are divided into training data, validation data, and test data respectively, and are divided into 7, 2, and 1 years respectively. In order to construct a consistent bankruptcy model in the flow of time change, we first train a time series deep learning algorithm model using the data before the financial crisis (2000~2006). The parameter tuning of the existing model and the deep learning time series algorithm is conducted with validation data including the financial crisis period (2007~2008). As a result, we construct a model that shows similar pattern to the results of the learning data and shows excellent prediction power. After that, each bankruptcy prediction model is restructured by integrating the learning data and validation data again (2000 ~ 2008), applying the optimal parameters as in the previous validation. Finally, each corporate default prediction model is evaluated and compared using test data (2009) based on the trained models over nine years. Then, the usefulness of the corporate default prediction model based on the deep learning time series algorithm is proved. In addition, by adding the Lasso regression analysis to the existing methods (multiple discriminant analysis, logit model) which select the variables, it is proved that the deep learning time series algorithm model based on the three bundles of variables is useful for robust corporate default prediction. The definition of bankruptcy used is the same as that of Lee (2015). Independent variables include financial information such as financial ratios used in previous studies. Multivariate discriminant analysis, logit model, and Lasso regression model are used to select the optimal variable group. The influence of the Multivariate discriminant analysis model proposed by Altman (1968), the Logit model proposed by Ohlson (1980), the non-time series machine learning algorithms, and the deep learning time series algorithms are compared. In the case of corporate data, there are limitations of 'nonlinear variables', 'multi-collinearity' of variables, and 'lack of data'. While the logit model is nonlinear, the Lasso regression model solves the multi-collinearity problem, and the deep learning time series algorithm using the variable data generation method complements the lack of data. Big Data Technology, a leading technology in the future, is moving from simple human analysis, to automated AI analysis, and finally towards future intertwined AI applications. Although the study of the corporate default prediction model using the time series algorithm is still in its early stages, deep learning algorithm is much faster than regression analysis at corporate default prediction modeling. Also, it is more effective on prediction power. Through the Fourth Industrial Revolution, the current government and other overseas governments are working hard to integrate the system in everyday life of their nation and society. Yet the field of deep learning time series research for the financial industry is still insufficient. This is an initial study on deep learning time series algorithm analysis of corporate defaults. Therefore it is hoped that it will be used as a comparative analysis data for non-specialists who start a study combining financial data and deep learning time series algorithm.

The Model of Network Packet Analysis based on Big Data (빅 데이터 기반의 네트워크 패킷 분석 모델)

  • Choi, Bomin;Kong, Jong-Hwan;Han, Myung-Mook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.23 no.5
    • /
    • pp.392-399
    • /
    • 2013
  • Due to the development of IT technology and the information age, a dependency of the network over the most of our lives have grown to a greater extent. Although it provides us to get various useful information and service, it also has negative effectiveness that can provide network intruder with vulnerable roots. In other words, we need to urgently cope with theses serious security problem causing service disableness or system connected to network obstacle with exploiting various packet information. Many experts in a field of security are making an effort to develop the various security solutions to respond against these threats, but existing solutions have a lot of problems such as lack of storage capacity and performance degradation along with the massive increase of packet data volume. Therefore we propose the packet analysis model to apply issuing Big Data technology in the field of security. That is, we used NoSQL which is technology of massive data storage to collect the packet data growing massive and implemented the packet analysis model based on K-means clustering using MapReudce which is distributed programming framework, and then we have shown its high performance by experimenting.

A Study on Mobile SFA System Prototyping Using P2P LBS Service (P2P LBS를 활용한 모바일 영업자동화(SFA) 시스템에 관한 연구)

  • 박기호;정재곤;황명화
    • Spatial Information Research
    • /
    • v.11 no.1
    • /
    • pp.61-72
    • /
    • 2003
  • LBS has attracted considerable attention with the spread of high performance mobile devices and the expansion of mobile business. Our study starts from the recognition of the problems associated with the current mobile Sales Force Automation(SFA) which is one of the application domain of LBS: they lack the capabilities such as an efficient sharing of information. This paper presents a technical framework in which the location information on the move and the mobile P2P service are utilized for the realization of truly mobile SF A platforms. Major contributions of our study include feasible prototyping of gCRM middleware via which the location-based services on the move are enabled, and a agent module involving the P2P service for mobile clients.

  • PDF

An Intelligent Multi-Agent using Platform for HealthCare Service (멀티 에이전트를 이용한 헬스케어 시스템)

  • Kang Eun-Young;Kim Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2006.05a
    • /
    • pp.1467-1470
    • /
    • 2006
  • 유비쿼터스 환경중 상황에 따라 필요한 행위를 컴퓨터가 수행하여 사용자 각각의 특성에 따라 서비스를 할 수 있는 가장 좋은 것이 헬스케어 분야이다. 기존 헬스케어 시스템은 클라이언트/서버 환경으로 많은 환자들의 생체 신호 데이터가 실시간으로 서버로 전송될 때 서버의 일정 수용 한계를 넘어서게 되어 심한 경우 서버가 다운되는 현상이 발생할 수 있다. 이는 긴급한 환자의 처리에 대처하지 못하는 심각한 상황을 초래 할 수 있다. 또한 생체 신호를 보내는 모바일 디바이스의 자체적으로 지원되는 자원 부족으로 환자와 병원 중앙 서버와의 원활한 커뮤니케이션의 제공을 보장하지 못하는 단점도 있다. 이런 문제점을 해결하기 위하여 본 논문에서는 중간에서 환자와 병원사이의 중간 역할을 하는 써로게이트 시스템과 멀티 에이전트 시스템을 제안한다. 멀티에이전트 시스템은 중앙집중적 부하를 줄이고 유연성 있고 복잡한 처리가 가능하도록 한다. 이는 하나의 에이전트로 해결하지 못하는 복잡한 문제의 해결을 여러 에이전트의 협동을 통해 작업을 수행한다. 이를 위해서 본 논문에서는 JADE 를 기반으로 하는 에이전트 기술을 적용하였다. 모바일 디바이스에 인가되지 않은 접근을 막기 위한 수단으로서, 모든 메시지는 써로게이트를 통해 전달된다. 또한 써로게이트를 통해 로컬 및 원격의 에이전트를 쉽게 다룰 수 있다

  • PDF

Analysis of the Effects of Competition, Self-esteem, and Conscientiousness on Knowledge Sharing: A Social Network Approach

  • Heo, Yong-Seok;Mun, Tae-Seong;Yun, Ji-Yeong;Lee, Hui-Seok
    • 한국경영정보학회:학술대회논문집
    • /
    • 2008.06a
    • /
    • pp.903-908
    • /
    • 2008
  • 지식 정보화 사회에서 지식경영의 중요성이 부각되면서, 학계의 다양한 연구와 기업의 의욕적인 투자가 진행되어 왔다. 그러나 지식경영과 관련된 기존 연구들은 다음의 한계점을 드러내고 있다. 즉 기존의 연구는 조직 내 구성원의 관계와 같은 구조적인 부분에 한정되어 지식경영의 주체인 개인의 개성(personality)에 대한 고려가 부족하고, 또한 구성원들의 동기를 고취시키기 위해 경쟁을 유도하는 환경이 지식공유에 주는 부정적인 영향을 간과하고 있다. 따라서 본 논문은 첫째, '개인간의 관계를 바탕으로 한 지식 공유에 있어서 자존감(Self-esteem)과 성취지향성(Conscientiousness)이 어떠한 영향을 주는가?', 둘째, '경쟁을 장려하는 것이 지식공유에 도움이 되는가?' 라는 문제에 초점을 맞추고 있다. 본 연구에서 KAIST 테크노경영대학원의 특정 수업의 수강생 32명을 대상으로 쌍방관계 데이터(dyadic relational data)를 수집하여 다중회귀분석(multiple regression Analysis)을 수행한 결과, 자존감은 개인간의 지식공유에 음의 조절변수(negative moderator)로 작용할 것이라는 가설이 지지되었고, 성취지향성은 개인간의 지식공유에 있어서 양의 조절변수(positive moderator)로 작용할 것이라는 가설은 지지되지 않았다. 마지막으로 조직 내의 경쟁이 심화될수록 개인간의 지식공유는 감소할 것이라는 가설은 지지되었다. 본 연구는 기존의 연구들과는 달리, 자존감이 높은 인재에 대한 보다 새로운 시각이 필요하다는 점과 경쟁을 장려하는 지식 경영 방법론에 대한 재고가 필요하다는 것을 실증적으로 보여주고 있다.

  • PDF

Evaluation of Engineering Properties of CLSM using Weathered Granite Soils (화강풍화토를 이용한 CLSM의 공학적 특성평가)

  • Lim, Yu-Jin;Seo, Chang-Beom
    • Journal of the Korean Society of Hazard Mitigation
    • /
    • v.9 no.3
    • /
    • pp.19-26
    • /
    • 2009
  • In this study, flowable backfill made with weathered granite soil is tested to provide basic engineering properties that can be used as design input to overcome settlement problems in road pavement due to low stiffness of backfill which is generated by porosity of the soil. For design purpose, a proper mixing ratio is developed first. Then several test methods including FF/RC, PMT and LDWT including axial compression test are adapted for checking stiffness and measuring axial strength of the material separately that can be used for design values.

A Method for Ranking Candidate Parse Trees using Weighted Dependency Relation (가중치를 가지는 의존관계를 이용한 구문분석 후보의 순위화 방법)

  • Ryu, Jaemin;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.924-927
    • /
    • 2017
  • 통계 모형에 기반을 둔 구문분석기는 자료 부족 문제에 취약하거나 장거리 의존관계와 같은 특정 언어현상에 대한 처리가 어렵다는 단점이 있다. 이러한 한계점을 극복하고자 본 연구진은 규칙에 기반을 둔 한국어 구문분석기를 개발하고 있다. 다른 구문 분석기와 다르게 형태소 단위 구문분석을 시도하며 생성 가능한 모든 구문분석 후보를 보여주는 것이 특징이다. 본 연구진의 기존 연구에서 개발한 한국어 구문분석기는 형태소의 입력순서와 구문분석 후보의 생성 순서에 의존하여 구문분석 후보를 순서화하였다. 그러나 생성되는 구문분석 후보 중 가장 정답에 가까운 구문분석 후보의 순위를 낮추기 위해서는 각 구문분석 트리가 특정한 점수를 가질 필요가 있다. 본 논문에서는 품사 태거(tagger)에서 출력하는 어절별 형태소의 순위에 따른 가중치, 수식 거리에 따른 가중치, 특정한 지배-의존 관계에 대한 가중치를 이용해 가중치 합을 가지는 구문분석 후보를 구성하고 이를 정렬하여 이전 연구보다 향상된 성능을 가진 한국어 구문분석기 모델을 제안한다. 실험은 본 연구진이 직접 구축한 평가데이터를 기반으로 진행하였으며 기존의 Unlabeled Attachment Score(UAS) 87.86%에서 제안 모델의 UAS 93.34%로 약 5.48의 성능향상을 확인할 수 있었다.

Audio and Image based Emotion Recognition Framework on Real-time Video Streaming (실시간 동영상 스트리밍 환경에서 오디오 및 영상기반 감정인식 프레임워크)

  • Bang, Jaehun;Lim, Ho Jun;Lee, Sungyoung
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.1108-1111
    • /
    • 2017
  • 최근 감정인식 기술은 다양한 IoT 센서 디바이스의 등장으로 단일 소스기반의 감정인식 기술 연구에서 멀티모달 센서기반 감정인식 연구로 변화하고 있으며, 특히 오디오와 영상을 이용한 감정인식 기술의 연구가 활발하게 진행되는 있다. 기존의 오디오 및 영상기반 감정신 연구는 두 개의 센서 테이터를 동시에 입력 저장한 오픈 데이터베이스를 활용하여 다른 이벤트 처리 없이 각각의 데이터에서 특징을 추출하고 하나의 분류기를 통해 감정을 인식한다. 이러한 기법은 사람이 말하지 않는 구간, 얼굴이 보이지 않는 구간의 이벤트 정보처리에 대한 대처가 떨어지고 두 개의 정보를 종합하여 하나의 감정도 도출하는 디시전 레벨의 퓨저닝 연구가 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 오디오 및 영상에 내포되어 있는 이벤트 정보를 추출하고 오디오 및 영상 기반의 분리된 인지모듈을 통해 감정들을 인식하며, 도출된 감정들을 시간단위로 통합하여 디시전 퓨전하는 실시간 오디오 및 영상기반의 감정인식 프레임워크를 제안한다.

A Study on a Leakage Sensing Pipe and Monitoring System Using TDR in GIS (GIS상에서 TDR을 사용한 누수감지관과 모니터링 시스템에 관한 연구)

  • 강병모;홍인식
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.4
    • /
    • pp.567-578
    • /
    • 2004
  • GIS technique enhanced a space data manipulation ability and we are offering a geographic information service through various analysis. The quantity used of the water was increased in such situation according to a population increase and a city concentration phenomenon. But, to secure clear water are difficult, owing to the water shortage phenomenon, seepage and the quality of water change for worse. We decide the seepage and the system to retrieve the seepage location using GIS in order to reduce vast loss from the seepage. In this paper we proposed Leakage Sensing System using TDR technology in GIS, constructed a GIS database and pilot system to prove the validity, and simulated it using TDR in GIS.

  • PDF