• 제목/요약/키워드: records automatic classification

검색결과 17건 처리시간 0.024초

맥락정보를 이용한 기록 자동분류시스템 설계 (Design of Automatic Records Classification System Using Contextual Information)

  • 장지숙;이해영
    • 한국기록관리학회지
    • /
    • 제9권1호
    • /
    • pp.151-173
    • /
    • 2009
  • 기록학에서의 분류는 기록 자체의 내용보다는 기록이 생산되고 활용되는 맥락에 초점을 둔다. 본 연구에서는 업무활동이 반영된 기록을 업무활동 분석에 기반하여 구축된 분류체계에, 개별 기록의 내용이 아닌 기록의 집합적 맥락을 중심으로 자동분류 할 수 있는 기록 자동분류시스템을 설계하였다. 기 분류된 기록집합체뿐 아니라 분류체계와 시소러스를 분류기준으로 같이 구축하여 상호보완 할 수 있도록 설계하였으며, 분류대상기록의 범주를 할당한 후 바로, 분류된 기록의 맥락정보를 실시간으로 분류기준에 반영할 수 있는 방안도 포함하였다. 설계된 기록 자동분류시스템은 맥락정보의 품질에 따라 시스템의 성능이 좌우되는 한계가 있지만, 이를 통해 맥락정보를 제대로 충실하게 남길 수 있도록 유도하는 역할을 할 수 있다고 판단되었다.

메타데이터를 활용한 기록물 자동분류 성능 요소 비교 (Comparison of Performance Factors for Automatic Classification of Records Utilizing Metadata)

  • 김영범;장우권
    • 정보관리학회지
    • /
    • 제40권3호
    • /
    • pp.99-118
    • /
    • 2023
  • 이 연구의 목적은 기록물의 맥락정보를 담고 있는 메타데이터를 활용하여 기록물 자동분류 과정에서의 성능요소를 파악하는데 있다. 연구를 위해 2022년 중앙행정기관 원문정보 약 97,064건을 수집하였다.수집한 데이터를 대상으로 다양한 분류 알고리즘과 데이터선정방법, 문헌표현기법을 적용하고 그 결과를 비교하여 기록물 자동 분류를 위한 최적의 성능요소를 파악하고자 하였다. 연구 결과 분류 알고리즘으로는 Random Forest가, 문헌표현기법으로는 TF 기법이 가장 높은 성능을 보였으며, 단위과제의 최소데이터 수량은 성능에 미치는 영향이 미미하였고 자질은 성능변화에 명확한 영향을 미친다는 것이 확인되었다.

기계학습을 이용한 기록 텍스트 자동분류 사례 연구 (A Study on Automatic Classification of Record Text Using Machine Learning)

  • 김해찬솔;안대진;임진희;이해영
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.321-344
    • /
    • 2017
  • 기록이나 문헌의 자동분류에 관한 연구는 오래 전부터 시작되었다. 최근에는 인공지능 기술이 발전하면서 기계학습이나 딥러닝을 접목한 연구로 발전되고 있다. 이 연구에서는 우선 문헌의 자동분류와 인공지능의 학습방식이 발전해 온 과정을 살펴보았다. 또 기계학습 중 특히 지도학습 방식의 특징과 다양한 사례를 통해 기록관리 분야에 인공지능 기술을 적용해야 할 필요성에 대해 알아보았다. 그리고 실제로 지도학습 방식으로 서울시의 결재문서를 ETRI의 엑소브레인을 통해 정부기능분류체계로 자동분류해 보았다. 이를 통해 기록을 다양한 방식의 분류체계로 자동분류하기 위한 각 과정의 고려사항을 도출하였다.

A Comparative Study of Medical Data Classification Methods Based on Decision Tree and System Reconstruction Analysis

  • Tang, Tzung-I;Zheng, Gang;Huang, Yalou;Shu, Guangfu;Wang, Pengtao
    • Industrial Engineering and Management Systems
    • /
    • 제4권1호
    • /
    • pp.102-108
    • /
    • 2005
  • This paper studies medical data classification methods, comparing decision tree and system reconstruction analysis as applied to heart disease medical data mining. The data we study is collected from patients with coronary heart disease. It has 1,723 records of 71 attributes each. We use the system-reconstruction method to weight it. We use decision tree algorithms, such as induction of decision trees (ID3), classification and regression tree (C4.5), classification and regression tree (CART), Chi-square automatic interaction detector (CHAID), and exhausted CHAID. We use the results to compare the correction rate, leaf number, and tree depth of different decision-tree algorithms. According to the experiments, we know that weighted data can improve the correction rate of coronary heart disease data but has little effect on the tree depth and leaf number.

이관 기록물 분류 자동화를 위한 목록 기반 이상치 판별 학습데이터 구축 (Building the Outlier Candidate Discrimination Training Data based on Inventory for Automatic Classification of Transferred Records)

  • 정지혜;이젬마;왕호성;오효정
    • 한국기록관리학회지
    • /
    • 제22권1호
    • /
    • pp.43-59
    • /
    • 2022
  • 전자적으로 생산된 공공기록물은 생산과 동시에 편철되고 보존기간이 부여되며 일정기간이 지나면 영구기록물관리기관으로 이관되어 보존된다. 이관 시 기록물관리 담당자가 기록물 분류정보를 확인하고 품질을 일정 수준으로 유지토록 해야 하지만, 이관된 기록물의 분류는 기록물 정리/기술 업무로 편성되어 있고, 대부분의 정리/기술 업무는 수작업에 의존하고 있어 당해 연도에 처리해야 할 기록물 수량을 맞추기 어려운 실정이다. 이에 본 연구는 이관 기록물 분류 업무의 효율화와 일관된 기준을 유지하기 위한 방안을 제안하고자 한다. 이를 위해 먼저 국가기록원에서 수행하고 있는 현행의 기록분류 업무 프로세스를 분석하고 개선 요구사항을 수렴하여 분류 업무의 수작업을 최소화하기 위한 방안으로 이관된 기록물의 편철 정보, 즉 목록에 기반한 분류 이상치 후보를 판별하는 과정을 도출·체계화하였다. 나아가 제안한 이상치 판별 프로세스를 실제 국가기록원으로 이관된 기록물을 대상으로 적용하고, 그 결과를 규격화하여 추후 기계학습에 활용 가능한 학습데이터 형식으로 구축하였다. 본 연구의 궁극적인 목적은 지능형 전자기록 관리 환경 구축을 위한 사전 단계로, 기록관리 업무 내 기계학습 기법이 적용 가능한 문제 유형을 선별하고 자동화하는 방안을 모색하고자 한다.

미국의 비밀기록관리제도에 관한 연구 -대통령의 행정명령(EO)을 중심으로- (A Study on the System of Confidential Record Management of the USA)

  • 김근태
    • 기록학연구
    • /
    • 제59호
    • /
    • pp.159-206
    • /
    • 2019
  • 본 연구는 국가비밀의 보호와 함께 비밀기록에 대한 국민의 알 권리를 제도적으로 보장하기 위하여 발전해 온 미국 대통령의 행정명령(Executive Order)을 내용 분석하여, 우리나라 비밀기록관리제도 발전에 필요한 시사점을 제시하고자 한다. 이를 위해 비밀분류, 비밀보호, 비밀해제 측면에서 비밀기록관리와 관련된 역대 대통령의 행정명령(EO)을 살펴보았다. 내용분석 결과 대통령의 행정명령(EO)은 국가비밀을 보호하기 위해서 특별 열람 프로그램, 자동 비밀해제의 면제 및 유예제도, 벌칙을 신설 및 규정하고 있었으며, 국민의 알 권리를 보장하기 위해서는 비밀분류권자 지정제도, 자동 비밀해제 및 의무적 비밀해제 심사제도, 역사연구자와 전직 공무원을 대상으로 한 열람절차를 신설, 규정하고 있었다. 이를 통해 도출한 우리나라 비밀기록관리제도 발전에 주는 시사점은 다음과 같다. 첫째, 국가정보원장 중심의 비밀기록관리 체계를 대통령 중심의 비밀기록관리 체계로 개편해야 한다. 둘째, 비밀기록관리를 전문으로 하는 개별법을 제정할 필요가 있다. 셋째, 통일적인 비밀기록관리 및 상시 감독을 위해 상설 비밀기록관리 감독 기구를 신설해야 한다. 넷째, 비밀기록 생산기관의 오남용에 의한 비밀분류를 정정하기 위해 공신력 있는 외부기관에 의한 비밀분류 재심사절차를 마련해야 한다.

BERT 모형을 이용한 주제명 자동 분류 연구 (A Study on Automatic Classification of Subject Headings Using BERT Model)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제57권2호
    • /
    • pp.435-452
    • /
    • 2023
  • 이 연구는 딥러닝 기법의 전이학습 모형인 BERT를 이용하여 주제명의 자동 분류를 실험하고 그 성능을 평가하였으며, 더 나아가 주제명이 부여된 KDC 분류체계와 주제명의 범주 유형에 따른 성능을 분석하였다. 실험 데이터는 국가서지를 이용하여 주제명의 부여 횟수에 따라 6개의 데이터셋을 구축하고 분류 자질로 서명을 이용하였다. 그 결과, 분류 성능으로 3,506개의 주제명이 포함된 데이터셋(레코드 1,539,076건)에서 마이크로 F1과 매크로 F1 척도가 각각 0.6059와 0.5626 값을 보였다. 또한 KDC 분류체계에 따른 분류 성능은 총류, 자연과학, 기술과학, 그리고 언어 분야에서 좋은 성능을 보이며 종교와 예술 분야는 낮은 성능을 보였다. 주제명의 범주 유형에 따른 성능은 '식물', '법률명', '상품명'이 높은 성능을 보인 반면, '국보/보물' 유형의 주제명에서 낮은 성능을 보였다. 다수의 주제명을 포함하는 데이터셋으로 갈수록 분류기가 주제명을 제대로 부여하지 못하는 비율이 늘어나 최종 성능의 하락을 가져오기 때문에, 저빈도 주제명에 대한 분류 성능을 높이기 위한 개선방안이 필요하다.

EDMS와 기록물의 라이프사이클 (EDMS and Life-cycle of Records)

  • 김익한
    • 기록학연구
    • /
    • 제5호
    • /
    • pp.3-37
    • /
    • 2002
  • Today the market of EDMS is esteemed more than 100 billions won. It signifies a comming of age of electronic records. The traditional archival theories which are based on the paper records are confronted with a new challenge. In some leading countries of archival studies reorientation of archives management has been tried by a number of distinguished specialists such as Bearman and Hedstrom since 10 years. As a consequence new paradigm of archival theories has been developed. Also in Korea this new paradigm has been introduced by some expert such as Lee, Sang-Min, Sul, Moon-won, Lee, Seung-Eok. However their arguments are too general to offer a concrete clue for new paradigm. Faced by new age of electronic records, it's important to start a discussion for the reasonable methods of electronic records management at once. The most drastically changed part of record management by the electronic technique is the life-cycle of records. The commonly practiced three-stage life-cycle is to be reduced to the two-stage life-cycle, and the concept of the spatial movement of records is to be changed. It can be also pointed that the public emerges as user from the early creating stage of records beyond time and space. Thus is can be said that the method of the management features dynamic and cohesive. The method of appraisal must be also changed and reproduced, so that it can reflect the various levels considering dynamics of the electronic records. Supposedly it will be a core factor that causes the change of methodology in records management with the change of life-cycle theory. It must be noted that various subjects would be involved in the work of classification and description over time and space and that feedback between them is of important. Description also tends to be made at the crating stage of records and structured dynamically. It results from the change of life-cycle and the introduction of the concept of continuum. Such trend allows us to start discussions on the assumption that description of both creator and archival professionals act together an important role. Of course, it is linked with the methodology in which most descriptions are made automatically at the early drafting stage of the structure. The meat date is formed on the assumption that there should be feedback between areas of automatic description, description of creators and archival professionals. The most important thing in description is to develop a suitable way how it is structured. An alternative must be offered for managing data set. As iweb that is being operated by Myongji university shows, records created in daily business are managed not as electronic records but as date base. This is because they exist outside the repository in the EDMS system. Since data set often has various sources, an alternative for classification needs to be developed. It is now likely that database is filed according to the created year to be transferred automatically to the repository. Over a long-term the total management of database, electronic records and electronic information will be a topic. A right direction of new paradigm will be found for both iweb and E-government, when practice and studies of theories are combined and interacted.

Animal Sounds Classification Scheme Based on Multi-Feature Network with Mixed Datasets

  • Kim, Chung-Il;Cho, Yongjang;Jung, Seungwon;Rew, Jehyeok;Hwang, Eenjun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3384-3398
    • /
    • 2020
  • In recent years, as the environment has become an important issue in dealing with food, energy, and urban development, diverse environment-related applications such as environmental monitoring and ecosystem management have emerged. In such applications, automatic classification of animals using video or sound is very useful in terms of cost and convenience. So far, many works have been done for animal sounds classification using artificial intelligence techniques such as a convolutional neural network. However, most of them have dealt only with the sound of a specific class of animals such as bird sounds or insect sounds. Due to this, they are not suitable for classifying various types of animal sounds. In this paper, we propose a sound classification scheme based on a multi-feature network for classifying sounds of multiple species of animals. To do that, we first collected multiple animal sound datasets and grouped them into classes. Then, we extracted their audio features by generating mixed records and used those features for training. To evaluate the effectiveness of our scheme, we constructed an animal sound classification model and performed various experiments. We report some of the results.

예제기반 한국어 표준 산업/직업 코드 분류 (An Example-based Korean Standard Industrial and Occupational Code Classification)

  • 임희석
    • 한국산학기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.594-601
    • /
    • 2006
  • 통계청에서 실시하는 통계 조사에는 한국 표준 산업/직업 분류 코드를 작성하는 작업이 많이 포함되는데, 현재 대부분의 코드 분류 작업은 수작업으로 이루어지고 있으며, 이로 인하여 막대한 노동력과 비용이 소모되고 작업결과의 일관성을 유지하기 어렵다는 문제점이 있다. 본 논문은 수동 코드 분류 규칙과 예제기반의 자동 학습을 이용하는 한국어 표준 산업/직업 코드 자동 분류 시스템을 제안한다. 제안된 시스템은 산업과 직업에 대하여 설명하는 자 연어를 입력받아 해당 산업/직업 분류 코드를 생성하는 시스템으로 수작업으로 구축된 규칙을 적용한 후 규칙이 적용되지 않는 레코드는 예제 기반의 학습을 이용한 자동 분류 시스템에 의해서 해당 코드를 할당한다. 수작업 규칙 260여개와 40만여개의 예제를 이용하여 학습한 시스템에 대하여 실험한 결과 제안한 시스템은 직업 코드 분류에서 76.69% 그리고 산업 코드 분류에서는 99.68%의 정확도를 보였다.

  • PDF