• 제목/요약/키워드: Unstructured Dataset

검색결과 29건 처리시간 0.019초

통신 환경에서 비정형적 구조를 갖는 데이터세트의 효과적인 제어 방법 (An Effective Control Scheme for Unstructued Dataset in the Communication Environments)

  • 배명남;최완;이동춘
    • 정보처리학회논문지C
    • /
    • 제9C권1호
    • /
    • pp.31-38
    • /
    • 2002
  • 교환기 시스템(Switching System)과 같은 통신 시스템에서는 제안된 이벤트들이 반드시 명시된 시간 제약 내에 완료되어야 한다. 따라서, 시스템에 유지되는 응용 데이터들은 빠른 접근이 가능해야 하며, 동시에 제한된 시간 내에 이벤트의 완료가 보장되어야 한다. 현재, 많은 데이터 시스템들이 사용되고 있지만, 이들은 정형화된 구조와 이에 대한 기본적인 연산들만을 제공하고 있다. 최근 통신 응용에서 데이터의 복잡성이 증가함으로서, 기존의 방식과는 달리, 비정형화된 구조의 표현이 가능하며, 이들에 대해 쉽게 접근 가능한 체계가 요구되고 있다. 이를 위해, 본 논문에서는 비정형화된 다중 응용 환경의 모델링에 적합한 데이터 모델을 소개한다. 모델은 데이터세트에 대한 빠른 접근과 필요한 데이터를 쉽게 추출할 수 있는 체계를 제공한다 추가로, 모델의 특징을 명확히 하기 위해 몇몇 세부 알고리즘을 함께 설명한다.

비정형 데이터셋 표준포맷 기반 국방 비정형 데이터셋 표준화 방안 제안 (Proposal of Standardization Plan for Defense Unstructured Datasets based on Unstructured Dataset Standard Format)

  • 황윤영;손지성
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.189-198
    • /
    • 2024
  • 민간에서뿐 아니라 국방분야에서도 인공지능은 국방의 발전을 위해 꼭 도입되어야 하는 첨단기술로 받아들여지고 있으며, 특히 국방과학기술혁신의 핵심 과제로 인공지능이 선정되고, 데이터의 중요성이 확대되고 있다. 국방은 폐쇄적인 데이터 정책에서 데이터 공유·활성화로 방향을 전환하고 있으며, 국방의 발전을 위해 필요한 양질의 데이터를 확보하기 위한 노력을 기울이고 있다. 특히 AI·빅데이터의 고유한 특성이 반영될 수 있도록 관련 절차 개선 및 대량·양질의 데이터가 충분히 확보된 상태에서 연구개발이 시작될 수 있도록 데이터 확보를 위한 사업예산과 제도 검토를 추진하고 있다. 그러나 국방 차원의 정형데이터 및 비정형 데이터의 표준화·품질 기준 마련이 필요한 상황이나 지금까지 국방은 정형데이터의 표준화·품질 기준을 제안하고 있는 수준으로 이에 대한 보완이 필요하다. 본 논문에서는 국방 인공지능에서 가장 필요한 국방 비정형 데이터셋을 위한 비정형 데이터셋 표준포맷을 제안하고, 이를 바탕으로 국방 비정형 데이터셋 표준화 방안을 제안한다.

Implementation of YOLOv5-based Forest Fire Smoke Monitoring Model with Increased Recognition of Unstructured Objects by Increasing Self-learning data

  • Gun-wo, Do;Minyoung, Kim;Si-woong, Jang
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.536-546
    • /
    • 2022
  • A society will lose a lot of something in this field when the forest fire broke out. If a forest fire can be detected in advance, damage caused by the spread of forest fires can be prevented early. So, we studied how to detect forest fires using CCTV currently installed. In this paper, we present a deep learning-based model through efficient image data construction for monitoring forest fire smoke, which is unstructured data, based on the deep learning model YOLOv5. Through this study, we conducted a study to accurately detect forest fire smoke, one of the amorphous objects of various forms, in YOLOv5. In this paper, we introduce a method of self-learning by producing insufficient data on its own to increase accuracy for unstructured object recognition. The method presented in this paper constructs a dataset with a fixed labelling position for images containing objects that can be extracted from the original image, through the original image and a model that learned from it. In addition, by training the deep learning model, the performance(mAP) was improved, and the errors occurred by detecting objects other than the learning object were reduced, compared to the model in which only the original image was learned.

비정렬 격자 볼륨 렌더링을 위한 다중코어 CPU기반 메모리 효율적 광선 투사 병렬 알고리즘 (Memory Efficient Parallel Ray Casting Algorithm for Unstructured Grid Volume Rendering on Multi-core CPUs)

  • 김덕수
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.304-313
    • /
    • 2016
  • 본 논문은 비정렬 격자 볼륨 렌더링을 위한 다중 코어 CPU기반의 메모리 효율적 광선 투사 병렬처리 알고리즘을 제안한다. 본 연구는 Bunyk 광선 투사(ray casting) 알고리즘에 기반을 두며, Bunyk 알고리즘의 높은 메모리 소모량 문제를 개선하기 위해 스레드별로 고정된 크기의 지역 버퍼를 할당한다. 지역 버퍼는 최근 방문된 면(face)의 정보를 저장하며, 이 정보는 다른 광선들에 의해 재사용되거나 다른 면의 정보로 대체된다. 지역 버퍼에 저장된 정보의 활용률을 높이기 위해 본 연구는 이미지 평면을 기반으로 일관성(coherency)이 높은 광선들을 하나의 광선 그룹으로 묶고, 생성된 광선 그룹들을 스레드들에게 분배한다. 각각의 스레드들은 할당 받은 광선 그룹들을 지역 버퍼를 활용하여 독립적으로 처리한다. 본 연구는 또한 지역 버퍼 활용률을 더욱 높이기 위해 면의 번호에 기반을 둔 해시 함수를 제안한다. 본 연구의 효용성을 확인하기 위해 제안하는 알고리즘을 서로 다른 크기의 비정렬 격자에 적용하였으며, 면 정보 저장을 위해 Bunyk 알고리즘 대비 약 6%의 메모리만 사용하여 정확한 볼륨 렌더링을 수행할 수 있었다. 이처럼 훨씬 적은 메모리 사용에도 불구하고 Bunyk 알고리즘과 대등한 성능을 보여주었으며, 대용량 데이터에 대해서는 최대 22% 높은 성능을 보여주었다. 이는 본 연구의 효용성 및 대용량 데이터의 볼륨 렌더링에 대한 적합성을 증명하는 결과이다.

에지 컴퓨팅 환경에서의 상황인지 서비스를 위한 팻 클라이언트 기반 비정형 데이터 추상화 방법 (Fat Client-Based Abstraction Model of Unstructured Data for Context-Aware Service in Edge Computing Environment)

  • 김도형;문종혁;박유상;최종선;최재영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권3호
    • /
    • pp.59-70
    • /
    • 2021
  • 최근 사물인터넷의 발전으로 사용자 주변 상황을 인지하여 맞춤형 서비스를 제공하는 상황인지 시스템에 대한 관심이 증가되고 있다. 기존의 상황인지 시스템은 사용자 주위에서 생성되는 데이터를 분석하여 사용자 주변 상황을 표현하는 상황 정보로 추상화하는 기술이 사용되었다. 하지만 증가하는 사용자의 서비스 요구 사항에 따라 다양한 종류의 비정형 데이터의 사용이 증가하고, 사용자 주변에서 수집되는 데이터의 양이 많아지면서 비정형 데이터의 처리와 상황인지 서비스의 제공에 어려움이 있다. 이러한 사항은 딥러닝 응용에서 비정형 구조의 입력 데이터가 많이 사용되는 데서 찾아볼 수 있다. 기존 연구에서는 에지 컴퓨팅 환경에서 다양한 딥러닝 모델을 활용해 비정형 데이터를 상황 정보로 추상화하는 연구가 진행되었으나, 수집-전처리-분석 등과 같은 추상화 과정 간의 종속성으로 인해 제한된 종류의 딥러닝 모델만이 적용 가능하기 때문에 시스템의 기능적 확장성이 고려되어야 한다. 이에 본 논문은 에지 컴퓨팅 환경에서 딥러닝 기술을 활용한 비정형 데이터 추상화 과정의 기능적 확장성을 고려한 비정형 데이터 추상화 방법을 제안한다. 제안하는 방법은 데이터 처리가 분산되어 있는 에지 컴퓨팅 환경에서 수집과 전처리 과정을 수행할 수 있는 팻 클라이언트 기술을 사용하여 추상화 과정의 수집-전처리 과정과 분석 과정을 분리하여 수행하는 것이다. 또한 분리된 추상화 과정을 관리하기 위해 수집-전처리 과정을 수행하는 데 필요한 정보를 팻 클라이언트 프로파일로 제공하고, 분석 과정에 필요한 정보를 분석 모델 설명 언어(AMDL) 프로파일로 제공한다. 두 가지 프로파일을 통해서 추상화 과정을 독립적으로 관리하여 상황인지 시스템의 기능적 확장성을 제공한다. 실험에서는 차량 출입 통제 알림 서비스를 위한 차량 이미지 인식 모델을 대상으로 팻 클라이언트 프로파일과 AMDL 프로파일의 예제를 통해 시스템의 기능적 확장성을 보이고, 비정형 데이터의 추상화 과정별 세부사항을 보인다.

물체 파지점 검출 향상을 위한 분할 기반 깊이 지도 조정 (Segmentation-Based Depth Map Adjustment for Improved Grasping Pose Detection)

  • 신현수;무하마드 라힐 아파잘;이성온
    • 로봇학회논문지
    • /
    • 제19권1호
    • /
    • pp.16-22
    • /
    • 2024
  • Robotic grasping in unstructured environments poses a significant challenge, demanding precise estimation of gripping positions for diverse and unknown objects. Generative Grasping Convolution Neural Network (GG-CNN) can estimate the position and direction that can be gripped by a robot gripper for an unknown object based on a three-dimensional depth map. Since GG-CNN uses only a depth map as an input, the precision of the depth map is the most critical factor affecting the result. To address the challenge of depth map precision, we integrate the Segment Anything Model renowned for its robust zero-shot performance across various segmentation tasks. We adjust the components corresponding to the segmented areas in the depth map aligned through external calibration. The proposed method was validated on the Cornell dataset and SurgicalKit dataset. Quantitative analysis compared to existing methods showed a 49.8% improvement with the dataset including surgical instruments. The results highlight the practical importance of our approach, especially in scenarios involving thin and metallic objects.

행정정보 데이터세트 기록관리 적용 사례 분석: 전자인사관리시스템 데이터세트 관리기준표 작성을 중심으로 (Case Study on Managing Dataset Records in Government Information System: Focusing on Establishing Records Management Reference Table for Electronic Human Resource Management System)

  • 신정엽
    • 한국기록관리학회지
    • /
    • 제21권3호
    • /
    • pp.227-246
    • /
    • 2021
  • 본 고에서는 전자인사관시스템 데이터세트의 관리기준표 작성 절차와 방법, 참여 기관의 역할, 관리기준표 영역별 작성 내용 등을 기록관담당자 입장에서 분석하여 관리기준표를 수립해야하는 업무담당자의 이해를 돕고, 기준표 작성 과정 중에 나타난 문제점을 바탕으로 개선방안을 제시하였다. 주요 개선방안으로, 국가적 중요 행정정보 데이터세트에 대해서는 영구기록물관리기관 차원의 별도 선별 정책이 마련되어야 하고 일부가 아닌 전체 데이터세트를 보존하는 방식으로 운영되어야 하겠다. 또 단위기능 설정과 데이터 분석을 위해 단위기능-데이터테이블-비정형데이터 매핑 자료를 필수작성사항으로 설정할 필요가 있으며 시스템 운영에 큰 영향을 미치는 비정형데이터에 대한 선별, 관리기준이 추가로 작성되어야 하겠다. 처분지연기간을 설정하는 것은 보존기간의 복잡성을 증가시키는 측면이 있으므로 관련 단위기능의 통합 또는 보존기간 상향 책정 등의 방식으로 운영하는 것이 바람직할 것으로 판단된다.

Grammatical Structure Oriented Automated Approach for Surface Knowledge Extraction from Open Domain Unstructured Text

  • Tissera, Muditha;Weerasinghe, Ruvan
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2022
  • News in the form of web data generates increasingly large amounts of information as unstructured text. The capability of understanding the meaning of news is limited to humans; thus, it causes information overload. This hinders the effective use of embedded knowledge in such texts. Therefore, Automatic Knowledge Extraction (AKE) has now become an integral part of Semantic web and Natural Language Processing (NLP). Although recent literature shows that AKE has progressed, the results are still behind the expectations. This study proposes a method to auto-extract surface knowledge from English news into a machine-interpretable semantic format (triple). The proposed technique was designed using the grammatical structure of the sentence, and 11 original rules were discovered. The initial experiment extracted triples from the Sri Lankan news corpus, of which 83.5% were meaningful. The experiment was extended to the British Broadcasting Corporation (BBC) news dataset to prove its generic nature. This demonstrated a higher meaningful triple extraction rate of 92.6%. These results were validated using the inter-rater agreement method, which guaranteed the high reliability.

AraProdMatch: A Machine Learning Approach for Product Matching in E-Commerce

  • Alabdullatif, Aisha;Aloud, Monira
    • International Journal of Computer Science & Network Security
    • /
    • 제21권4호
    • /
    • pp.214-222
    • /
    • 2021
  • Recently, the growth of e-commerce in Saudi Arabia has been exponential, bringing new remarkable challenges. A naive approach for product matching and categorization is needed to help consumers choose the right store to purchase a product. This paper presents a machine learning approach for product matching that combines deep learning techniques with standard artificial neural networks (ANNs). Existing methods focused on product matching, whereas our model compares products based on unstructured descriptions. We evaluated our electronics dataset model from three business-to-consumer (B2C) online stores by putting the match products collectively in one dataset. The performance evaluation based on k-mean classifier prediction from three real-world online stores demonstrates that the proposed algorithm outperforms the benchmarked approach by 80% on average F1-measure.

Tobacco Retail License Recognition Based on Dual Attention Mechanism

  • Shan, Yuxiang;Ren, Qin;Wang, Cheng;Wang, Xiuhui
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.480-488
    • /
    • 2022
  • Images of tobacco retail licenses have complex unstructured characteristics, which is an urgent technical problem in the robot process automation of tobacco marketing. In this paper, a novel recognition approach using a double attention mechanism is presented to realize the automatic recognition and information extraction from such images. First, we utilized a DenseNet network to extract the license information from the input tobacco retail license data. Second, bi-directional long short-term memory was used for coding and decoding using a continuous decoder integrating dual attention to realize the recognition and information extraction of tobacco retail license images without segmentation. Finally, several performance experiments were conducted using a largescale dataset of tobacco retail licenses. The experimental results show that the proposed approach achieves a correction accuracy of 98.36% on the ZY-LQ dataset, outperforming most existing methods.