• Title/Summary/Keyword: 데이터부족문제

Search Result 539, Processing Time 0.025 seconds

Predicting Steel Structure Product Weight Ratios using Large Language Model-Based Neural Networks (대형 언어 모델 기반 신경망을 활용한 강구조물 부재 중량비 예측)

  • Jong-Hyeok Park;Sang-Hyun Yoo;Soo-Hee Han;Kyeong-Jun Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.1
    • /
    • pp.119-126
    • /
    • 2024
  • In building information model (BIM), it is difficult to train an artificial intelligence (AI) model due to the lack of sufficient data about individual projects in an architecture firm. In this paper, we present a methodology to correctly train an AI neural network model based on a large language model (LLM) to predict the steel structure product weight ratios in BIM. The proposed method, with the aid of the LLM, can overcome the inherent problem of limited data availability in BIM and handle a combination of natural language and numerical data. The experimental results showed that the proposed method demonstrated significantly higher accuracy than methods based on a smaller language model. The potential for effectively applying large language models in BIM is confirmed, leading to expectations of preventing building accidents and efficiently managing construction costs.

Lessons from Data Repository GDR (Geoscience Data Repository) Building Experience (데이터 리포지토리 GDR 구축 경험과 교훈)

  • Han, JongGyu
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2017.08a
    • /
    • pp.100-100
    • /
    • 2017
  • 100년의 역사를 지닌 한국지질자원연구원(KIGAM)은 국내 유일의 지질자원 전문연구기관으로서 그간 생산한 조사 연구데이터는 우리나라 과학기술의 귀중한 역사적 학술적 가치가 큰 유산으로써 보존 가치가 매우 크다고 할 수 있다. 하지만 현재 KIGAM의 상황은 최종성과물 위주로 자료관리가 이루어지고 있으며, 조사 연구 과정에서 생산된 암석 토양 지하수샘플이나 조사 탐사장비를 통해 얻어지는 자료는 연구자 또는 연구실 팀에서 개별적으로 관리하고 있다. 이러한 자료관리체계는 자료의 공동 활용이 어렵고, 자료를 보유하고 있는 연구자의 퇴직이나, 조직개편으로 인한 팀 실의 분리 과정에서 자료의 손실과 훼손 가능성이 높고, 누가 어디에 어떤 자료를 무슨 형태로 보관하고 있는지 찾기 어려워 자료의 재활용도가 떨어질 뿐만 아니라, 이로 인한 중복 조사 연구 가능성도 배제할 수 없다. KIGAM은 지질자원분야 국가데이터센터 구축을 목표로 연구과정에서 생산되는 연구데이터의 체계적인 관리와 공유, 활용체계 구축을 위해 2015년도에 기획사업을 통해 중장기 로드맵을 포함한 추진전략을 수립하였으며, 한국과학기술정보연구원(KISTI)의 DataNest를 기술이전받아 지질자원 연구데이터 리포지토리 시스템(GDR: Geoscience Data Repository)를 개발하였다. GDR 시스템 개발을 위해 연구데이터 분류코드를 작성하였으며, 2016년부터 데이터관리계획(DMP: Data Management Plan)을 주요사업 연구계획서 양식에 포함시켜 제출하도록 하였다. 과거 KIGAM은 연구데이터를 수집, 관리하기 위해 몇 차례에 걸쳐 시도를 했지만 실패한 경험을 가지고 있다. 실패 요인에는 (1) 관련 정책, 제도, 조직, 인력, 예산 등 데이터 관리 인프라 부재, (2) 연구사업에서 생산된 데이터는 개인소유라는 인식 및 공유 의식 부족, (3) 데이터 관리 활동은 귀찮은 것이고, 시간 낭비라는 인식, (4) 데이터 관리 공개 공유 활동에 대한 보상체계 부재 등을 꼽을 수 있다. 즉, 제도를 포함한 인프라 부족과 경영진과 구성원의 인식부족이 제일 큰 원인으로 판단된다. 성공적인 연구데이터 관리를 위해서는 지속적이고 꾸준한 투자가 이루어져야 하지만 경영진의 의지에 따라 사업이 중단되기도 한다. 이러한 과거의 실패 요인에 대한 해결 없이 지난 1년 6개월 정도의 GDR 운영은 지지부진하였다. 이러한 문제점을 해결하기 위해서는 국가차원의 제도적 뒷받침이 따라야 한다. 즉 국가 R&D 성과물 관리차원에서 연구데이터를 주요 성과물로 관리해야 할 것으로 판단된다. 연구사업계획서에 DMP를 포함시키고, 연구주제 및 분야별로 데이터센터(혹은 데이터 리포지토리)를 지정하고, 국가 R&D에서 생산되는 연구데이터를 의무적으로 제출하도록 하는 것이다. 또한 데이터센터의 안정적이고 지속적인 운영을 위해 연구사업비 항목에 데이터 관리비를 신설하여 데이터센터의 운영비로 사용하도록 하면 예산문제도 어느 정도 해결 될 수 있을 것으로 본다. 또한 데이터 제출 및 인용도에 따라 데이터 생산부서 혹은 생산자에게 평가점수를 부여하는 등 보상체계 마련을 위한 연구도 필요할 것으로 보인다. 국가 R&D 연구데이터의 수집, 관리, 공유, 활용을 제대로 성공시키려면 국가 R&D 최고정책결정자의 지속적인 관심과 지원이 필수적이다.

  • PDF

A Study on Analysis of Problems in Data Collection for Smart Farm Construction (스마트팜 구축을 위한 데이터수집의 문제점 분석 연구)

  • Kim Song Gang;Nam Ki Po
    • Convergence Security Journal
    • /
    • v.22 no.5
    • /
    • pp.69-80
    • /
    • 2022
  • Now that climate change and food resource security are becoming issues around the world, smart farms are emerging as an alternative to solve them. In addition, changes in the production environment in the primary industry are a major concern for people engaged in all primary industries (agriculture, livestock, fishery), and the resulting food shortage problem is an important problem that we all need to solve. In order to solve this problem, in the primary industry, efforts are made to solve the food shortage problem through productivity improvement by introducing smart farms using the 4th industrial revolution such as ICT and BT and IoT big data and artificial intelligence technologies. This is done through the public and private sectors.This paper intends to consider the minimum requirements for the smart farm data collection system for the development and utilization of smart farms, the establishment of a sustainable agricultural management system, the sequential system construction method, and the purposeful, efficient and usable data collection system. In particular, we analyze and improve the problems of the data collection system for building a Korean smart farm standard model, which is facing limitations, based on in-depth investigations in the field of livestock and livestock (pig farming) and analysis of various cases, to establish an efficient and usable big data collection system. The goal is to propose a method for collecting big data.

Web Log Analysis for Recommendation Systems (추천 시스템을 위한 웹 로그 분석)

  • Kang, Tae-Ki;Kim, Jun-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.527-530
    • /
    • 2002
  • 협동적 추천은 사용자의 상품에 대한 구매 데이터를 이용하여 상품을 추천하는 방법이다. 그러나 구매 데이터가 희소한 경우 추천의 정확도가 떨어지는 문제점이 있다. 이러한 희소성 문제를 해결하기 위해서 클러스터링, SVD 등 다양한 방법이 제시되었으나, 근본적으로 사용자의 성향을 파악하기에는 부족한 점이 있다. 구매 데이터만을 이용했을 때의 문제점을 해결하기 위해서는 이를 보완할 수 있는 데이터의 활용이 필요하다. 웹 로그 분석을 통해서 구매 데이터의 희소성을 보완할 수 있으며, 사용자의 상품에 대한 부정적 반응을 구매 데이터에 반영할 수 있다. 본 논문에서는 웹 사이트에 접근하는 사용자들에 의해서 만들어진 웹 로그를 분석하여 추천 시스템의 성능을 개선하였다.

  • PDF

A Design on a Streaming Big Data Processing System (스트리밍 빅데이터 처리 시스템 설계)

  • Kim, Sungsook;Kim, GyungTae;Park, Kiejin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

Journal Subscription Value Curation Service Based on Incremental Big Data Learning (점진적 빅데이터 학습기반의 전자저널 구독가치 큐레이션 서비스)

  • Lee, Jeong-won;Jin, Seong-il
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.409-410
    • /
    • 2019
  • 점진적 빅데이터 학습 기반의 전자저널 구독가치 큐레이션 서비스는 대용량의 학술정보 처리환경을 하드웨어 기반에서 소프트웨어 기반으로 데이터를 학습함에 있어 학습 소요시간 및 메모리 부족 문제 등을 해결하기 위해 널리 사용하는 자질축소 기법에 의존하지 않고 대량의 데이터를 자유롭게 학습하고 증분 데이터 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법이다. 학술정보의 논문요약과 참고문헌의 데이터 수집 정제 분류 저장 분석을 통해 활용할 수 있는 지표를 생성하여 도서관 학교 공공기관 연구기관 등에 제공하여 기관에서 구독하고 있는 학술지가 연구에 얼마나 활용되고 있는지를 판단하는 정보 가용성을 활용한 양질의 정보원을 확보하여 불필요한 저널 구독을 중단하고 연구자가 요구하는 품질 좋은 학술정보를 제공할 수 있는 서비스로 일반적인 학술문헌 이용도 평가방법과 달리 구독 가치에 대한 지표를 제공하는 큐레이팅 방법이다.

  • PDF

A Study on the Problems of AI-based Security Control (AI 기반 보안관제의 문제점 고찰)

  • Ahn, Jung-Hyun;Choi, Young-Ryul;Baik, Nam-Kyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.452-454
    • /
    • 2021
  • Currently, the security control market is operating based on AI technology. The reason for using AI is to detect large amounts of logs and big data between security equipment, and to alleviate time and human problems. However, problems are still occurring in the application of AI. The security control market is responding to many problems other than the problems introduced in this paper, and this paper attempts to deal with five problems. We would like to consider problems that arise in applying AI technology to security control environments such as 'AI model selection', 'AI standardization problem', 'Big data accuracy', 'Security Control Big Data Accuracy and AI Reliability', 'responsibility material problem', and 'lack of AI validity.'

  • PDF

DCGAN-based Emoji Generation exploiting Adjustment of Latent vector Representation (Latent vector 분포 조정을 활용한 DCGAN 기반 이모지 생성 기법)

  • Yun-Gyeong Song;Yu-Jin Ha;A-Yeong Seong;Gun-Woo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.603-605
    • /
    • 2023
  • 최근 SNS 의 발달로 인해 자신의 감정을 빠르고 효과적으로 전달할 수 있는 이모지의 중요성이 커지고 있다. 하지만 이모지를 수동으로 생성하기 위해서 시간과 비용이 많이 들고 자신의 감정에 맞는 이모지를 찾아야 하며 해당 이모지가 없을 수 있다. 기존 DCGAN 을 활용한 이모지 자동 생성연구에서는 부족한 데이터셋으로 인해 G(Generator)와 D(Discriminator)가 동등하게 학습하지 못해서 두 모델 간 성능 차이가 발생한다. D 가 G 보다 최적해에 빠르게 수렴하여 G 가 학습이 되지 않아 낮은 품질의 이모지를 생성하는 불안정 문제가 발생한다. 이 문제를 해결하기 위해 본 논문에서는 Latent vector 분포를 데이터셋에 맞게 조정하여 적은 데이터로 G 에서 안정적으로 학습할 수 있게 하는 G 구조와 다양한 이모지 생성을 위한 Latent vector 평균 조정 기법을 제안한다. 비교 실험 결과 불안정 문제를 개선하였고 FID 와 IS 수치를 통해 성능 개선 효과를 검증했다.

INFERENCE OF MATHEMATIC PROBLEM BY CNN ALGORITH (CNN 알고리즘을 통한 수학 문제 답지 추론)

  • Chae-Ryeong Ahn;Jai-Soon Baek;Sung-Jin Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.185-186
    • /
    • 2024
  • 본 논문에서는 CNN 알고리즘을 사용한 수학 문제 답지 추론 모델에 대한 소개를 다룬다. 현재의 학습 보조 서비스 중에서도 질문에 답하는 서비스들이 흔하지만, 수학 문제에 특화된 이미지 기반 답지 추론 서비스는 부족한 상황이다. 본 논문에서는 MathDataset 클래스를 활용하여 수학 문제 이미지와 정답을 연결하는 데이터셋을 생성하고, CNN 알고리즘을 사용하여 모델을 훈련하는 방법을 제시한다.

  • PDF

HyperCLOVA for Data Generation of Korean Fact Verification (HyperCLOVA를 이용한 한국어 Fact 검증을 위한 자동 데이터 생성)

  • Lee, Jong-Hyeon;Na, Seung-Hoon;Shin, Dongwook;Kim, Seon-Hoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.118-123
    • /
    • 2021
  • 현대 사회에서 소셜 네트워킹 서비스의 증가와 확산은 많은 정보를 쉽고 빠르게 얻을 수 있도록 하였지만 허위·과장 정보의 확산이 큰 문제로 자리잡고 있다. 최근 해외에서는 이들을 자동으로 분류 및 판별하고자하는 Fact 검증 모델에 관한 연구 및 모델 학습을 위한 데이터의 제작 및 배포가 활발히 이루어지고 있다. 그러나 아직 국내에서는 한국어 Fact 검증을 위한 데이터가 많이 부족한 상황이기 때문에 본 논문에서는 최근 좋은 성능을 보이는 openai 의 GPT-3를 한국어 태스크에 적용시킨 HyperCLOVA 를 이용하여 한국어 Fact 검증 데이터 셋을 자동으로 구축하고 이를 최신 Fact 검증 모델들에 적용하였을 때의 성능을 측정 및 분석 하고자 하였다.

  • PDF