• Title/Summary/Keyword: 데이터 부족 문제

Search Result 553, Processing Time 0.039 seconds

A Study on the Analysis of RocksDB Parameters Based on Machine Learning to Improve Database Performance (데이터베이스 성능 향상을 위한 기계학습 기반의 RocksDB 파라미터 분석 연구)

  • Jin, Huijun;Choi, Won Gi;Choi, Jonghwan;Sung, Hanseung;Park, Sanghyun
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.69-72
    • /
    • 2020
  • Log Structured Merged Tree(LSM-Tree)구조를 사용하여 빠른 데이터 쓰기 성능을 보유한 RocksDB에는 쓰기 증폭과 공간 증폭 현상이 발생한다. 쓰기 증폭은 과도한 쓰기 연산을 유발하여 데이터 처리 성능 저하와 플래시 메모리 기반 장치의 수명 저하를 초래하며, 공간 증폭은 데이터 저장 공간 점유로 인한 저장 공간 부족 문제를 야기한다. 본 논문에서는 쓰기 증폭과 공간 증폭 완화를 위해 RocksDB 의 성능에 영향 주는 주요 파라미터를 추출하고, 기계학습 기법인 랜덤 포레스트를 사용하여 추출한 파라미터가 쓰기 증폭과 공간 증폭에 미치는 영향을 분석하였다. 실험결과 쓰기 증폭과 공간 증폭에 영향을 많이 주는 주요 요소를 선별하였고 다른 파라미터에 대비해서 성능 격차가 61.7% 더 나타낸 것을 발견하였다.

A Study on the Evaluation Method of Korean Comprehension Abilities of Large Language Model (대규모 언어모델의 한국어 이해 능력 평가 방법에 관한 연구)

  • Ki Jun Son;Seung Hyun Kim
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.733-736
    • /
    • 2024
  • 최근 GTP4, LLama와 같은 초거대 언어모델을 활용한 서비스가 공개되어 많은 사람의 주목을 받고 있다. 해당 모델들은 사용자들의 다양한 질문에 대하여 유창한 결과를 생성하고 있지만 한국어 데이터에 대한 학습량이 부족하여 한국어 이해 및 한국 문화 등에 대한 잘못된 정보를 제공하는 문제를 야기할 수 있다. 이에 본 논문에서는 한국어 데이터를 학습한 주요 공개 모델 6개를 선정하고 5개 분야(한국어 이해 및 문화 영역으로 구성)에 대한 평가 데이터셋을 구성하여 한국어 이해 능력에 대한 평가를 진행하였다. 그 결과 한국어 구사 능력은 Bookworm 모델이, 한국어 이해 및 문화와 관련한 부문은 LDCC-SOLAR 모델이 우수한 것으로 확인할 수 있었다.

The Multimedia Contents Search System based on Ontology (온톨로지 기반의 멀티미디어 콘텐츠 검색 시스템)

  • Hwang, Chi-Gon;Moon, Seok-Jae;Lee, Daesung;Yoon, Chang-Pyo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.6
    • /
    • pp.1354-1359
    • /
    • 2013
  • With the development of multimedia and network technology, the production of multimedia contents is rapidly increasing. Meanwhile, the technology to search and use the contents is still insufficient. There are standards for multimedia contents to address the problem, but they cannot fully support diverse multimedia data types or ensure their interoperability. In this paper, an ontology-based content search system is proposed to ensure the interoperability of multimedia contents. The ontology is configured by presenting the rules for it using the schema structure of the multimedia description scheme (MDS) of MPEG-7. Based on this ontology, This paper extend multimedia relationship based on ontology, thus established the semantic retrieval system.

A Study on Optimal Laser Scanning method for Reverse Engineering at Interior Remodeling Project (리모델링 프로젝트의 역설계 적용을 위한 최적 3차원 레이저 스캐닝 정보 획득 방안에 관한 연구 - 실내 리모델링을 대상으로 -)

  • Lee, Sangseol;Kwon, Soonwook
    • Korean Journal of Construction Engineering and Management
    • /
    • v.15 no.3
    • /
    • pp.3-11
    • /
    • 2014
  • Recently, remodeling construction project has been prevalently conducted in major city areas in Korea. However, remodeling construction project has a difficulty in conducting a construction because of non-existing drawing or lack of drawing information. To solve these problems, modeling techniques by using reverse engineering have been widely studied in other industries such as aerospace and automobile industry. But reverse engineering techniques have not been used in remodeling construction projects because those technology haven't supplied less accuracy during required time for surveying. So, this study suggests optimal method of acquiring accurate 3D laser scanner information for reverse engineering at interior remodeling project.

SRLev-BIH: An Evaluation Metric for Korean Generative Commonsense Reasoning (SRLev-BIH: 한국어 일반 상식 추론 및 생성 능력 평가 지표)

  • Jaehyung Seo;Yoonna Jang;Jaewook Lee;Hyeonseok Moon;Sugyeong Eo;Chanjun Park;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.176-181
    • /
    • 2022
  • 일반 상식 추론 능력은 가장 사람다운 능력 중 하나로써, 인공지능 모델이 쉽게 모사하기 어려운 영역이다. 딥러닝 기반의 언어 모델은 여전히 일반 상식에 기반한 추론을 필요로 하는 분야에서 부족한 성능을 보인다. 특히, 한국어에서는 일반 상식 추론과 관련한 연구가 상당히 부족한 상황이다. 이러한 문제 완화를 위해 최근 생성 기반의 일반 상식 추론을 위한 한국어 데이터셋인 Korean CommonGen [1]이 발표되었다. 그러나, 해당 데이터셋의 평가 지표는 어휘 단계의 유사성과 중첩에 의존하는 한계를 지니며, 생성한 문장이 일반 상식에 부합한 문장인지 측정하기 어렵다. 따라서 본 논문은 한국어 일반 상식 추론 및 생성 능력에 대한 평가 지표를 개선하기 위해 문장 성분의 의미역과 자모의 형태 변화를 바탕으로 생성 결과를 평가하는 SRLev, 사람의 평가 결과를 학습한 BIH, 그리고 두 평가 지표의 장점을 결합한 SRLev-BIH를 제안한다.

  • PDF

Explainable Animal Sound Classification Scheme using Transfer Learning and SHAP Analysis (전이 학습과 SHAP 분석을 이용한 설명가능한 동물 울음소리 분류 기법)

  • Jaeseung Lee;Jaeuk Moon;Sungwoo Park;Eenjun Hwang
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.768-771
    • /
    • 2024
  • 인간의 산업 활동으로 인하여 동물들의 생존이 위협받으면서, 동물의 서식 분포를 효과적으로 파악할 수 있는 자동 야생동물 모니터링 기술의 필요성이 점점 더 커지고 있다. 그중에서도 동물 소리 분류 기술은 시각적으로 식별이 어려운 동물에게도 효과적으로 적용할 수 있는 장점으로 인하여 널리 사용되고 있다. 최근 심층학습 기반의 분류 모델들이 좋은 판별 성능을 보여주고 있어 동물 소리 분류에 많이 사용되고 있지만, 희귀종과 같이 개체 수가 적어 데이터가 부족한 경우에는 학습이 제대로 이루어지지 않을 수 있다. 또한, 이러한 모델들은 모델 내부에서 일어나는 추론 과정을 알 수 없어 결과를 완전히 신뢰하고 사용하는 데 제약이 따른다. 이에 본 논문에서는 전이 학습을 통해 데이터 부족 문제를 고려하고, SHAP을 이용하여 분류 모델의 추론 과정을 해석하는 설명가능한 동물 소리 분류 기법을 제안한다. 실험 결과, 제안하는 기법은 지도 학습을 한 경우보다 분류 성능이 향상됨을 확인하였으며, SHAP 분석을 통해 모델의 분류 근거를 이해할 수 있었다.

Evaluation of Unified Index for Moving Object Databases (이동체 데이터베이스를 위한 통합 색인의 성능 평가)

  • Jung, Ji-Won;Ahn, Kyung-Hwan;Hong, Bong-Hee
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2004.12a
    • /
    • pp.98-104
    • /
    • 2004
  • 이동체 데이터베이스에서 이동체의 과거 궤적을 저장하기 위해 메인 메모리 기반 색인을 이용하면 시간이 지남에 따라 데이터의 방대함으로 인해 주어진 메모리 용량이 부족하게 될 수 도 있다. 이를 해결하기 위해서는 메인 메모리에 상주하는 색인의 일부를 계속해서 디스크로 이주하는 정책이 필요하다. 이런 이주 정책을 지원하는 메인 메모리 이동체 색인이 통합 색인이다. 기존 통합 색인의 색인 이주 정책인 이동 서브트리 정책은 시간 축으로 가장 오래된 엔트리를 seed 노드로 선정하여 이동 서브트리를 구성한다. 이때 항상 시간적으로 가장 오래된 노드만을 디스크로 옮김으로써 과거에 대한 질의 시 비효율적이라는 문제점을 가진다. 본 논문에서는 이주를 위한 서브트리 구성에 필요한 seed 노드를 선택하기 위해, 질의 및 삽입 시에 참조되는 단말 노드들을 유지하는 LRU 버퍼를 이용한 색인 이주 정책을 제시한다. 이를 바탕으로 메인 메모리 기반 색인의 장점과 메모리 용량 부족의 문제를 해결한 통합색인을 구현하고, 다양한 성능 평가를 통하여 제시된 이주 정책이 기존의 이주 정책에 비해 삽입 성능뿐만 아니라 영역 질의에서도 우수함을 보인다.

  • PDF

A Comparative Study on the Immigrant Occupational Selection Model : The Case of Scientific-technical Jobs in the U.S. (이민의 직업선택모델 비교연구: 미국의 과학기술직 사례)

  • Lee, Sae-Jae
    • Journal of Korean Society of Industrial and Systems Engineering
    • /
    • v.29 no.2
    • /
    • pp.37-42
    • /
    • 2006
  • 기술집약적인 경제성장의 중요성이 강조되고 있는 가운데 이공계 진학과 과학기술직종선택의 감소는 성장잠재력에 가장 근본적인 위협이 된다. 이를 유지하려는 여러 가지 정책이 교육학적이나 사회학적 근거에서 제시되고 있으나 이를 분석하는 이론적 경험적 틀이 상대적으로 부족한 상태이다. 직업선택모델은 사회학적인 접근법이 활발하게 진행되었으나, 경제적 동인에 대극 분석이 부족하다. 본 논문에서는 2000년 미국 센서스 데이터에 나타난 가장 국제화된 미국의 과학기술직 사례를 통해 인적자본 모델을 기준으로 하여 기술직에 대한 기존의 연구와 비교한다. 이민의 직업선택모델의 관점에서 원주민의 경우와 비교하며, 동시에 타 직업군과 비교한다. 직업선택에서 미래소득에 대한 예측이 대체로 정확하나 실제의 선택이 다르다는 기존 논문들의 주장은 성간 차이의 문제를 제외하고는 현격하지 않다. 민족적 차이의 효과도 인적자본효과에 비해서는 크지 않다. 과학기술직은 고급 화이트칼라 직종에 비해 결혼과 교육 언어 경험면에서 저급한 직종의 특성을 보인다. 여성의 과학기술직 기피는 남성프리미엄이 높아서는 아니지만 합리적인 차별 때문으로 볼 수 있다.

A Study on the Fallen Patient Detection Model in Indoor Hospital Using YOLOv5 (YOLOv5를 이용한 병원 내부환경에서의 환자 낙상 탐지모델에 관한 연구)

  • Hong, Sang-Hoon;Bae, Hyun-Jae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.93-94
    • /
    • 2022
  • 최근 고령화 사회가 심각한 사회적 문제로 급부상하고 있으며, 이에 병원을 찾아 입원하는 비중이 이전에 비하여 높아지고 있다. 거동이 불편하거나 근력이 부족한 환자의 경우 스스로 거동할 능력이 다소 떨어지며, 낙상사고가 발생하면 부상 혹은 치명적일 경우 사망으로 이어질 수 있다. 하지만, 이들을 보살피는 간호 인력만으로 병원 내 모든 낙상사고를 파악하기에는 한계가 있다. 또한, 환자들의 낙상 탐지에 관한 연구는 지속해서 수행되어왔지만, 병원 내부환경에서의 낙상 탐지 연구는 부족하다. 이에 본 논문에서는 병원 내부환경에서 낙상을 탐지하기 위해 실제 병실에서 수집한 데이터로 YOLOv5 모델을 학습하여 환자 낙상 탐지모델을 구축 및 평가하였다.

  • PDF

High-speed visible light communication system using space division processing (공간 분할 처리를 이용한 고속 가시광통신 시스템)

  • Park, Jun Hyung;Lee, Kyu Jin
    • Journal of Convergence for Information Technology
    • /
    • v.8 no.6
    • /
    • pp.237-242
    • /
    • 2018
  • There are various 'wireless communication technologies' around us. Wireless mobile communication has evolved through various stages, and its utilization is also diverse. However, due to the development of wireless communication technology, the demand for frequency resources is much higher than the supply, so frequency shortage is serious. Recently, 'visible light communication' has been attracting attention as an emerging communication technology that can solve the frequency shortage. 'Visible light communication' is a communication method based on serial data transmission / reception, and there is a difficulty in transmitting / receiving parallel data because the transmitter and the receiver are arbitrarily present. In this paper, we have studied parallel data processing of visible light communication. We could solve the problem by analyzing parallel data using image processing. Through this study, communication performance can be verified through I / O data comparison by implementing parallel data analysis method. It is expected that diversity in parallel data analysis will be presented through the results.