• 제목/요약/키워드: 데이터셋 목록

검색결과 9건 처리시간 0.027초

DCAT을 활용한 디지털도서관 데이터셋 관리와 서비스 설계 (Designing Dataset Management and Service System for Digital Libraries Using DCAT)

  • 박진호
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.247-266
    • /
    • 2019
  • 본 연구는 새로운 지식정보자원으로 중요성이 높아지고 있는 데이터셋을 관리 서비스하기 위해 W3C 표준인 DCAT 활용방안을 제시하고자 하였다. 이를 위해 먼저 DCAT을 구성하는 8개의 클래스 중 핵심 클래스 4가지를 중심으로 클래스와 속성을 분석하였다. 또한 디지털도서관에서 DCAT을 기반으로 다양한 데이터셋을 관리 서비스할 수 있는 시스템을 모델링하여 제시하였다. 이 시스템은 원천데이터, 데이터셋 관리, 링크드 데이터 연결, 이용자 서비스로 구분하여 구성하였으며 특히 데이터셋관리에서는 DCAT 매핑 기능을 제시하여 다양한 데이터셋 서비스와 상호운용성 확보가 가능하도록 하였다.

휴먼포즈 인식을 적용한 무형문화재 탈춤 동작 디지털전환 (The digital transformation of mask dance movement in intangible cultural asset based on human pose recognition)

  • 강수형;박성건;박광영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.678-680
    • /
    • 2023
  • 본 연구는 2022년 유네스코 인류무형유산 대표목록에 등재된 탈춤 동작을 디지털화하여 후속 세대에게 정보를 제공하는 것을 목적으로 한다. 데이터 수집은 국가무형문화제로 지정된 탈춤 단체 13개, 시도무형문화재 단체 5개에 소속된 무형문화재, 전승자 39명이 관성식 모션 캡처 장비를 착용하고, 8대의 카메라를 이용하여 수집하였다. 데이터 가공은 바운딩박스를 수행하였고, 탈춤동작 추정은 YOLO v8을 사용하였고 탈춤 동작 분류는 YOLO v8에 CNN모델을 결합하여 130개의 탈춤을 분류하였다. 연구결과, mAP-50은 0.953, mAP50-95는 0.596, Accuracy 70%를 달성하였다. 향후 학습용 데이터셋 구축량이 늘어나고, 데이터 품질이 개선된다면 탈춤 분류 성능은 더욱 개선될 것이라 기대한다.

UWB 레이더와 실내 환경 측정 센서를 이용한 랜덤 포레스트 모델의 재실활동 유형 감지 (Activity Type Detection Of Random Forest Model Using UWB Radar And Indoor Environmental Measurement Sensor)

  • 박진수;정지성;양철승;이정기
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.899-904
    • /
    • 2022
  • 본 세계적으로 출생률이 줄고 기대 수명이 늘어나 고령화 사회가 되어감에 따라 고령 인구의 건강 관리를 위한 시스템이 필요하다. 그 중 실내 건강 관리를 위한 스마트 홈 캐어 서비스를 위해서는 재실 여부 및 활동 유형에 관한 다양한 연구가 수행되고 있다. 본 논문에서는 스마트 홈 캐어 서비스를 위해 실내 온습도, CO2, 미세먼지 값과UWB 레이더 측위를 통해 재실 여부 뿐만 아니라 활동 유형을 분류하는 랜덤 포레스트 모델을 제안한다. 실험은 실내 온습도, CO2, 미세먼지를 측정하는 센서 3개와 UWB Radar 2개를 사용하여 2초 간격으로 실내 환경 및 재실자의 측위 데이터를 측정한다. 측정된 데이터는 이상치와 결측치를 보정 처리한 후 80%의 트레이닝 셋 데이터와 20%의 테스트 셋 데이터로 이분하며 랜덤 포레스트 모델을 적용하여 중요도 상위 변수 목록, 정확도, 민감도, 특이도, T1 스코어를 평가한다.

자연어처리와 기계학습을 통한 우울 감정 분석과 인식 (Analysis and Recognition of Depressive Emotion through NLP and Machine Learning)

  • 김규리;문지현;오유란
    • 문화기술의 융합
    • /
    • 제6권2호
    • /
    • pp.449-454
    • /
    • 2020
  • 본 논문에서는 SNS에 게시된 글의 내용을 통해 사용자의 우울함을 검출하는 기계학습 기반 감성 분석 시스템을 제안한다. 게시한 글의 작성자가 기분을 파악하는 시스템을 구현하기 위해 먼저 감정 사전에서 우울한 감정의 단어와 그렇지 않은 감정과 관련된 단어를 목록화하였다. 그 후, SNS를 대표하는 서비스 중 하나인 트위터의 텍스트 자료에서 검색 키워드를 선정하고 크롤링을 시행하여 우울한 감정을 띤 문장 1297개와 그렇지 않은 문장 1032개로 이뤄진 학습 데이터셋을 구축하였다. 마지막으로 텍스트 기반 우울감 검출 목적에 가정 적합한 기계학습 모델을 찾기 위해 수집한 데이터셋을 바탕으로 순환신경망, 장단기메모리, 그리고 게이트 순환 유닛을 비교 평가하였고, 그 결과 GRU 모델이 다른 모델들보다 2~4%가량의 높은 92.2%의 정확도를 보임을 확인하였다. 이 연구 결과는 SNS상의 게시글을 토대로 사용자의 우울증을 예방하거나 치료를 유도하는 데 활용될 수 있을 것이다.

Evaluation of English Term Extraction based on Inner/Outer Term Statistics

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.141-148
    • /
    • 2020
  • 용어추출은 도메인 텍스트 모음으로부터 도메인 용어 목록을 인식하는 작업이다. 용어추출의 기존 효과적인 방법들은 비교사 방식으로 동작하며, 후보 용어 집합을 추출하는 작업과 후보 용어에 용어중요도를 할당하는 작업을 주요 단계로 포함한다. 후보 용어의 용어중요도 계산과 관련하여 본 논문에서는 후보 용어의 내부 및 외부용어집합을 활용한다. 내부용어집합은 후보 용어에 포함된 다른 짧은 용어들의 집합이며, 외부용어집합은 후보 용어가 포함된 다른 긴 용어들의 집합이다. 본 논문에서는 후보 용어의 내부 혹은 외부용어집합으로부터 후보 용어의 용어 강도를 계산하는 다양한 강도 함수들을 제시하고, 이들 용어 강도 값들과 C-value 점수를 결합하는 용어중요도 계산 방법을 소개한다. 생물학 및 전산언어학 분야 영어 데이터셋을 사용한 성능 평가에서는 제안된 방법의 용어추출 성능을 비교하고 분석한다. 제안된 방법은 생물학 및 전산언어학 분야 데이터셋에 대해 각각 최대 1%와 3% 차이의 성능 향상을 보였다.

풍수해 피해예측지도 메타데이터 관리 시범 시스템 설계에 대한 연구 (A Study on Design of Metadata Management Demonstration System for damage prediction from storm and flood)

  • 임소망;백승협;황의호
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.472-472
    • /
    • 2017
  • 재해로 인한 피해가 급증함에 따라 이를 예방하기 위한 풍수해 피해예측의 필요성이 증가하였고 관련된 다양한 연구가 진행되고 있다. 타 부처 및 각 지자체에서는 각종 재해지도들을 작성하여 만들어진 재해지도는 작성 유형과 방법 등에 따라 다양한 데이터와 서로 다른 정보를 포함하고 있어 데이터 정보를 표준화 시키고 필요한 정보를 효율적으로 찾아 연계 활용하기 위하여 본 연구를 수행하고자 한다. 메타데이터란 데이터에 대한 정보를 의미하며 데이터 변화의 근원과 변화의 흐름을 말한다. 메타데이터 관련 표준으로는 ISO19115(국제표준), KSXISO19115(국가표준), TTAS.KO-10.0139(유통목록 표준), TTAS.IS-19115(관리용 표준)이 있다. 본 연구에서는 국제표준을 준용하여 풍수해 피해 예측지도의 체계적 관리를 위한 메타데이터 설계 및 관리 시스템 구축 방안을 제시하고자 하였다. 풍수해 피해예측지도 메타데이터 관리 시범 시스템 구축을 위한 표준, 정보의 특성, 사용자 수준 등을 고려하여 설계 기본방향 설정하였으며, 풍수해 피해예측지도 정보 메타데이터 표준안 수립에 반영하였다. 그 결과, 메타데이터 패키지는 총 9개의 섹션(클래스)으로 구성하여 정의하였고 하위개체를 설정 및 연계하여 메타데이터 개체셋 정보를 구성하였다. 풍수해 피해예측지도 메타데이터 관리 시범 시스템 설계 제시를 위해 DB항목 조사 및 도출, 데이터 연계 활용 모델 구축, 프로토타입 개발순으로 연구를 수행하였다. 또한 표출 대상 데이터 항목별 분류, 방재활용 단계, 지역구분 등을 주제로 데이터 Mapping 자료를 작성하였고, 설계 기본 방향에 의하여 설정된 기준으로 데이터 항목별 메타데이터 DB를 작성하여 풍수해 피해예측지도 메타데이터 관리 시범 시스템을 설계하였다. 본 연구 결과는 추후 풍수해 피해예측지도 표준 데이터 및 풍수해 피해예측지도 표준 데이터 모델 구축에 활용 가능하며 표준화 연계활용을 위한 연구에 기여할 것으로 판단된다.

  • PDF

정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로 (Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika)

  • ;이경희;라형철;최은선;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.169-179
    • /
    • 2021
  • 소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다.

교과서 메타데이터 요소 설계에 관한 연구 (A Study on the Design of Metadata Elements in Textbooks)

  • 오의경
    • 문화기술의 융합
    • /
    • 제9권4호
    • /
    • pp.401-408
    • /
    • 2023
  • 이 연구의 목적은 교과서 데이터베이스 구축을 위한 기초 작업으로서 교과서 메타데이터를 설계하는 것이다. 이를 위하여 독본류를 교과서의 범주로 정의하였고, 선행연구를 통하여 메타데이터 개발 방법론을 수립하였다. 국립중앙도서관 등 교과서를 수집, 축적, 서비스하는 기관의 목록 기술요소를 조사하여 서지적으로 필수적인 요소들이 누락되지 않도록 하였으며, Dublin Core, MODS, KEM의 요소들을 매핑하여 교과서를 기술하는데 적합한 요소들을 도출하였다. 마지막으로 발행유형, 장르, 교육과정기 요소를 추가하여 최종적으로 3개의 범주-서지, 맥락, 교과서 특성에서 14개의 요소로 구성된 교과서 메타데이터 요소 셋을 제시하였다. 14개의 요소는 표제사항, 저자사항, 발행사항, 형태사항, 식별기호, 언어, 소장처, 주제명, 해제, 장르, 목차, 이용대상자, 교육과정기, 교과정보이다. 우리는 이 연구에서국가지식자원으로 교과서 자원을 축적할 수 있는 조직화 방안을 논의하여 이 분야에 기여하였으며, 향후 연구에서 우리는 실제 교과서를 대상으로 메타데이터 요소를 적용하여 사용성을 평가하고 평가결과에 따라 수정 보완할 것을 제안하였다.

국내 학술논문의 동명이인 저자명 식별을 위한 방법 (A Method for Same Author Name Disambiguation in Domestic Academic Papers)

  • 신다예;양기덕
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.301-319
    • /
    • 2017
  • 저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.