• Title/Summary/Keyword: 과학기술 데이터

Search Result 2,575, Processing Time 0.036 seconds

Frame Arguments Role Labeling for Event extraction in Dialogue (대화문에서의 이벤트 추출을 위한 프레임 논항 역할 분류기)

  • Heo, Cheolhun;Noh, Youngbin;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.119-123
    • /
    • 2020
  • 이벤트 추출은 텍스트에서 구조화된 이벤트를 분석하는 것이다. 본 논문은 대화문에서 발생하는 다양한 종류의 이벤트를 다루기 위해 이벤트 스키마를 프레임넷으로 정한다. 대화문에서의 이벤트 논항은 이벤트가 발생하는 문장 뿐만 아니라 다른 문장 또는 대화에 참여하는 발화자에서 발생할 수 있다. 대화문 주석 데이터의 부재로 대화문에서의 프레임 파싱 연구는 진행되지 않았다. 본 논문이 제안하는 모델은 대화문에서의 이벤트 논항 구간이 주어졌을 때, 논항 구간의 역할을 식별하는 모델이다. 해당 모델은 이벤트를 유발한 어휘, 논항 구간, 논항 역할 간의 관계를 학습한다. 대화문 주석 데이터의 부족을 극복하기 위해 문어체 주석 데이터인 한국어 프레임넷을 활용하여 전이학습을 진행한다. 이를 통해 정확도 51.21%를 달성한다.

  • PDF

A Study on the expansion of the Z39.88 KEVFormat:Sch-Svc for Scientific Data (과학데이터 관련 Z39.88 KEVFormat:Sch-Svc 확장 연구)

  • Kim, sun-tae;Lee, tae-young
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.41-42
    • /
    • 2011
  • DataCite 메타데이터 요소를 분석하여 OpenURL 학술 서비스 유형을 기술하기 위한 메타태그를 Key/Encoded-Value (KEV) 형식으로 확장 제안하였다. 학술 서비스 유형 분석을 위해 Scopus와 Web of Science, NDSL 서비스를 비교 검토하여 8개의 학술서비스 유형을 도출하였다. 또한 과학데이터 기술을 위한 DataCite 컨소시엄의 메타데이터 요소를 집중적으로 분석하여 9개의 대표속성을 도출 하였다.

  • PDF

A Review of the Methodology for Sophisticated Data Classification (정교한 데이터 분류를 위한 방법론의 고찰)

  • Kim, Seung Jae;Kim, Sung Hwan
    • Journal of Integrative Natural Science
    • /
    • v.14 no.1
    • /
    • pp.27-34
    • /
    • 2021
  • 전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

Application Study of Vessel Traffic Service: Dynamic Analysis of AIS for Shocheongcho Ocean Research Station (해상교통관제정보 활용 연구: 빅데이터 기반 해양 공간 선박 활동 특성 해석)

  • Park, Ju-Han;Kim, Seung-Ryong;Yang, Chan-Su
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2019.05a
    • /
    • pp.206-207
    • /
    • 2019
  • 우리나라에서 해상교통관제시스템(Vessel Traffic Service, VTS) 구역을 설정하여, 관제사를 중심으로 한 VTS와 선박사이의 해상교통상황 등의 교환을 통해 항만의 안전과 항만운영의 효율을 높이고 있다. 향후, 연안으로 확대될 예정이다. 더 넓은 해역에 대해서는 해양안전종합정보시스템(GICOMS)이 있으며, 선박자동식별장치 (AIS), 장거리위치추적시스템 (LRIT) 등에서 송신하는 선박의 운항정보를 수신하여 전자해도에 표시하고 있다. 이와 같은 선박관제정보는 빅데이터로 향후 자동화된 분석과 제원체계가 요구된다. 여기서는 해상교통관제정보 기초 활용 연구로, 소청초 종합해양과학기지주변의 AIS (Automatic Identification System)정보를 사용하여 선박 활동 특성 해석을 진행하였다.

  • PDF

KoEPT: Automatically Solving Korean Math Word Problems using Generative Transformer (KoEPT: Transformer 기반 생성 모델을 사용한 한국어 수학 문장제 문제 자동 풀이)

  • Rhim, Sang-kyu;Ki, Kyung Seo;Kim, Bugeun;Gweon, Gahgene
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.362-365
    • /
    • 2021
  • 이 논문에서는 자연어로 구성된 수학 문장제 문제를 자동으로 풀이하기 위한 Transformer 기반의 생성 모델인 KoEPT를 제안한다. 수학 문장제 문제는 일상 상황을 수학적 형식으로 표현한 자연어 문제로, 문장제 문제 풀이 기술은 실생활에 응용 가능성이 많아 국내외에서 다양하게 연구된 바 있다. 한국어의 경우 지금까지의 연구는 문제를 유형으로 분류하여 풀이하는 기법들이 주로 시도되었으나, 이러한 기법은 다양한 수식을 포괄하여 분류 난도가 높은 데이터셋에 적용하기 어렵다는 한계가 있다. 본 논문은 이를 해결하기 위해 우선 현존하는 한국어 수학 문장제 문제 데이터셋인 CC, IL, ALG514의 분류 난도를 측정한 후 5겹 교차 검증 기법을 사용하여 KoEPT의 성능을 평가하였다. 평가에 사용된 한국어 데이터셋들에 대하여, KoEPT는 CC에서는 기존 최고 성능과 대등한 99.1%, IL과 ALG514에서 각각 89.3%, 80.5%로 새로운 최고 성능을 얻었다. 뿐만 아니라 평가 결과 KoEPT는 분류 난도가 높은 데이터셋에 대해 상대적으로 개선된 성능을 보였다.

Revision and Data Modeling of National R&D Information Standard (국가R&D정보표준 개정 및 데이터 모델링)

  • Lee, Byeong-Hee;Jung, Ok-Nam;Yang, Jin-Hyuk;Choi, Heeseok;Kim, Jae-Soo
    • Annual Conference of KIPS
    • /
    • 2009.11a
    • /
    • pp.717-718
    • /
    • 2009
  • 국가R&D정보표준은 과학기술기본법 제7조 및 동법 시행령 제41조에 의거하여 국가R&D정보의 체계적인 수집 연계 및 공동활용 기반구축 등에 활용하고자 범부처 차원에서 국가R&D사업 현황파악, 종합조정, 공동활용하기 위한 필요 최소한의 정보를 공유 활용하기 위한 표준정보이다. 2007년 8월 과학기술관계장관회의에서 341개의 항목으로 구성된 국가R&D정보표준이 제정되었고, 2009년 7월 국가과학기술위원회 운영위원회에서 340개의 항목으로 개정되었다. 본 논문에서는 국가R&D정보표준의 2009년 7월 개정내용과 그에 따른 데이터 모델링 결과를 제시함으로써, 15개 부처 청 14개 대표전문기관 및 연구관리기관 업무 담당자들과 R&D종사자들에게 NTIS에서 수집 공유 활용되는 국가R&D정보에 대한 이해와 활용을 증진시키고자 한다.

Bio Grid Computing and Biosciences Research Application (바이오그리드 컴퓨팅과 생명과학 연구에의 활용)

  • Kim, Tae-Ho;Kim, Eui-Yong;Youm, Jae-Boum;Kho, Weon-Gyu;Gwak, Heui-Chul;Joo, Hyun
    • Bioinformatics and Biosystems
    • /
    • v.2 no.2
    • /
    • pp.37-45
    • /
    • 2007
  • 생물정보학은 컴퓨터를 이용하여 방대한 양의 생물학적 데이터를 처리하고 그 결과를 분석하는 학문으로서 IT의 고속성장과 맞물려 점차 그 활용도를 넓혀가고 있다. 특히 의학, 생명과학 연구에 사용되는 데이터는 그 종류도 다양하고 크기가 매우 큰 것이 일반적인데, 이의 처리를 위해서는 고속 네트워크가 바탕이 된 그리드-컴퓨팅(Grid-Computing) 기술 접목이 필연적이다. 고속 네트워크 기술의 발전은 슈퍼컴퓨터를 대체해 컴퓨터 풀 내에 분산된 시스템들을 하나로 묶을 수 있는 그리드-컴퓨팅 분야를 선도하고 있다. 최근 생물정보학 분야에서도 이처럼 발전된 고성능 분산 컴퓨팅 기술을 이용하여 데이터의 신속한 처리와 관리의 효율성을 증대시키고 있는 추세이다. 그리드-컴퓨팅 기술은 크게 데이터 가공을 위한 응용 프로그램 개발과 데이터 관리를 위한 데이터베이스 구축으로 구분 지을 수 있다. 전자에 해당하는 생물정보 연구용 프로그램들은 mpiBLAST, ClustalW-MPI와 같은 MSA서열정렬 프로그램들을 꼽을 수 있으며, BioSimGrid, Taverna와 같은 프로젝트는 그리드-데이터베이스 (Grid-Database)기술을 바탕으로 개발되었다. 본 고에서는 미지의 생명현상을 탐구하고 연구하기 위하여 현재까지 개발된 그리드-컴퓨팅 환경과 의생명과학 연구를 위한 응용 프로그램들, 그리고 그리드-데이터베이스 기술 등을 소개한다.

  • PDF

A Study on the Factors Affecting Sharing of Research Data of Science and Technology Researchers (과학기술분야 연구자의 연구데이터 공유의 영향요인에 대한 연구)

  • Kim, Moonjeong;Kim, Seonghee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.49 no.2
    • /
    • pp.313-334
    • /
    • 2015
  • The purpose of this study was to investigate factors affecting the sharing of research data of science and technology researchers. Data was collected through a survey of 198 science and technology researchers. Independent variables in this study included perception, openness in communication, collaboration, and trust. Latent variable was selected as reward system and dependent variable was research data sharing. The results of analysis of structural equation modeling showed that perception were found to have a positive impact on reward system for data sharing for research. Other factors such as trust, openness in communication and collaboration were not statistically significant in their affect on reward system for data sharing. Finally, reward system was identified as the influential factor on research data sharing.

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis (빅데이터 분석을 통한 행정구역별 홍수 취약성 분석)

  • Yu, Yeong UK;Seong, Yeon Jeong;Park, Tae Gyeong;Jung, Young Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF