• Title/Summary/Keyword: 언어 예측 모델

Search Result 187, Processing Time 0.035 seconds

Application of IDL for Establishing the Database and Visualization System of National Wind Map (국가바람지도 데이터베이스화 및 가시화를 위한 IDL 활용)

  • Kim, Hyun-Goo;Lee, Soon-Hwan;Lee, Sang-Woo;Lee, Jong-Hyuk
    • 한국신재생에너지학회:학술대회논문집
    • /
    • 2010.06a
    • /
    • pp.185.2-185.2
    • /
    • 2010
  • 한반도 국가바람지도(김현구, 2009)는 한국에너지기술연구원에서 지식경제부의 부처임무사업으로 구축되었으며 현재 웹서비스(http://www.kier-wind.org)를 통하여 정보를 제공하고 있다. 국가바람지도는 수치기상예측(NWP; Numerical Weather Prediction) 모델을 이용하여 영토, 영해에 대해 $1km{\times}1km$의 고해상도로 작성한 뒤(이순환 등, 2009) 풍력자원 정보로 재가공되었다. 한반도 국가바람지도는 5년의 장기간에 대한 시계열 수치기상예측에 의하여 구축되었기 때문에 데이터베이스(DB; database)의 효율적 관리가 필연적으로 요구된다. MM5 또는 WRF 모델의 고유 출력포맷의 자료구조는 풍력자원분석에 필요한 기상요소 외에도 대기과학자에게 필요한 수많은 기상인자를 종합적으로 포함하고 있다. 따라서 2차원 층(layer) 또는 3차원 공간분포 분석 및 계산격자인 셀(cell)에서의 1차원 시계열 분석 등 다양한 자료축출에는 비효율적인 자료구조가 된다. 이러한 자료구조의 불편을 해소하기 위해서는 기상요소별로 독립적이고 빈번한 시계열 자료 추출에 효율성을 가지며 어떤 프로그래밍 언어를 사용하든지 직관적으로 쉽게 사용할 수 있는 바람지도 데이터베이스의 재구성이 요구된다. 이에 대용량 수치자료의 처리 측면에서 장점을 가지는 과학기술 프로그래밍 언어인 IDL을 기반으로 국가바람지도의 자료구조를 효율화하여 데이터베이스화 하였으며 IDL에 내재된 그래픽 기능을 활용하여 가시화를 구현함으로써 연구개발자의 입장에서 국가바람지도의 활용성 및 효율성을 향상시키고자 하였다.

  • PDF

Korean Dependency Parsing Using ELMo and Multi-head Attention (ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석)

  • Park, Seongsik;Oh, Shinhyeok;Kim, Hongjin;Kim, Sihyung;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

A Case Study of Basic Data Science Education using Public Big Data Collection and Spreadsheets for Teacher Education (교사교육을 위한 공공 빅데이터 수집 및 스프레드시트 활용 기초 데이터과학 교육 사례 연구)

  • Hur, Kyeong
    • Journal of The Korean Association of Information Education
    • /
    • v.25 no.3
    • /
    • pp.459-469
    • /
    • 2021
  • In this paper, a case study of basic data science practice education for field teachers and pre-service teachers was studied. In this paper, for basic data science education, spreadsheet software was used as a data collection and analysis tool. After that, we trained on statistics for data processing, predictive hypothesis, and predictive model verification. In addition, an educational case for collecting and processing thousands of public big data and verifying the population prediction hypothesis and prediction model was proposed. A 34-hour, 17-week curriculum using a spreadsheet tool was presented with the contents of such basic education in data science. As a tool for data collection, processing, and analysis, unlike Python, spreadsheets do not have the burden of learning program- ming languages and data structures, and have the advantage of visually learning theories of processing and anal- ysis of qualitative and quantitative data. As a result of this educational case study, three predictive hypothesis test cases were presented and analyzed. First, quantitative public data were collected to verify the hypothesis of predicting the difference in the mean value for each group of the population. Second, by collecting qualitative public data, the hypothesis of predicting the association within the qualitative data of the population was verified. Third, by collecting quantitative public data, the regression prediction model was verified according to the hypothesis of correlation prediction within the quantitative data of the population. And through the satisfaction analysis of pre-service and field teachers, the effectiveness of this education case in data science education was analyzed.

A Development of Air Dispersion Software for Administrating Air Pollutant Emission Facility (대기배출시설 관리용 대기확산 소프트웨어 개발)

  • 김종화;황주현;박성순;구윤서;이임학;김성태;전경석;윤희영
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.396-399
    • /
    • 2000
  • 환경부가 발표한 21세기 대기환경관리 정책방향에서도 사업장의 대기오염 물질 관리강화를 포함시키고 있어, 이제 바야흐로 우리 나라도 사업장에 대한 과학적인 대기 환경관리 정책이 요구되고 있다. 그러나, 현재 대기확산예측 평가분야는 아직 국내기술이 미약하고, 사용되는 소프트웨어는 미국환경보호청에서 추천하는 모델을 사용하므로, 국내 실정에 맞는 데이터를 적용하기에 많은 인력과 시간을 소모해야 했다. 본 프로그램은 기존의 포트란으로 프로그램 된 소프트웨어보다 비주얼한 환경에 중점을 두고 C++언어로 프로그램 하였다. 또한, 국내 실정에 맞는 데이터를 사용하여 적은 비용과 짧은 시간 내에 대기확산예측을 할 수 있다.

  • PDF

Cognitive characteristics of artificial intelligence techniques for searching and interpreting disaster information (재난 정보 검색 및 해석을 위한 인공지능 기법의 인지 특성)

  • SeokHwan Hwang;Jeongha Lee;Byoung-Hwa Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.450-450
    • /
    • 2023
  • 인공지능 기법의 급격한 발달에 따라 다양한 분야에서 인공지능 기법을 활용하기 위한 노력이 이루어지고 있다. 재난은 발생하기 전에 다양한 전조 현상을 나타내나 수많은 정보 속에서 전조 증상을 정확히 인지하는 것은 매우 어렵다. 따라서 인공지능은 방대한 사전 정보의 해석을 통해 재난 발생의 전조를 신속 정확하게 감지하는데 최적의 기술이다. 최근 OpenAI의 딥러닝 기반의 언어모델인 GPT(Generative Pre-trained Transformer)의 성능이 기대 이상을 나타내면서 많은 분야에서 GPT에 대한 관심과 실험이 시작되고 있다. 본 실험에서는 GPT를 이용하여 재난 검색 및 해석의 특징을 검토하여 보았다. 정확한 재난 기록은 정확한 재난 예측을 위해 반드시 필요한 자료이나 부정확한 재난 기록은 그 기록이 비록 방대하더라도 오히려 예측의 신뢰도를 크게 떨어뜨린 수 있다. 따라서 비지도학습 기반의 대화형 인공지능을 재난 검색에 활용하기 위해서는 인공지능 기법의 인지 특성을 반드시 가늠해 봐야 한다. 향후 보다 많은 연구자가 이에 관심을 가진다면 보다 정확한 인공지능 기반의 재난 탐지 기술의 개발이 가능할 것으로 기대된다.

  • PDF

Real-Time Stock Price Prediction using Apache Spark (Apache Spark를 활용한 실시간 주가 예측)

  • Dong-Jin Shin;Seung-Yeon Hwang;Jeong-Joon Kim
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.4
    • /
    • pp.79-84
    • /
    • 2023
  • Apache Spark, which provides the fastest processing speed among recent distributed and parallel processing technologies, provides real-time functions and machine learning functions. Although official documentation guides for these functions are provided, a method for fusion of functions to predict a specific value in real time is not provided. Therefore, in this paper, we conducted a study to predict the value of data in real time by fusion of these functions. The overall configuration is collected by downloading stock price data provided by the Python programming language. And it creates a model of regression analysis through the machine learning function, and predicts the adjusted closing price among the stock price data in real time by fusing the real-time streaming function with the machine learning function.

Analysis of muddy water generation status using R (R을 이용한 흙탕물 발생현황 분석)

  • Park, Woon Ji;Oh, Seung Min;Lim, Kyoung Jae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.350-350
    • /
    • 2022
  • R은 통계 및 빅데이터 분석에 널리 사용되는 오픈 소스 프로그래밍 언어로, 통계와 그래픽스에 관련된 기능을 확정할 수 있어 다양한 분야에 활용되고 있다. 특히, 수자원 분야의 연구에서 그 활용이 늘어나고 있으며, 최근 들어 다양한 수자원 관련 R 패키지가 발표되고 있다. 이중, 미국 지질조사국(U.S. Geological Survey, USGS)이 개발한 EGRET은 수질 및 유출량 자료의 장기 추세 변화 분석을 위한 패키지로 R 프로그래밍 언어를 기반으로 구동되며, 분석·처리한 데이터에 대하여 광범위한 그래픽 프리젠테이션을 제공하여 탐색적 자료 분석에 매우 효과적인 도구이다. 특히, EGRET 패키지는 농도와 유출 사이의 관계 특성, 수집된 자료의 계절성 존재 및 특성, 점진적 또는 급격한 경향의 존재를 검토할 수 있는 그래픽 결과를 제시하며, 가중 회귀(Weighted Regressions on Time, Discharge, and Season, 이하 WRTDS) 모델을 적용하여 농도와 부하의 상태와 경향을 특성화한다. 시간, 유량 및 계절에 대한 WRTDS 모델은 농도 및 부하의 상태와 경향을 특성화하는 데 사용할 수 있는 수질 데이터 세트의 분석 방법으로, 근본적으로 탐색적 데이터 분석 방법으로 다양한 유형의 트렌드 시나리오에 민감하도록 설계되었으며 선형 또는 2차 함수형에 맞지 않을 수 있는 시간적 추세를 탐지하여 설명할 수 있고, 불규칙한 간격의 자료를 사용하기에 적합한 장점이 있다. 본 연구에서는 북한강 상류의 지속적인 흙탕물 발생으로 문제가 되고 있는 자운지구의 자운천을 대상으로 흙탕물 발생 현황을 분석하기 R을 이용하여 탐색적 자료 분석을 실시하였다. 자료 분석은 EGRET 패키지를 사용하여 수집된 자료(2016년 4월 - 2021년 7월까지 수집된 191개의 SS 자료와 인근 유량측정망의 유량자료)의 유량과 SS 농도 간의 관계, 시간에 따른 SS 농도 분포, SS 농도의 월별 특성 분석 및 유황별 SS 농도 변화 등을 검토하였으며, WRTDS 모델로 SS와 부하량을 예측하고 검토하여 자운천 유역의 흙탕물 부하 특성을 검토하였다.

  • PDF

In Silico Approach for Predicting Neurotoxicity (In silico 기법을 이용한 신경독성 예측)

  • Lee, So-yeon;Yoo, Sun-yong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.270-272
    • /
    • 2022
  • Safety is one of the factors that prevent clinical drugs from being distributed on the market. In the case of neurotoxicity, which is the main cause of safety problems caused by drug side effects, risk assessment of drugs and compounds is required in advance. Currently, experiments for testing drug safety are based on animal experimetns, which have the disadvantage of being time-consuming and expensive. Therefore in order to solve the above problem, a neurotoxic prediction model through an in silico experiment was suggested. In this study, the category of neurotoxicity was expanded using a unified medical language system and various related compound data were obtained based on an integrated database. The SMILES (Simplified Molecular Input Line Entry System) of the obtained compounds were converted into fingerprints and it is used as input of machine learning. The model finally predicts the presence or absence of neurotoxicity. The experiment proposed in this study can reduce the time and cost required for the in vivo experiment. Furthermore, it is expected to shorten the research period for new drug development and reduce the burden of suspension of development.

  • PDF

A Multi-task Self-attention Model Using Pre-trained Language Models on Universal Dependency Annotations

  • Kim, Euhee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.11
    • /
    • pp.39-46
    • /
    • 2022
  • In this paper, we propose a multi-task model that can simultaneously predict general-purpose tasks such as part-of-speech tagging, lemmatization, and dependency parsing using the UD Korean Kaist v2.3 corpus. The proposed model thus applies the self-attention technique of the BERT model and the graph-based Biaffine attention technique by fine-tuning the multilingual BERT and the two Korean-specific BERTs such as KR-BERT and KoBERT. The performances of the proposed model are compared and analyzed using the multilingual version of BERT and the two Korean-specific BERT language models.

Flood Estimation Using Neuro-Fuzzy Technique (Neuro-Fuzzy 기법을 이용한 홍수예측)

  • Ji, Jung-Won;Choi, Chang-Won;Yi, Jae-Eung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.128-132
    • /
    • 2012
  • 물은 생물의 생존을 위해 필수적인 요소로 인류가 시작된 이래로 물을 효율적으로 이용하고 안전하게 관리하기 위한 노력은 계속되어 왔다. 최근 지구 온난화가 주요 원인으로 알려진 국지성 집중호우의 피해는 매우 심각하며, 이로 인해 치수에 대한 중요성은 날로 커지고 있다. 지금까지 사용해 왔던 홍수 예 경보 과정은 특정 지점의 유출량을 예측하기 위해서 강우-유출 모형을 운영하였다. 그러나 물리적 모형의 경우 운영에 필요한 매개변수의 결정과정이 복잡하고, 매개변수 결정을 위해 많은 자료를 필요로 한다. 또한 그 매개변수의 결정과정은 많은 불확실성을 포함하고 있어서 모형의 운영을 위한 전처리과정과 계산과정을 거치는 동안 발생한 오차가 누적되어 결과물 속에는 많은 오차가 포함되어 있다. 본 연구에서는 기존의 홍수 예 경보 시스템의 문제점과 불확실성을 최대한 감소시키고 더 우수한 유출량 예측을 위해 neuro-fuzzy 추론 기법을 이용한 모형인 ANFIS(Adaptive Neuro-Fuzzy Inference System)를 사용하여 하천수위를 예측하였다. ANFIS는 신경회로망과 퍼지이론을 결합한 기법으로 신경회로망의 구조와 학습 능력을 이용하여 제어환경에서 획득한 입 출력 정보로부터 언어변수의 membership 함수와 제어규칙을 제어 대상에 적합하도록 자동으로 조종하는 기법이다. 본 연구에서는 ANFIS를 사용하여 탄천 하류에 위치한 대곡교의 수위를 예측하였다. 분석을 위해 2007년부터 2011년까지의 탄천 유역의 관측 강우자료와 수위 자료 중 강우강도와 지속시간, 강우 형태에 따라 7개의 강우사상을 선정하였다. 학습자료 및 보정자료의 변화에 따른 예측 오차를 비교하여 모형의 적용성과 적정성을 평가하였다. 적용결과 입력자료 구성의 경우 해당 시간의 강우량 및 수위자료와 10분 전 강우자료를 이용한 모델이 가장 우수한 예측을 보였고, 학습자료의 경우 자료의 길이가 길고, 최대홍수량이 큰 경우 가장 우수한 예측 결과를 보였다. 본 연구의 적용결과 가장 우수한 모형의 경우 30분 예측 첨두수위 오차는 0.32%, RMSE는 0.05m 이고 예측시간이 길어짐에 따라 오차가 비선형적으로 증가하는 경향을 보였다.

  • PDF