• 제목/요약/키워드: generalized system

검색결과 1,595건 처리시간 0.029초

지능형 변동성트레이딩시스템개발을 위한 GARCH 모형을 통한 VKOSPI 예측모형 개발에 관한 연구 (A Study on Developing a VKOSPI Forecasting Model via GARCH Class Models for Intelligent Volatility Trading Systems)

  • 김선웅
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.19-32
    • /
    • 2010
  • 학계와 금융파생상품 가격결정이나 변동성매매와 같은 실무영역 모두에서 주식시장의 변동성은 중요한 역할을 한다. 본 연구는 GARCH 모형에 기초하여 한국주식시장의 변동성을 정확히 예측함으로써 변동성매매시스템의 성과를 높일 수 있는 새로운 방법을 제시하였다. 특히, 여러 연구 자료에서 밝혀지고 있는 변동성 비대칭성개념을 도입하였다. 최근 새로 개발된 한국주식시장 변동성 지수인 VKOSPI를 변동성 대용값으로 사용한다. VKOSPI는 KOSPI 200 지수옵션의 가격을 이용하여 계산된 값으로서 옵션딜러들의 변동성 예측치를 반영하고 있다. KOSPI 200 옵션시장은 1997년 시작되었으며, 발전을 거듭하여 현재 하루 거래량이 1,000만 계약을 넘어서면서 세계 최고의 지수옵션시장으로 발전하였다. 이러한 옵션시장에 반영된 변동성을 분석하는 것은 투자자들에게 좋은 투자정보를 제공하게 될 것이다. 특히, 변동성 대용값으로 VKOSPI를 사용하면 다른 변동성 대용치를 사용할 때 발생하는 통계적 추정의 문제를 피해 갈 수 있다. 본 연구는 2003년부터 2006년의 KOSPI 200 지수 일별자료를 대상으로 최우도추정방법(MLE)을 이용하여 GARCH 모형을 추정한다. 비대칭 GARCH 모형으로는 Glosten, Jagannathan, Runke의 GJR-GARCH 모형, Nelson의 EGARCH 모형, 그리고 Ding, Granger, Engle의 PARCH모형을 포함하며 대칭 GARCH 모형은 (1, 1) GARCH 모형을 이용한다. 2007년부터 2009년까지의 KOSPI 200 지수 일별자료를 대상으로 반복적 계산과정을 통해 내일의 변동성 예측값과 오르고 내리는 변화방향을 예측하였다. 분석 결과 시장변동성과 예기치 않은 주가변동 사이에는 음의 상관관계가 존재하며, 음의 주가변동은 동일한 크기의 양의 주가변동보다 훨씬 더 큰 변동성의 증가를 가져옴을 알 수 있다. 즉, 한국 주식시장에도 변동성 비대칭성이 존재함을 보여주었다. GARCH 모형을 이용하여 내일의 VKOSPI의 등락방향을 예측하고 이를 이용하여 변동성 매매시스템을 개발하였다. 내일의 변동성이 상승할 것으로 예측되면 스트래들매수전략을 이용하고 반대로 변동성이 하락할 것으로 예측되면 스트래들 매도전략을 이용한다. 변동성의 변화방향성을 맞춘 경우에는 VKOSPI 변동분을 더하고 틀린 경우에는 변동분을 뺀 누적합을 이용하여 변동성매매전략의 총수익을 계산한다. 모형추정용 자료구간의 경우 통계적 기준인 MSPE 기준으로는 PARCH 모형의 적합도가 가장 높고, 예측방향의 적중도를 재는 MCP 기준으로는 EGARCH 모형이 가장 높은 값을 보여주었다. 테스트용 자료구간의 경우에는 PARCH 모형이 모형적합도와 내일의 변동성 등락방향 예측에서 가장 좋은 결과를 보여주었다. 모형추정용 자료구간의 경우 GARCH 모형 전체에서 매매이익을 기록하고 있고 테스트용 자료구간의 경우에는 EGARCH 모형을 제외한 GARCH 모형들이 매매이익을 보여주었다. 본 연구에서 나타난 변동성의 군집과 비대칭성 현상으로부터 변동성에 비선형성이 존재함을 알 수 있었으며, 비선형성에서 좋은 결과를 보이고 있는 인공지능시스템과 비대칭 GARCH 모형을 결합한다면 제안된 변동성매매시스템의 성과를 많이 개선할 수 있을 것으로 판단된다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.

생산모형(生産模型)을 이용(利用)한 수출(輸出)·수입함수(輸入函數)의 가격탄성치(價格彈性値) 추정(推定) (An Estimation of Price Elasticities of Import Demand and Export Supply Functions Derived from an Integrated Production Model)

  • 이홍구
    • KDI Journal of Economic Policy
    • /
    • 제12권4호
    • /
    • pp.47-69
    • /
    • 1990
  • 수출(輸出) 수입량(輸入量)이 여러 변수(變數)들에 의해서 동시적(同時的)으로 결정(決定)되는 경우 수출(輸出) 수입함수(輸入函數)를 독립적(獨立的)으로 추정(推定)하는 것보다는 이들을 다른 경제활동수준과 함께 동시적(同時的)으로 추정(推定)하는 것이 보다 바람직하다. 본고(本稿)에서는 이에 착안하여 생산모형(生産模型)에 근거한 수출(輸出) 수입함수(輸入函數)의 가격탄성치(價格彈性値)를 추정(推定)하였다. 생산모형(生産模型)에서 수출재(輸出財)는 생산부문(生産部門)의 산출물(産出物)로, 수입재(輸入財)는 투입물(投入物)로 상정(想定)되며 이러한 생산부문(生産部門)을 분석(分析)하고 모형화(模型化)하는 데 GNP함수(函數)가 사용된다. GNP함수(函數)에 약분리성(弱分離性) 제약(制約)이 가해지면 생산모형(生産模型)의 공급(供給) 수요체계(需要體系)에 관한 미시적 정보를 사용하여 이로부터 보다 세분(細分)된 수출(輸出) 수입항목별(輸入項目別) 가격탄성치(價格彈性値)를 도출할 수 있다. 본고(本稿)는 GNP함수(函數)가 약분리성(弱分離性)을 가질 때, 이단계극대화(二段階極大化) 과정(過程)을 통해서 얻을 수 있는 수출공급(輸出供給) 수입수요(輸入需要) 국내공급(國內供給) 노동수요(勞動需要)의 가격탄성치(價格彈性値)와 세분된 수출(輸出) 수입항목(輸入項目)의 가격탄성치(價格彈性値)를 추정하였다. 상부모형(上部模型)의 추정(推定)에서는 국내공급(國內供給)과 수출공급(輸出供給)은 서로 대체관계(代替關係), 수입수요(輸入需要)와 노동수요(勞動需要)는 보완관계(補完關係)에 있으며, 투입요소(投入要素)로서 노동(勞動)과 수입재(輸入財)는 각각 국내공급(國內供給) 및 수출공급(輸出供給)과 서로 보완관계(補完關係)에 있는 것으로 나타났다. 하부모형(下部模型)에서는 세분(細分)된 수출(輸出) 수입항목(輸入項目) 상호간에는 대체(代替) 보완관계(補完關係)가 동시에 나타나는 것으로 추정되었다.

  • PDF

국립병원 간호사의 직무만족과 관련요인 연구 (A Study of Job Satisfaction and Related Factors of the National Hospital Nurses)

  • 서길희;김옥희
    • 한국보건간호학회지
    • /
    • 제7권2호
    • /
    • pp.53-66
    • /
    • 1993
  • By this time, a few of previous studies of factors related to separation from their jobs and job satisfaction only have dealt with the separation rate. the cause of separation and related factors that induce job satisfaction and incentive factors, the actualities of morale some suggestions for reduction of the separation rate. This study is attempted to determine factors that have effect on job satisfaction of national hospital nurses. and to proide information and materials for the development of the administration of nursing through the appreciation of factors influencing on job satisfaction between isolated ward nurses and general ward nurses working at national hospitals. 185 nurses of national hospitals responsed th this study, and were divided into two groups. Group 1: 57 nurses working at isolated wards for tuberculosis patients and Group 2 : 128 nurses at general wards. Relevant data were collected from August, 5, 1992 through August 20, 1992. The questionnaire consisted of 8 genalized items and 4 items concerning job satisfaction. The collected data were processed with SPSS, and the relationship among vaviables was analyzed by means of $X^2-test$, Pearson Correlation, Multiple Regression. The results of this study are as follows: 1. There is no significant difference between two groups in terms of generalized items. Age distributions show $44.3\%$ under the category of less than 34. and $55.7\%$ under the category more than 35, $19.3%$ was single and $74.6\%$ was married respectively. 2. $79.4\%$ of the nurses have the desire to have in-service education under the satisfactory physical environments such as welfare system, accommodating structures and facilities, instruments or management systems of the hospital, but under the category of unsatisfactory circumstances, $60.3\%$ have the intention of having in- service education. The concern in terms of in-service education shows statistically significant difference between two groups $(X^2=8.85,\;p<0. 05)$. This result accepts the hypothesis that good physical environments could intensify interests in service education. 3. The extent of satisfaction related to psychological environments is heightend according to good physical environments. In result, the hypothesis that the extent of satisfaction in terms of physical environments could raise satisfaction about psychological environment is accepted. 4. In the light of the extent of satisfaction about physical environments, $33.3\%$ of isolated ward nurses are satisfied with physical environments, but only $11.7\%$ of general ward nurses are satisfied. $(X^2=10.88,\; p<0.01)$. This result shows that the satisfaction degree about phusicalenvironments of isolated war nurses was higher than that of general ward nurses in spite of high physical and psychological risks due to exposure to infection. Consequently. the hypothesis was rejected that the satisfaction degree about physical environments would be lower in isolated ward nurses than in general ward nurses. 5. The fact that $87.7%$ of isolated ward nurses took interest in service education and $53.19\%$ of general ward nurses took interest in service education demonstrats that isolated ward nurse have more interest in service education than gerneral ward nurses. The result shows that the hypothesis is accepted that isolated ward nurses would have mor interests in service education than general ward nurses. 6. In the extent of satisfaction about physical environments such as morale human relationship promotion, there is no significant difference between two groups in terms of statistics. The hypothesis is rejected that satisfaction about psychologic environments would be high in isolated ward nurses than in general ward nurses. In conclusion. factors influencing on job satisfaction are considered to have effect on. another, and also interdisciplinary amelioration of factors accompanied with systematic inter cooperative investigation is necessary.

  • PDF

한국과 일본 철도산업의 비용구조와 생산성 분석 (The Analysis of Cost Structure and Productivity in the Korea and Japan Railroad Industry)

  • 박진경;김성수
    • 대한교통학회지
    • /
    • 제24권2호
    • /
    • pp.65-78
    • /
    • 2006
  • 본 연구는 한국과 일본의 철도업체를 노동, 동력, 유지보수, 그리고 차량 및 자본의 네 가지 생산요소를 투입하여 신칸센 인키로. 일반여객 인키론 톤키로의 세 가지 산출물을 생산하는 기업형태로 상정하여 일반초월대수 함수형태의 총비용함수모형을 설정하였다. 이때 네트워크효과를 나타내는 궤도연장, 한국과 일본의 비용구조 차이를 반영하는 국가더미변수, 소유구조에 따른 차이를 반영하는 민영화더미변수, 그리고 생산성 증가율을 분석하기 위한 시간변수를 함께 포함시켰다. 총비용함수모형은 철도청에 대한 27개 연도별 자료$(1977{\sim}2003)$. 일본국철(JNR, Japan National Railways)에 대한 8개 연도별 자료$(1977{\sim}1984)$. 그리고 7개 일본철도주식회사(JR's Japan Railways)에 대한 17개 연도별 자료 $(1987{\sim}2003)$를 결합한 총 154개의 불균형통합자료를 이용해 반복결합일반화 최소자승 법으로 추정하였다. 일반초월대수 총비용함수모형의 추정결과로부터 밀도, 규모 및 범위의 경제성 지수를 각각 산정한 결과 한국과 일본의 철도산업은 표본평균값에서 신칸센, 일반여객과 화물운송부문별로 각각 산출물별 밀도의 경제 및 전반적인 밀도의 경제가 존재하고, 산출물별 규모의 불경제가 존재하나 신칸센/일반여객과 화물을 제외한 일반여객/신칸센과 화물, 그리고 화물/신칸센과 일반여객 운송부문간에 범위의 경제가 존재하여 전반적으로는 다소 적은 규모의 경제가 존재하는 것으로 나타났다. KNR과 일본의 JR동일본. JR동해, JR서일본의 $1990{\sim}2003$년에 해당하는 각 업체별 평균값에서 밀도와 규모의 경제성 지수를 각각 산정한 결과 표본평균값에서 산정한 값과 비슷한 경향을 나타내었으나, 범위의 경제성 지수의 경우 JR 동해는 신칸센과 일반여객운송부문간 범위의 경제가 존재하지만 JR 동일본과 JR서일본의 경우 범위의 불경제가 존재하는 것으로 나타났다. 생산성 증가율은 전반적으로 민영업체인 JR's의 생산성 증가율이 국영업체인 KNR보다 더 큰 것으로 나타났다.

4차 산업혁명시대 가정과교육의 역할 (The Role of Home Economics Education in the Fourth Industrial Revolution)

  • 이은희
    • 한국가정과교육학회지
    • /
    • 제31권4호
    • /
    • pp.149-161
    • /
    • 2019
  • 현재 우리는 지금까지 아무도 예측하지 못할 정도의 인공지능의 발달과 빠른 기술혁신에 따른 4차 산업혁명시대로의 변화시점에 있다. 본 연구는 '4차 산업혁명시대로의 변화에 따라 가정과교육은 어떤 역할을 수행해야 하는가?'의 문제의식에서 출발하였으며, 구체적으로 4차 산업혁명시대의 특징과 교육의 방향에 따른 가정과교육의 역할에 초점을 맞추어 연구를 진행하였다. 4차 산업혁명의 특징은 인공지능(AI), 클라우드 컴퓨팅(Cloud Computing), 사물인터넷(IoT), 빅 데이터(Big Data), O2O(Online to Offline) 등으로, 일상생활뿐만 아니라 사회체제와 과학기술, 그리고 직업의 구조에 급격한 변화를 가져올 것이다. 그 과정에서 비인간화되어가는 현상, 로봇과 인공지능의 발전에 따른 인간의 도덕성과 윤리적인 면에 문제를 줄 수 있기 때문에, 4차 산업혁명 시대 교육의 방향은 미래 공동체를 위해 함께하는 인성과 시민의식을 갖춘 미래 인재를 양성하는 방향으로 총체적인 변화가 모색되어져야 한다. 또한 초지능, 초연결 사회로의 변화를 가져올 4차 산업혁명이 교육에 주는 시사점은 인간이 인간으로서의 가치를 스스로 내면화하도록 교육의 역할이 강조되어져야 한다는 것이다. 인성교육은 교육과정의 통합 속에서 개념이 정립되고 보편타당한 내면화된 의식으로 자리 잡아야 하며 구체적인 실천적 전략들이 마련되어져야 한다. 결론적으로 4차 산업혁명시대 가정과교육의 역할은 다음과 같다. 첫째, 4차 산업혁명시대 가정과교육은 인간의 본성인 인성교육의 중추적 역할을 담당하여야 한다. 인성교육을 주도적으로 담당해야 한다는 것이다. 또한 4차 산업혁명시대 가정과교육은 인간의 다양한 삶의 본질적인 개선에 선도적 역할을 담당하여야 한다. 4차 산업혁명은 인간의 정신적, 육체적 활동뿐만 아니라, 인간의 정체성도 바뀌어 갈 것이다. 3차 산업혁명 이후의 사회에서는 산재해 있는 지식을 얼마나 신속하고 정확하게 습득할 수 있느냐가 중요했다면 4차 산업혁명의 지능정보화사회에서는 빠른 변화 속에서 인간의 본성을 지키기 위해 지식을 어떻게 활용할 것인지를 배우는 것이 요구된다. 이렇듯 4차 산업혁명은 우리 삶을 형성하는 시스템에 영향을 끼침으로써 가족과 조직, 공동체를 긍정적으로 이끌어갈 수 있는 방향성을 모색하게 되는데 가정과교육이 이러한 역할을 선도적으로 담당해야 한다.

오피니언 분류의 감성사전 활용효과에 대한 연구 (A Study on the Effect of Using Sentiment Lexicon in Opinion Classification)

  • 김승우;김남규
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.133-148
    • /
    • 2014
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

성범죄 전자감독대상자들에 대한 재범추적 연구 (Recidivism Follow-Up Study on Sex offenders under Electronic Monitoring)

  • 이승원;이수정;서혜란
    • 한국심리학회지:법
    • /
    • 제12권1호
    • /
    • pp.15-33
    • /
    • 2021
  • 본 연구에서는 성범죄 전자감독대상자들의 재범 기간 추적과 동종재범여부에 따른 생존율의 차이를 분석하였으며, 범죄전력의 재범예측력을 확인하고자하였다. 재범에 대한 기준은 전자감독 실시 중 발생한 범죄사건으로 인해 유죄가 확정된 경우로 정의하였으며, 재범일은 유죄로 확정된 사건의 사건발생일로 하였다. 분석에 활용된 재범자는 122명, 비재범자는 126명이며, 모두 성범죄를 저질러 전자감독명령을 부과 받은 대상자이다. 연구 결과, 성범죄 전자감독대상자 중 재범을 저지른 자들은 대부분 3년 이내에 재범하는 것으로 확인되었다. 또한 본 연구에서는 재범사건을 이종재범과 동종재범으로 분류한 후 집단 간 생존율의 차이를 분석하였다. 집단구성인원은 각각 이종재범집단 88명, 동종재범집단 34명으로 분석 결과, 두 집단 모두 3년 이내에 가장 많은 재범이 확인되었다. 이종재범집단의 생존율과 동종재범집단의 생존율은 다소 차이가 나타나는 것으로 확인되어 비교분석을 수행하였으며 통계적으로 유의한 수준의 차이는 확인되지 않았다(Wilcoxon statistic = 2.326, df = 1, p = .13, Log Rank = 1.345, df = 1, p = .25). 다음으로 범죄전력 변수의 재범 예측력 확인을 위해 Cox회귀분석을 실시한 결과, 성범죄 전력횟수와 폭력범죄 전력횟수는 성범죄 전자감독대상자의 재범을 잘 예측하는 것으로 분석되었다(X2=27.33, df=1, < .001). 결과적으로 최근 발표되는 자료들에 따르면, 전자감독의 시행으로 재범률이 점차 낮아지고 있으나, 전자감독 대상자 중 고위험군(재범집단)에 속하는 대상자들의 재범소요기간은 다소 짧은 것으로 확인되었다. 이들에 대한 집중적인 통제와 관리가 이루어지기 위해서는 초고위험 집단을 선별할 필요가 있다. 이에, 본 연구와 같이 고위험군에 대한 특성 및 재범연구들을 기반으로 처분의 근거를 마련하는 것은 형사사법절차의 객관성을 부여하는데 있어 큰 역할을 할 것이다.

  • PDF