• 제목/요약/키워드: 정보처리 지표

검색결과 572건 처리시간 0.033초

구직효능감(job-seeking efficacy)으로 인 한 Work-net의 이용의도 및 성과에 관한 연구 (A Study of the Effects of Job-seeking Efficacy on Use Intention and Outcome of the Work-net)

  • 오성욱;윤성준
    • 마케팅과학연구
    • /
    • 제13권
    • /
    • pp.113-133
    • /
    • 2004
  • 본 논문은 인터넷의 이용의도를 형성하는데 있어서 구직활동 태도에 대한 지각된 요소의 역할을 객관적으로 조사하고자 하였다 이에 대한 연구모델로 Davis의 TAM의 두가지 측면 즉 지각된 유용성과 지각된 용이성에 대한 경험적 연구가 이루어 졌으며 실증적으로 검증하였다. 특히, 인터넷 구적효능감 또는 추어진 목표를 성취하기 위해 요구되는 인터넷 활동을 실행하거나 조직화하는데 있어서 자신의 능력에 대한 믿음은 인터넷을 이용하는데 대한 보다 호의적 태도를 얻는데 영향을 주는 중요한 요소이다. 수집된 자료의 분석과 연구모형 검증은 회귀분석을 통해 모형의 구성개념간 이론적 인과관계와 측정지표를 통한 경험적 인과관계를 종합적으로 분석할 수 있는 AMOS 통계처리 도구활 이용하였으며 인터넷의 구직효능감에 대한 내적 일관성과 신뢰성이 확인되었다. 또한 많은 과거 연구결과에서도 지각된 유용성이 정보기술의 이용행동에 과 이용자의 수용성에 중요한 영향을 끼친 것으로 나타났으나 시간에 따라 어떻게 지각이 형성되고 변화되는지에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 인지된 유용성에 대해 영향을 미치는 결정계수들을 확인하였다. 연구 결과에 따르며 인터넷상에서 보다 높은 구직효능감이 지각된 유용성 뿐만아니라 이용의도 및 성과에 긍정적인 영향을 끼친다는 사실을 확인하였다.

  • PDF

수학·과학 성취도의 요인 분석으로 본 과학고등학교 학생들의 화학 교과에 대한 인식 연구 (A Study on the Students' Cognition of Chemistry in Science High School by Factor Analysis of Mathematics and Science Achievement)

  • 신동선;최호준;김봉곤
    • 대한화학회지
    • /
    • 제64권2호
    • /
    • pp.119-129
    • /
    • 2020
  • 과학 고등학교에서 다양한 재능을 지닌 학생들의 효과적인 교수- 학습 활동을 위해서, 교수자는 학생들의 다양한 재능과 교과목의 특성에 따라 자연세계의 정보를 인식하고 처리과정에서의 개인차를 이해하는 것이 중요하다. 본 연구의 목적은 수학/과학 성취도의 교과 간 상관 및 요인 분석으로 과학고 학생들의 화학 교과에 대한 인식을 규명하는데 있다. 아울러 R&E 학급에 따른 화학 교과의 인식을 알아보고자 하였다. 연구 대상은 입학 전형과 교육과정의 개편 시기에 따른 G과학고 3개년 입학생(296명)이 주 연구 대상자이고, 경남·울산 지역 2개 과학고를 포함하였다. 성취도의 상관 및 요인 분석은 SPSS 25를 이용하여 탐색적 요인분석법으로 수행하였다. 본 연구의 수행 결과, 다음과 같은 결론을 얻었다. 첫째, 수학·과학 성취도 간의 상관분석에서 화학의 Pearson 상관계수는 다른 교과목들에 비해 높은 정적 상관을 보이는 것이 확인되었다. 둘째, 수학·과학 성취도의 요인 분석에서 요인 지표는 수리-논리(수학, 물리)와 자연 이해(생명과학, 지구과학)의 2개 요인으로 구분되는 것이 확인되었다. 셋째, 요인 분석에서 화학 교과는 수리-논리와 자연 이해 능력이 모두 요구되는 교과로 인식하고 있음을 확인할 수 있었다. 마지막으로, R&E 학급에 따라서 화학 교과에 대한 학생들의 인식이 다르다는 것을 확인하였다. 즉, R&E 화학반 학생들은 다른 학생들과 달리 화학 교과를 수리-논리가 요구되는 과목으로 인식하고 있음이 확인되었다.

산업단지지역 하천 미생물에 의한 퍼클로레이트 제거 (Perchlorate Removal by River Microorganisms in Industrial Complexes)

  • 조강익;안영희
    • Korean Chemical Engineering Research
    • /
    • 제52권1호
    • /
    • pp.92-97
    • /
    • 2014
  • 퍼클로레이트($ClO_4^-$)는 지표수는 물론이고 토양지하수의 신규 오염물이다. $ClO_4^-$는 요오드가 갑상선에 흡수되는 것을 방해하므로 갑상선 호르몬 생성을 저하시킨다. $ClO_4^-$는 물에서 매우 용해도가 높고 안정적이라는 특징으로 인해 $ClO_4^-$를 환원하는 세균(PRB)에 의한 생분해가 자연저감의 가장 중요한 요인으로 여겨지고 있다. 산업단지 내 하천은 점 또는 비점오염원으로부터 배출된 $ClO_4^-$에 오염될 잠재성이 있다. 그래서 본 연구에서는 구미지역 산업단지 내 하천에서 물시료를 채취하여 하천미생물의 $ClO_4^-$ 분해 잠재능을 회분배양으로 조사하였다. 외부 전자공여체를 첨가하지 않고 83시간 동안 배양한 결과 모든 시료는 $ClO_4^-$ 제거효율이 0.77% 이하로 매우 낮은 것으로 나타났다. 그러나 외부 전자공여체(acetate, thiosulfate, $S^0$, 또는 $F^0$)를 첨가한 경우는 제거효율이 최고 100%로 나타났고, 첨가된 전자공여체의 종류와 시료채취지점에 따라 제거효율은 다양한 것으로 나타났다. 본 연구에서 사용한 전자공여체 중에서는 acetate를 사용했을 때 $ClO_4^-$분해효율이 가장 우수한 것으로 나타나 종속영양방식 PRB의 활성이 우세함을 알 수 있었다. 본 연구의 결과는 산업단지 내 하천 미생물에 의한 $ClO_4^-$ 자연저감에 대한 기초정보를 제공하여 원위치 생물복원처리에서 $ClO_4^-$ 생분해를 증진하기 위한 전략마련에 유용하게 사용될 것이다.

팔당호 난분해성 유기물에 대한 조류기원 유기물의 기여 (Algal Contribution to the Occurrence of Refractory Organic Matter in Lake Paldang, South Korea: Inferred from Dual Stable Isotope (13C and 15N) Tracer Experiment)

  • 이연정;하선용;허진;신경훈
    • 생태와환경
    • /
    • 제52권3호
    • /
    • pp.192-201
    • /
    • 2019
  • 효과적인 물환경관리계획을 수립하기 위해서는 다양한 기원의 유기물이 난분해성 유기물 농도 증가에 영향을 줄 수 있는지 여부를 파악하는 것이 중요하다. 특히 상당량의 광합성 산물은 식물플랑크톤에 의해 매일 생성되고 있지만, 이들이 수계 내 난분해성 유기물에 기여하는지에 대한 정보는 부족하다. 본 연구에서는 $^{13}C$$^{15}N$ 추적자 첨가실험을 통해 조류기원 유기물이 생분해(60일, 암배양) 및 산화제(과망간산칼륨) 처리 후 분해되지 않고 잔존하는지 여부를 확인하였다. 생분해 실험 결과 광합성을 통해 생성된 총 유기탄소($TO^{13}C$), 입자성 유기탄소($PO^{13}C$), 입자성 질소($P^{15}N$)는 각각 26%, 20%, 17%가 비 생분해성 유기물로 잔존하였다. 또한 상당량의 $PO^{13}C$가 과망간산칼륨에 의해 산화되지 않고 잔존하였다(초기: 12%, 60일 암배양 후: 38%). 이는 미생물에 의해 사용된 후 남아있는 조류기원 유기물이 난분해성 유기물에 기여할 수 있음을 의미한다. 또한 미생물에 의해 변형된 조류기원 유기물의 양은 COD 산화율 및 유기물 지표 간 격차에 영향을 줄 것으로 사료된다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

0/1 제약조건을 갖는 부정확한 태스크들의 총오류를 최소화시키기 위한 개선된 온라인 알고리즘 (An Improved Online Algorithm to Minimize Total Error of the Imprecise Tasks with 0/1 Constraint)

  • 송기현
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권10호
    • /
    • pp.493-501
    • /
    • 2007
  • 부정확한 실시간시스템은 시간적으로 긴급한 태스크들을 융통성있게 스케줄링해줄 수 있다. 총 오류를 최소화시키면서 0/1제약조건과 시간적 제약조건들을 모두 만족시키는 대부분의 스케줄링문제들은 선택적 태스크들이 임의의 수행시간을 갖고 있을 때 NP-complete이다. Liu는 단일처리기상에서 0/1제약조건을 갖는 태스크들을 총 오류가 최소화되도록 스케줄링시킬 수 있는 합리적인 전략을 제시하였다. 또한, 송 등은 다중처리기상에서 0/1제약조건을 갖는 태스크들을 총 오류가 최소화되도록 스케줄링시킬 수 있는 합리적인 전략을 제시하였다. 그러나, 이러한 알고리즘들은 모두 오프라인 알고리즘들이다. 그런데, 온라인 스케줄링에 있어서, NORA알고리즘은 부정확한 온라인 태스크 시스템상에서 최소의 총 오류를 갖는 스케줄을 찾을 수 있다. 이러한 NORA알고리즘에 있어서, EDF전략이 선택적 스케줄링에 적용되었다. 한편, 0/1 제약조건을 갖는 태스크시스템에 있어서는, EDF스케줄링이 총 오류가 최소화된다는 측면에서 최적이 아닐수도 있다 더욱이, 선택적 태스크들이 그들의 실행요구시간의 오름차순으로 스케쥴될 때, EBF전략이 적용된 NORA알고리즘이 최소의 총오류를 산출할 수 없을지도 모른다. 그러므로, 본 논문에서는, 0/1제약조건을 갖는 부정확한 태스크 시스템의 총 오류를 최소화시키는 온라인 알고리즘이 제안되었다. 그리고나서, 제시된 알고리즘과 NORA 알고리즘 사이의 성능을 비교하기 위하여 여러 가지 실험들이 수행되었다. 두 알고리즘들 사이의 성능비교의 결과로서, 선택적 태스크들이 그들의 실행요구시간들의 임의의 순서대로 스케줄 될 때는 제안된 알고리즘이 NORA알고리즘과 비슷한 총 오류를 산출하지만 특별히 선택적 태스크들이 그들의 실행요구시간들의 오름차순으로 스케줄 될 때는 제안된 알고리즘이 NORA알고리즘보다 더 적은 총 오류를 산출할 수 있음이 밝혀졌다. 프라이버시 문제를 해결하도록 방안을 제시한다. 구간 보안 역시 완전한 솔루션을 제시하고 있지는 않다. 본 논문에서는 이러한 취약성을 고찰하고 그에 따른 대응방안을 제시하였다.긴 경우가 1예 있었으며, 수술 후 30일내 사망한 예가 1예였고 다른 1예는 전이성 암으로 사망하였다. 걸론: 근치적 방법으로 치료가 힘든 경우의 만성 농흉 환자들에게 있어 개방식 배농술과 근육이식술, 근육피판을 이용한 최종적인 개방창 폐쇄술까지의 단계적인 접근 방법이 안전하고 효과적인 대안이 될 수 있을 것으로 생각한다.만으로 야뇨횟수에 호전을 보이는 초기반응군 경우 2개월째 투약반응이 유의하게 좋았다. 이로써 야뇨증의 치료초기 행동요법에 대한 반응정도는 치료효과를 예측하는 지표로서 활용될 수 있다고 판단된다.지침을 제공할 수 있다. 소아의 첫 요로감염시 초음파나 $^{99m}Tc$-DMSA 신장 스캔상에서 양성소견이 있을 경우 배뇨성 방광 요도 조영술 검사를 시행하는 것이 좋으며, 초음파와 $^{99m}Tc$-DMSA 신장 스캔상에서 양성소견이 없을 경우라도 CRP 또는 백혈구 등의 임상자료들을 평가하여 배뇨성 방광 요도 조영술 검사를 시행유무를 결정하는 것이 잔존하는 방광요관역류를 찾는데 도움이 될 것으로 생각된다.O$로 고칼슘뇨군에서 더 농축된 소변을 보았다(P=0.003). 결론 :고칼슘뇨군의 소변화학검사의 가장 특징적인 소견은 요소 배설과 사구체여과율의 증가로서 이는 고칼슘뇨군이 비고칼슘뇨군에 비하여 고단백식이를 하고 있을 가능성을 시사한다. 나트륨과 칼슘은 사구체 여과가 증가함에 따라 원위세뇨관 및 집합관에 도달하는 양도 증가하고 그 곳에서 나트륨의 재흡수 기전이 매우 정교하게 이루어지는데 비하여 칼슘의 그 것은 그렇지 못하여 고칼슘뇨증을 일으켰을 가능성이 있다. 향후 고칼슘뇨 환아를 진료함에 있어서 단백질 섭취 등식이

데이터마이닝 기법을 활용한 대학수학능력시험 영어영역 정답률 예측 및 주요 요인 분석 (Prediction of Correct Answer Rate and Identification of Significant Factors for CSAT English Test Based on Data Mining Techniques)

  • 박희진;장경애;이윤호;김우제;강필성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.509-520
    • /
    • 2015
  • 대학수학능력시험(수능)은 고등학교 3년간의 학업 성취도를 측정하는 대표적인 평가 도구로서 대한민국 대학 입시에 있어 매우 중요한 역할을 하는 시험이다. 응시생들의 학업 성취도를 효과적으로 평가하기 위해서는 수능의 난이도가 적절하게 조절되어야 하나 지금까지는 수능 난이도의 편차가 매우 크게 나타나 매 입시연도마다 여러 가지 문제점을 야기해왔다. 본 연구에서는 전문가의 판단에 의존한 기존 방식에서 벗어나 지금까지 시행된 모의고사 및 실제 시험을 통해 축적된 자료를 바탕으로 데이터마이닝 기법을 적용하여 영어영역 문제의 난이도를 예측하는 모델을 구축하고 난이도 예측에 영향을 미치는 요소를 판별하고자 한다. 이를 위해 각 문항의 특성을 판별할 수 있는 여러 지표와 함께 지문, 문제, 답안 등에 나타난 단어들의 특징을 토픽 모델링(topic modeling) 기법을 이용하여 정량화하고 이를 바탕으로 선형회귀분석 및 의사결정나무 기법을 이용하여 각 문항의 난이도를 예측하는 모델을 구축하였다. 구축된 예측 모델을 실제 문제에 적용한 결과 난이도의 상/하 구분에 대한 예측 정확도는 90% 수준으로 나타났으며, 실제 정답률 대비 오차 비율은 약 16% 이내인 것으로 나타났다. 또한 배점 및 문제 유형이 문제의 난이도에 큰 영향을 미치며 지문이 특정 주제에 관련된 경우에도 난이도에 영향을 미치는 것을 확인하였다. 본 연구에서 제시된 방법론을 이용하여 영어영역 각 문제들에 대한 기대 정답률의 범위를 추정할 수 있으며 이를 종합하여 영어영역 전체 문제에 대한 정답률 예측을 통해 적절한 난이도의 문제를 출제하는 데 기여할 수 있을 것으로 기대한다.

Few-Shot Learning을 사용한 호스트 기반 침입 탐지 모델 (Host-Based Intrusion Detection Model Using Few-Shot Learning)

  • 박대경;신동일;신동규;김상수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권7호
    • /
    • pp.271-278
    • /
    • 2021
  • 현재 사이버 공격이 더욱 지능화됨에 따라 기존의 침입 탐지 시스템(Intrusion Detection System)은 저장된 패턴에서 벗어난 지능형 공격을 탐지하기 어렵다. 이를 해결하려는 방법으로, 데이터 학습을 통해 지능형 공격의 패턴을 분석하는 딥러닝(Deep Learning) 기반의 침입 탐지 시스템 모델이 등장했다. 침입 탐지 시스템은 설치 위치에 따라 호스트 기반과 네트워크 기반으로 구분된다. 호스트 기반 침입 탐지 시스템은 네트워크 기반 침입 탐지 시스템과 달리 시스템 내부와 외부를 전체적으로 관찰해야 하는 단점이 있다. 하지만 네트워크 기반 침입 탐지 시스템에서 탐지할 수 없는 침입을 탐지할 수 있는 장점이 있다. 따라서, 본 연구에서는 호스트 기반의 침입 탐지 시스템에 관한 연구를 수행했다. 호스트 기반의 침입 탐지 시스템 모델의 성능을 평가하고 개선하기 위해서 2018년에 공개된 호스트 기반 LID-DS(Leipzig Intrusion Detection-Data Set)를 사용했다. 해당 데이터 세트를 통한 모델의 성능 평가에 있어서 각 데이터에 대한 유사성을 확인하여 정상 데이터인지 비정상 데이터인지 식별하기 위해 1차원 벡터 데이터를 3차원 이미지 데이터로 변환하여 재구성했다. 또한, 딥러닝 모델은 새로운 사이버 공격 방법이 발견될 때마다 학습을 다시 해야 한다는 단점이 있다. 즉, 데이터의 양이 많을수록 학습하는 시간이 오래 걸리기 때문에 효율적이지 못하다. 이를 해결하기 위해 본 논문에서는 적은 양의 데이터를 학습하여 우수한 성능을 보이는 Few-Shot Learning 기법을 사용하기 위해 Siamese-CNN(Siamese Convolutional Neural Network)을 제안한다. Siamese-CNN은 이미지로 변환한 각 사이버 공격의 샘플에 대한 유사성 점수에 의해 같은 유형의 공격인지 아닌지 판단한다. 정확성은 Few-Shot Learning 기법을 사용하여 정확성을 계산했으며, Siamese-CNN의 성능을 확인하기 위해 Vanilla-CNN(Vanilla Convolutional Neural Network)과 Siamese-CNN의 성능을 비교했다. Accuracy, Precision, Recall 및 F1-Score 지표를 측정한 결과, Vanilla-CNN 모델보다 본 연구에서 제안한 Siamese-CNN 모델의 Recall이 약 6% 증가한 것을 확인했다.

휴대장치를 위한 응용프로그램 특성에 따른 적응형 전력관리 기법 (An Application-Specific and Adaptive Power Management Technique for Portable Systems)

  • 이강웅;이재진;신현식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.367-376
    • /
    • 2007
  • 본 논문은 dynamic voltage scaling (DVS)를 지원하는 휴대장치를 대상으로 하여 응용프로그램 특성에 따라 실행 중에 전력관리 기법이 다르게 적용되는 적응형 전력관리 기법에 대하여 소개한다. 본 논문의 전력관리 기법은 멀티태스킹 시스템에서 실행되는 soft real-time 프로그램의 memory subsystem 과 프로세서의 실행 시간(run time) 및 유휴 시간(idle time)을 고려하여 프로그램 실행 중에 최적의 DVS가 적용될 수 있도록 하여 전력을 관리한다. 세부적인 전력 및 실행시간 프로파일 정보를 이용할 수 있도록 adaptive power manager(APM)를 개발하여 운영체제에 연동시켰고, Post-pass 최적화기는 APM을 위한 적응형 API를 프로그램의 실행이미지에 삽입하여 실행 중 DVS가 적용되는 코드영역을 표시한다. APM은 프로그램 실행 중에 cache miss 수 등을 측정하는 CPU의 pertormance counter들을 관찰한다. Performance counter들의 값을 바탕으로 CPU와 memory 중심의 코드 영역을 구분하여 프로세서의 유휴 시간에 대한 분석을 수행하고, 표시된 코드영역들에 대한 최적정 전압과 동작 클락을 결정하여 시스템에 반영한다. 제안하는 기법의 효과를 보이기 위하여 Intel의 XScale 프로세서 상에서 동작하는 Windows CE에 본 기법을 구현하였고, 실험을 통하여 본 논문에서 제시하는 기법이 영상이나 음성 데이타를 해독하는 프로그램과 같이 정기적으로 비슷한 일을 수행하는 프로그램에서 효과적임을 알 수 있었다. 실험 결과 본 기법으로 유휴시간에 프로세서를 저전력모드로 바꾸는 기존의 고전적인 전력 관리 기법보다 전체 시스템 전력 소모를 9% 더 절약할 수 있었다. 위성영상과 DEM 개발기술이 87% 이상의 점수를 받아 가장 시장성 및 활용성이 높은 기술로 평가되었으며, 초다분광영상에 대한 기술은 70%를 겨우 넘는 수준에서 평가가 되었다. 멀티센서 공간영상정보 통합처리 기술 개발은 다목적 실용위성의 보유, 국가 NGIS 사업의 결과물이 상당히 축척이 되어 있고, 라이다(LiDAR) 기술의 도입을 위한 환경이 조성되었기에 다른 국가에 비해 멀티센서 기술의 적용과 산업화가 가시화 될 수 있을 것으로 기대된다. 그러나 멀티센서 자료의 수급이 용이하지 못하고, 법 제도적인 한계, 시장의 성숙도가 기대이하라는 점 등의 한계를 노정하고 있다.a var. sieboldii 3. Pinus densiflora, Q. aliena, Q. acutissima, P. thunbergii, Q. acuta 4. Carpinus laxiflora, Camellia japonicas. C. tschonoskii community의 5개 그룹으로 나타났다. 하류의 부착돌말류는 상대적으로 양호한 수질을 가지고 있는 정점 1에서 다양한 생물상을, 탄천의 영향을 받는 정점 2는 상대적으로 수질이 악화되어 호오염성 종들이 높은 분포를 나타내고 있었다. 또한 부착돌말류 중 Cymbella minuta는 다른 부착돌말류에 비해 강한 오염지표성을 나타내고 있었다.p=0.000, $4.76{\pm}3.31$ vs $1.29{\pm}0.92$, p=0.000). 골전이 병소의 발생부위는 척추골이 가장 많았으며, 골반골, 늑골, 두개골, 흉골, 견갑골, 대퇴골, 쇄골, 상완골 순서였다. 두개골 전이병소에 SUVmax가 가장 높은 값을 나타내었으며, 늑골의 SUVrel가 가장 높은 값을 나타내었다. 경화성 골전이 병소가 다른 형태의 골전이

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.