• 제목/요약/키워드: 정보와 학습

검색결과 12,836건 처리시간 0.04초

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

입 모양 인식 시스템 전처리를 위한 관심 영역 추출과 이중 선형 보간법 적용 (Region of Interest Extraction and Bilinear Interpolation Application for Preprocessing of Lipreading Systems)

  • 한재혁;김용기;김미혜
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.189-198
    • /
    • 2024
  • 입 모양 인식은 음성 인식의 중요 부분 중 하나로 음성 인식을 위한 입 모양 인식 시스템에서 입 모양 인식 성능을 개선하기 위한 여러 연구가 진행됐다. 최근의 연구에서는 인식 성능을 개선하기 위해 입 모양 인식 시스템의 모델 구조를 수정하는 방법이 사용됐다. 본 연구에서는 모델 구조를 수정하는 것으로 인식 성능을 개선하는 기존의 연구와 달리 모델 구조의 변화 없이 인식 성능을 개선하는 것을 목표로 한다. 모델 구조의 수정 없이 인식 성능을 개선하기 위해, 사람이 하는 입 모양 인식에서 사용되는 단서를 참고해 입 모양 인식 시스템의 기존 관심 영역인 입술 영역과 함께 턱, 뺨과 같은 다른 영역을 관심 영역으로 설정하고 각 관심 영역의 인식률을 비교해 가장 높은 성능의 관심 영역을 제안한다. 또한, 관심 영역 크기를 정규화하는 과정에서 보간법의 차이로 인해 발생하는 정규화 결과의 차이가 인식 성능에 영향을 준다고 가정하고 최근접 이웃 보간법, 이중 선형 보간법, 이중 삼차 보간법을 사용해 동일한 관심 영역을 보간하고 각 보간법에 따른 입 모양 인식률을 비교해 가장 높은 성능의 보간법을 제안한다. 각 관심 영역은 객체 탐지 인공신경망을 학습시켜 검출하고, 각 관심 영역을 정규화하고 특징을 추출하고 결합한 뒤, 결합된 특징들을 차원 축소한 결과를 저차원 공간으로 매핑하는 것으로 동적 정합 템플릿을 생성했다. 생성된 동적 정합 템플릿들과 저차원 공간으로 매핑된 데이터의 거리를 비교하는 것으로 인식률을 평가했다. 실험 결과 관심 영역의 비교에서는 입술 영역만을 포함하는 관심 영역의 결과가 이전 연구의 93.92%의 평균 인식률보다 3.44% 높은 97.36%의 평균 인식률을 보였으며, 보간법의 비교에서는 이중 선형 보간법이 97.36%로 최근접 이웃 보간법에 비해 14.65%, 이중 삼차 보간법에 비해 5.55% 높은 성능을 나타내었다. 본 연구에 사용된 코드는 https://github.com/haraisi2/Lipreading-Systems에서 확인할 수 있다.

이물 객체 탐지 성능 개선을 위한 딥러닝 네트워크 기반 저품질 영상 개선 기법 개발 (Development of deep learning network based low-quality image enhancement techniques for improving foreign object detection performance)

  • 엄기열;민병석
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.99-107
    • /
    • 2024
  • 경제성장과 산업 발전에 따라 반도체 제품부터 SMT 제품, 전기 배터리 제품에 이르기 까지 많은 전자통신 부품들의 제조과정에서 발생하는 철, 알루미늄, 플라스틱 등의 이물질로 인해 제품이 제대로 동작하지 않거나, 전기 배터리의 경우 화재를 발생하는 문제까지 심각한 문제로 이어질 가능성이 있다. 이러한 문제를 해결하기 위해 초음파나 X-ray를 이용한 비파괴 방법으로 제품 내부에 이물질이 있는지 판단하여 문제의 발생을 차단하고 있으나, X-ray 영상을 취득하여 이물질이 있는지 판정하는 데에도 여러 한계점이 존재한다. 특히. 크기가 작거나 밀도가 낮은 이물질들은 X-Ray장비로 촬영을 하여도 보이지 않는 문제점이 있고, 잡음 등으로 인해 이물들이 잘 안 보이는 경우가 있으며, 특히 높은 생산성을 가지기 위해서는 빠른 검사속도가 필요한데, 이 경우 X-ray 촬영시간이 짧아지게 되면 신호 대비 잡음비율(SNR)이 낮아지면서 이물 탐지 성능이 크게 저하되는 문제를 가진다. 따라서, 본 논문에서는 저화질로 인해 이물질을 탐지하기 어려운 한계를 극복하기 위한 5단계 방안을 제안한다. 첫번째로, Global 히스토그램 최적화를 통해 X-Ray영상의 대비를 향상시키고, 두 번째로 고주파 영역 신호의 구분력을 강화하기 위하여 Local contrast기법을 적용하며, 세 번째로 Edge 선명도 향상을 위해 Unsharp masking을 통해 경계선을 강화하여 객체가 잘 구분되도록 한다, 네 번째로, 잡음 제거 및 영상향상을 위해 Resdual Dense Block(RDB)의 초고해상화 방법을 제안하며, 마지막으로 Yolov5 알고리즘을 이용하여 이물질을 학습한 후 탐지한다. 본 연구에서 제안하는 방식을 이용하여 실험한 결과, 저밀도 영상 대비 정밀도 등의 평가기준에서 10%이상의 성능이 향상된다.

인공지능 챗GPT의 교육목회에 효율적인 활용방안 (Efficient use of artificial intelligence ChatGPT in educational ministry)

  • 옥장흠
    • 기독교교육논총
    • /
    • 제78권
    • /
    • pp.57-85
    • /
    • 2024
  • 연구의 목적 : 본 연구는 인공지능 생성형 AI를 교육목회에 활용하기 위하여, 인공지능과 생성형 AI의 개념과 교육목회의 교육신학적 측면을 분석하여 인공지능 ChatGPT를 교육목회에 효율적인 활용방안을 모색하는 것이다. 연구의 내용 및 방법 : 본 연구의 내용은 첫째, 인공지능과 생성형 AI의 개념을 인공지능의 개념, 인공지능의 종류, 생성형 언어모델 AI ChatGPT로 나누어 분석하였다. 둘째, 교육목회의 교육신학적 접근을 교육목회의 개념, 교육목회의 목표, 교육목회의 내용, 인공지능 시대 교육목회의 방향으로 나누어 분석하였다. 셋째, 인공지능 ChatGPT를 교육목회의 활용방안을 모색하기 위하여, 초대교회 공동체의 교회의 5가지 기능(행 2:42~47)을 중심으로, 설교 원고 작성의 도구, 예배와 기도의 준비 도구, 교회 교육을 위한 도구, 성도의 교재를 위한 도구, 섬김과 봉사를 위한 도구로 나누어 분석하였다. 결론 및 제언 : 본 연구의 결론은 첫째, 인공지능 ChatGPT를 통해서 설교 원고를 작성하는 경우 설교자의 영성과 신앙, 그리고 통찰을 통해서 질 좋은 설교 원고를 작성할 수 있다. 둘째, 인공지능 ChatGPT를 통해서 효율적으로 예배를 디자인하고, 기획하고, 다양한 시나리오를 통해서, 객관적으로 회중을 섬기는 예배(Service)를 준비할 수 있다. 셋째, 인공지능 ChatGPT를 교회 교육에 활용함으로, 인간과 인공지능 교사와 협업을 통해서 교사와의 상호 보완적인 관계를 유지하면서 활용할 수 있다. 넷째, 인공지능 ChatGPT를 통해서 교회 공동체 구성원들이 영적 교제를 나눌 수 있는 프로그램, 교회 구성원의 필요를 충족시키고 상호 의존성을 강화시킬 수 있는 방안, 새로운 사람들을 적극적으로 환영하고, 다양성을 존중하는 태도를 길러주고, 그리스도의 사랑 안에서 서로 사랑하고, 섬기며, 함께 성장해 나가는 데 중요한 역할을 할 수 있는 유익한 자료들을 제공해 준다. 마지막으로, 인공지능 ChatGPT를 통해서 봉사활동에 대한 다양한 정보와 지역사회의 아동이나 청소년들에게 학습 지원, 멘토링 관련 프로그램, 지역사회의 마을 공동체를 형성하는데 주도적인 역할 등을 수행할 수 있는 방안들을 모색하는 프로그램들을 제공 받을 수 있다.

학원의 에듀테크특성과 유·무형적서비스가 학부모의 재수강의도에 미치는 영향: 라포형성행동의 조절효과 (The Impact of Edu-Tech and Tangible and Intangible Services of Private Institutes on parents' Intention for Re-Enrollment: The Moderating Effect of Rapport-Building Behavior)

  • 전지연;하태관
    • 벤처창업연구
    • /
    • 제19권4호
    • /
    • pp.127-139
    • /
    • 2024
  • 본 연구는 에듀테크특성과 유·무형의 교육서비스가 학원의 경영성과와 직접적 관련이 있는 재수강의도에 미치는 영향에 관한 연구이다. 연구 결과를 근거로 학원의 재수강의도와 경영성과 향상 방안 제시를 목적으로 연구하였다. 사교육은 공교육의 한계를 보완하며 지속적으로 성장하며, 학부모의 의존도를 높여가고 있다. 본 연구는 정보통신기술의 발달과 함께 교육현장에서 활용도를 높여가고 있는 에듀테크특성과 무형적서비스 및 유형적서비스 요인들이 재수강의도에 영향을 미칠 것이라는 가설과 각 요인들이 재수강의도에 영향을 미치는데 있어 학부모와의 라포형성행동이 조절효과가 있을 것이라는 가설을 검증하였다. 가설 검증결과, 에듀테크특성 중 콘텐츠와 무형적서비스인 신뢰성과 공감성 그리고 유형적서비스인 유형성과 지불접근성이 재수강의도에 긍정적인 영향을 주는 것으로 나타났다. 학원의 교육서비스와 재수강의도 사이에서 라포형성행동이 조절효과를 나타낼 것이라는 가설은 무형적서비스의 공감성과 유형적서비스의 유형성 두 가지 요인이 채택되었다. 가설 검증 결과를 바탕으로 본 연구에서는 학원의 경영성과 향상을 위한 세 가지 방안을 제시하였다. 첫째, 에듀테크특성의 개선과 관리 차원에서 에듀테크의 도입 및 콘텐츠의 최신화와 운영의 안정성 확보를 제안하였다. 둘째, 무형적서비스의 개선과 관리 차원에서 강사의 자질과 역량 향상을 위한 채용관리와 공신력 있는 기관을 통한 지속적 교육으로 전문성 유지 그리고 교육 프로그램의 질적 수준 향상을 바탕으로 한 학생 수준별 교육을 제안하였다. 셋째, 유형적서비스의 개선과 관리 차원에서 적절한 수강료 책정과 온라인, 모바일, 카드, 계좌이체 등 장소와 시간에 구애함 없는 다양한 수강료 납부 방법의 마련과 학습에 집중할 수 있는 인테리어와 편의시설 구비를 제안하였다. 또한 라포형성행동의 조절효과를 고려하여 유형성의 개선과 관리에 있어 비용을 수반하는 개선이나 관리도 필요하지만 라포형성을 통해 유형성의 수준이 높다고 느끼게 하는 것도 중요함을 주장하였다. 또한 정보통신기술 기반의 에듀테크의 중요성이 증가하고 있는 만큼 LLM 기반의 AI기술, AR·VR을 적용한 메타버스 환경구축 등 혁신적 기술을 도입하고자 하는 벤처정신을 갖춘 학원에 대한 정부의 기술지원, 벤처인증제도 지원과 같은 다양한 지원책이 필요하다. 본 연구가 교육현장에서 개선하고 관리하여야 할 항목과 방법을 구체적으로 제시함으로써 학원의 경영성과 개선에 도움이 될 것이라 기대한다.

  • PDF

부모진로지지와 진로자기조절, 진로정체감의 관계 - 방사선과 학생 대상 - (Relationship between Parental Career Support, Career Self-Regulation, and Career Identity - with Student Dep. of Radiologic Technology -)

  • 김인숙;이인자
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제38권3호
    • /
    • pp.295-304
    • /
    • 2015
  • 방사선과 1, 2, 3학년 학생들의 부모진로지지(정보적, 정서적, 경제적, 경험적)의 영향으로 진로자기조절 관계(계획 및 점검, 긍정적사고, 진로피드백, 진로환경조성), 진로정체감 관계(진로결정, 우유부단, 진로미결정)을 알아보고자 설문을 중심으로 분석한 결과 다음과 같은 상관관계가 있음을 알 수 있었다. 부모진로지지 중에 정서적지지는 계획 및 점검(r=.25, p<.001), 진로피드백(r=.54, p<.001), 긍정적사고(r=.46, p<.001)는 높은 상관을 보였고, 정보적지지도 진로환경조성(r=.22, p<.001), 계획 및 점검(r=.20, p<.001), 진로피드백(r=.24, p<.001), 긍정적사고(r=.26, p<.001)도 모두 높은 상관을 보였다. 경제적지지는 진로피드백(r=.33, p<.001), 긍정적사고(r=.34, p<.001)은 다소 높은 상관을 보였다. 경험적지지는 진로환경조성(r=.18, p<.001), 계획 및 점검(r=.25, p<.001), 진로피드백(r=.37, p<.001), 긍정적사고(r=.30, p<.001) 모두 높은 상관을 보였다. 부모진로지지 중에 정서적지지는 진로결정(r=.27, p<.001), 경제적지지 역시 진로결정(r=.18, p<.001), 경험적지지도 진로결정(r=.23, p<.001)에서만 다소 높은 상관을 보였다. 부모진로지지에 따른 학년간의 차이는 정서적지지(F=8.52, p<.001), 경제적지지(F=8.97, p<.001), 경험적지지(F=5.36, p<.05)에 유의한 차이가 나타났다. 진로자기조절에 따른 학년간의 차이는 진로피드백(F=8.48, p<.001), 긍정적사고(F=16.29, p<.001)에 유의한 차이가 나타났다. 진로정체감에 따른 학년간의 차이는 진로미결정(F=4.01, p<.05), 진로결정(F=11.72, p<.001)에 유의한 차이가 나타났다. 부모진로지지가 진로과업을 성장시키는 자녀나 청소년들에게 얼마나 많은 영향력을 발휘하는지에 대한 연구 결과가 나왔으며, 전문적인 후속 연구가 필요로 하며 부모님들이 자녀의 진로나 의사결정에 전적으로 참여하기보다는 지원하고 도울 수 있는 객관적인 입장으로 보살펴주는 부모의 역할이 매우 필요할 것으로 생각된다. 특히 방사선과 전체 학생들은 자신이 진로결정 시 가장 영향을 준 사람은 본인의 의사를 제외하면 부모님의 영향(30.1%)이 높은 결과가 나왔으며, 또한 전공 선택 시 가장 큰 동기는 취업전망이 좋을 것 같아서가 40%로 높은 결과가 나왔다. 이러한 결과들은 고등학교에서 대학 진학 진로결정시 자신의 흥미나 적성보다는 현실적인 문제인 취업전망이 좋은 부분에 많은 관심을 가지고 진로결정을 하였다는 결과로 보여 지고 있다. 또한 정보, 정서, 경제, 경험들의 부모진로지지가 자신의 진로목표 및 목표를 달성하기 위해 자신을 조절할 수 있게 영향을 주며 또한 진로결정에 많은 영향력을 주는 것을 알 수 있으나, 현재 방사선과 학생들의 진로선택은 흥미나 적성보다는 시대에 맞춘 취업 전망이 중요한 부분이고, 또한 대부분의 부모도 미래에 자녀가 안정된 직업을 얻었으면 하는 바람을 갖고 있다. 이러한 기대로 방사선과에 입학한 학생들이 비록 적성과 흥미가 맞지 않아서 대학생활이나 전공공부 하는데 어려움을 겪고 있는 학생들에게 잘 적응 할 수 있도록 부모진로지지 만큼이나 학생들의 학습지도나 정서지지가 필요하다고 생각한다.

텍스트 마이닝 기법을 활용한 인공지능 기술개발 동향 분석 연구: 깃허브 상의 오픈 소스 소프트웨어 프로젝트를 대상으로 (A Study on the Development Trend of Artificial Intelligence Using Text Mining Technique: Focused on Open Source Software Projects on Github)

  • 정지선;김동성;이홍주;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2019
  • 제4차 산업혁명을 이끄는 주요 원동력 중 하나인 인공지능 기술은 이미지와 음성 인식 등 여러 분야에서 사람과 유사하거나 더 뛰어난 능력을 보이며, 사회 전반에 미치게 될 다양한 영향력으로 인하여 높은 주목을 받고 있다. 특히, 인공지능 기술은 의료, 금융, 제조, 서비스, 교육 등 광범위한 분야에서 활용이 가능하기 때문에, 현재의 기술 동향을 파악하고 발전 방향을 분석하기 위한 노력들 또한 활발히 이루어지고 있다. 한편, 이러한 인공지능 기술의 급속한 발전 배경에는 학습, 추론, 인식 등의 복잡한 인공지능 알고리즘을 개발할 수 있는 주요 플랫폼들이 오픈 소스로 공개되면서, 이를 활용한 기술과 서비스들의 개발이 비약적으로 증가하고 있는 것이 주요 요인 중 하나로 확인된다. 또한, 주요 글로벌 기업들이 개발한 자연어 인식, 음성 인식, 이미지 인식 기능 등의 인공지능 소프트웨어들이 오픈 소스 소프트웨어(OSS: Open Sources Software)로 무료로 공개되면서 기술확산에 크게 기여하고 있다. 이에 따라, 본 연구에서는 온라인상에서 다수의 협업을 통하여 개발이 이루어지고 있는 인공지능과 관련된 주요 오픈 소스 소프트웨어 프로젝트들을 분석하여, 인공지능 기술 개발 현황에 대한 보다 실질적인 동향을 파악하고자 한다. 이를 위하여 깃허브(Github) 상에서 2000년부터 2018년 7월까지 생성된 인공지능과 관련된 주요 프로젝트들의 목록을 검색 및 수집하였으며, 수집 된 프로젝트들의 특징과 기술 분야를 의미하는 토픽 정보들을 대상으로 텍스트 마이닝 기법을 적용하여 주요 기술들의 개발 동향을 연도별로 상세하게 확인하였다. 분석 결과, 인공지능과 관련된 오픈 소스 소프트웨어들은 2016년을 기준으로 급격하게 증가하는 추세이며, 토픽들의 관계 분석을 통하여 주요 기술 동향이 '알고리즘', '프로그래밍 언어', '응용분야', '개발 도구'의 범주로 구분하는 것이 가능함을 확인하였다. 이러한 분석 결과를 바탕으로, 향후 다양한 분야에서의 활용을 위해 개발되고 있는 인공지능 관련 기술들을 보다 상세하게 구분하여 확인하는 것이 가능할 것이며, 효과적인 발전 방향 모색과 변화 추이 분석에 활용이 가능할 것이다.

딥러닝 오픈소스 프레임워크의 사례연구를 통한 도입 전략 도출 (Deriving adoption strategies of deep learning open source framework through case studies)

  • 최은주;이준영;한인구
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.27-65
    • /
    • 2020
  • 많은 정보통신기술 기업들은 자체적으로 개발한 인공지능 기술을 오픈소스로 공개하였다. 예를 들어, 구글의 TensorFlow, 페이스북의 PyTorch, 마이크로소프트의 CNTK 등 여러 기업들은 자신들의 인공지능 기술들을 공개하고 있다. 이처럼 대중에게 딥러닝 오픈소스 소프트웨어를 공개함으로써 개발자 커뮤니티와의 관계와 인공지능 생태계를 강화하고, 사용자들의 실험, 적용, 개선을 얻을 수 있다. 이에 따라 머신러닝 분야는 급속히 성장하고 있고, 개발자들 또한 여러가지 학습 알고리즘을 재생산하여 각 영역에 활용하고 있다. 하지만 오픈소스 소프트웨어에 대한 다양한 분석들이 이루어진 데 반해, 실제 산업현장에서 딥러닝 오픈소스 소프트웨어를 개발하거나 활용하는데 유용한 연구 결과는 미흡한 실정이다. 따라서 본 연구에서는 딥러닝 프레임워크 사례연구를 통해 해당 프레임워크의 도입 전략을 도출하고자 한다. 기술-조직-환경 프레임워크를 기반으로 기존의 오픈 소스 소프트웨어 도입과 관련된 연구들을 리뷰하고, 이를 바탕으로 두 기업의 성공 사례와 한 기업의 실패 사례를 포함한 총 3 가지 기업의 도입 사례 분석을 통해 딥러닝 프레임워크 도입을 위한 중요한 5가지 성공 요인을 도출하였다: 팀 내 개발자의 지식과 전문성, 하드웨어(GPU) 환경, 데이터 전사 협력 체계, 딥러닝 프레임워크 플랫폼, 딥러닝 프레임워크 도구 서비스. 그리고 도출한 성공 요인을 실현하기 위한 딥러닝 프레임워크의 단계적 도입 전략을 제안하였다: 프로젝트 문제 정의, 딥러닝 방법론이 적합한 기법인지 확인, 딥러닝 프레임워크가 적합한 도구인지 확인, 기업의 딥러닝 프레임워크 사용, 기업의 딥러닝 프레임워크 확산. 본 연구를 통해 각 산업과 사업의 니즈에 따라, 딥러닝 프레임워크를 개발하거나 활용하고자 하는 기업에게 전략적인 시사점을 제공할 수 있을 것이라 기대된다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.