• 제목/요약/키워드: 기계학습

검색결과 2,796건 처리시간 0.028초

한-영 관용구 기계번역을 위한 NMT 학습 방법 (NMT Training Method for Korean-English Idiom Machine Translation)

  • 최민주;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-356
    • /
    • 2020
  • 관용구는 둘 이상의 단어가 결합하여 특정한 뜻을 생성한 어구로 기계번역 시 종종 오역이 발생한다. 이는 관용구가 지닌 함축적인 의미를 정확하게 번역할 수 없는 기계번역의 한계를 드러낸다. 따라서 신경망 기계 번역(Neural Machine Translation)에서 관용구를 효과적으로 학습하려면 관용구에 특화된 번역 쌍 데이터셋과 학습 방법이 필요하다. 본 논문에서는 한-영 관용구 기계번역에 특화된 데이터셋을 이용하여 신경망 기계번역 모델에 관용구를 효과적으로 학습시키기 위해 특정 토큰을 삽입하여 문장에 포함된 관용구의 위치를 나타내는 방법을 제안한다. 실험 결과, 제안한 방법을 이용하여 학습하였을 때 대부분의 신경망 기계 번역 모델에서 관용구 번역 품질의 향상이 있음을 보였다.

  • PDF

빅 데이터에서 기계학습을 통한 온톨로지 생성에 관한 연구 (A Study on Ontology Generation by Machine Learning in Big Data)

  • 황치곤;윤창표
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.645-646
    • /
    • 2018
  • 최근 데이터 처리를 통한 의사결정 수단으로 기계학습 기법을 도입한 개념이 많이 등장하고 있다. 기계학습은 기존의 데이터를 기반으로 학습한 결과를 이용하여 의사결정의 수단이 된다. 기술의 발전으로 생성되는 데이터는 방대하다. 이러한 데이터를 빅 데이터라 한다. 이러한 데이터에서 필요한 데이터를 추출하는 것은 중요하다. 이를 위해 본 논문에서는 온톨로지를 구축하기 위한 연관데이터를 기계학습을 통해서 추출하는 방법을 제시한다. 기계학습의 결과는 의미론적 관점에서 관계성을 부여할 수 있으며, 이것은 온톨로지에 추가됨으로써 어플리케이션의 요구에 따라 관계성을 지원할 수 있다.

  • PDF

기계학습을 활용한 대학생 학습결과 예측 연구 (A Study on the Prediction of Learning Results Using Machine Learning)

  • 김연희;임수진
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.695-704
    • /
    • 2020
  • 최근 교육분야에 IT의 활용이 증가하고 이를 통한 학습결과 예측에 대한 연구가 진행되고 있다. 본 연구에서는 학습분석을 참고하여 학습결과에 영향을 미칠 수 있는 학습활동 데이터를 수집하였다. 조사에 참여한 학생은 1062명으로, 조사는 2018년 10월부터 12월까지 충청남도 소재의 4년제 종합 사립대학인 A대학에서 진행되었다. 먼저 기계 학습의 예측 변인들의 타당성 확보를 위하여 학습결과에 대한 개인·학업·행동요인으로 모형을 구성하여 위계적 회귀 분석을 실시하였다. 위계적 회귀 분석의 모형이 유의하였고, 단계별로 설명력(R2)이 증가하는 것으로 나타나 투입된 변수들이 적절한 것으로 나타났다. 또한 기계학습의 선형 회귀분석방법을 통해 투입한 학습활동 변수가 학습 결과를 얼마나 예측할 수 있는지 확인하였으며, 오차율은 약 8.4%로 수집되었다.

Author-Topic 모델 기반 대본 학습을 통한 비디오 등장 인물 인식 (Recognition of Video Characters by Learning Dialogues Using Author-Topic Models)

  • 임병권;허민오;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.327-330
    • /
    • 2011
  • 기계학습 기술이 발달함에 따라 기계학습은 제한된 상황에서 벗어나, 실생활과 비슷한 복잡하고 다양한 상황에서의 학습이 중요한 이슈가 되었다. 본고에서는 현실과 비슷한 상황을 도입하기 위하여 드라마를 사용한다. 드라마 내의 등장인물들은 말투, 어조, 관심주제와 같이 다양한 특성을 내재하고 있다. 등장인물들의 다양한 특성 중 관심주제는 대본 안에 글로 드러나 있으므로 기계학습을 통해 등장 인물의 인식에 활용할 수 있다. 최근, 확률그래프모델 분야에서 문서의 주제를 다루는 기법으로 자주 거론되는 토픽 모델 중 하나인 Author-Topic (AT) 모델은 등장인물의 관심주제를 학습하는 데에 적합하다. 본 논문에서는 AT 모델로 대본을 학습하고, 학습된 데이터 분포를 이용하여 장면에 등장하는 인물들을 인식하는 방법을 제시한다. 이 방법의 성능을 측정하기 위해, 미국 TV 드라마 'Friends' 대본 39편을 학습시키고, 장면에 대해 등장인물을 인식하는 실험을 수행하였다. 이 실험을 통해 본고에서 Author-Topic 모델을 이용한 인물 인식 방법이 다수의 인물이 참여한 담화의 인물들을 인식하는데 강점이 있음을 확인할 수 있다.

천문학에서의 대용량 자료 분석 (Analysis of massive data in astronomy)

  • 신민수
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1107-1116
    • /
    • 2016
  • 최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석 환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

프라이버시를 보호하는 분산 기계 학습 연구 동향 (Systematic Research on Privacy-Preserving Distributed Machine Learning)

  • 이민섭;신영아;천지영
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.76-90
    • /
    • 2024
  • 인공지능 기술은 스마트 시티, 자율 주행, 의료 분야 등 다양한 분야에서 활용 가능성을 높이 평가받고 있으나, 정보주체의 개인정보 및 민감정보의 노출 문제로 모델 활용이 제한되고 있다. 이에 따라 데이터를 중앙 서버에 모아서 학습하지 않고, 보유 데이터셋을 바탕으로 일차적으로 학습을 진행한 후 글로벌 모델을 최종적으로 학습하는 분산 기계 학습의 개념이 등장하였다. 그러나, 분산 기계 학습은 여전히 협력하여 학습을 진행하는 과정에서 데이터 프라이버시 위협이 발생한다. 본 연구는 분산 기계 학습 연구 분야에서 프라이버시를 보호하기 위한 연구를 서버의 존재 유무, 학습 데이터셋의 분포 환경, 참여자의 성능 차이 등 현재까지 제안된 분류 기준들을 바탕으로 유기적으로 분석하여 최신 연구 동향을 파악한다. 특히, 대표적인 분산 기계 학습 기법인 수평적 연합학습, 수직적 연합학습, 스웜 학습에 집중하여 활용된 프라이버시 보호 기법을 살펴본 후 향후 진행되어야 할 연구 방향을 모색한다.

Markov Chain을 응용한 학습 성과 예측 방법 개선 (Improving learning outcome prediction method by applying Markov Chain)

  • 황철현
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.595-600
    • /
    • 2024
  • 학습 성과를 예측하거나 학습 경로를 최적화하는 연구 분야에서 기계학습과 같은 인공지능 기술의 사용이 점차 증가하면서 교육 분야의 인공지능 활용은 점차 많은 진전을 보이고 있다. 이러한 연구는 점차 심층학습과 강화학습과 같은 좀 더 고도화된 인공지능 방법으로 진화하고 있다. 본 연구는 학습자의 과거 학습 성과-이력 데이터를 기반으로 미래의 학습 성과를 예측하는 방법을 개선하는 것이다. 따라서 예측 성능을 높이기 위해 Markov Chain 방법을 응용한 조건부 확률을 제안한다. 이 방법은 기계학습에 의한 분류 예측에 추가하여 학습자가 학습 이력 데이터를 분류 예측에 추가함으로써 분류기의 예측 성능을 향상 시키기 위해 사용된다. 제안 방법의 효과를 확인하기 위해서 실증 데이터인 '교구 기반의 유아 교육 학습 성과 데이터'를 활용하여 기존의 분류 알고리즘과 제안 방법에 의한 분류 성능 지표를 비교하는 실험을 수행하였다. 실험 결과, 분류 알고리즘만 단독 사용한 사례보다 제안 방법에 의한 사례에서 더 높은 성능 지표를 산출한다는 것을 확인할 수 있었다.

Hybrid Feature Selection과 Data Balancing을 통한 네트워크 침입 탐지 모델 (Network intrusion detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.526-529
    • /
    • 2020
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 평가를 위해 Accuracy, Precision, Recall, F1 Score 지표를 사용하였다. 본 논문에서 제안된 모델은 Random Forest 및 기본 심층 신경망 모델과 비교해 F1 Score를 기준으로 7~9%의 성능 향상을 이루었다.

기계학습 기반 유체 시뮬레이션의 비말 검출 알고리즘 (Splash Detection Algorithm for Machine Learning-based Fluid Simulation)

  • 김재형 ;성수경 ;신병석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.427-429
    • /
    • 2023
  • 인공지능 기술의 발전에 따라 유체 시뮬레이션 분야에서는 복잡한 액체의 흐름을 모사하기 위해 기계학습 기술이 많이 활용되고 있다. 이러한 시뮬레이션에서 성능 향상의 가장 중요한 요소는 학습 데이터다. 이 논문에서는 기계학습 기반 유체 시뮬레이션의 학습 데이터 생성 단계 중 기존의 방법보다 효율적으로 비말(splash) 탐색하는 방법을 제안한다. 기존 방법에서는 CPU 환경에서 큐(queue)를 이용하는 너비우선탐색(breadth first search) 기법을 사용하기 때문에 처리속도가 느리다. 반면에 제안하는 기법에서는 배열로 되어 있는 해시 테이블(hash table)을 이용해 충돌 문제를 해결해 GPU 환경에서 비말을 신속하게 검출하도록 하기 때문에 빠른 학습 데이터 생성이 가능하도록 했다. 이 알고리즘의 유효성을 확인하기 위하여 정확성과 수행시간을 확인하였다.

기계학습의 미디어 산업 적용 :콘텐츠 평가 및 제작 자원을 중심으로 (Machine Learning in Media Industry :Focusing on Content Value Evaluation and Production Development)

  • 권신혜;박경우;장병철;장병희
    • 한국콘텐츠학회논문지
    • /
    • 제19권7호
    • /
    • pp.526-537
    • /
    • 2019
  • 이 연구는 기계학습의 도입이 미디어 산업구조에 어떠한 영향을 미칠 것인가에 대해 산업조직론적 관점에서 살펴보았다. 먼저 기계학습 기법이 미디어 산업에 성공적으로 도입되기 위해서는 각 산업 단계의 조직구성원 사이에서 기계학습 기반 시스템의 필요성에 대한 공감대 형성이 선행되어야 할 것으로 분석된다. 기계학습의 도입은 기존 방송 및 영화산업의 투자 의사결정과정과 제작 과정에 유의미한 변화를 가져올 것이며, 투자 측면에서는 객관적 데이터의 제공으로 인해 효율성이 증대될 것으로 보인다. 또한, 성과가 담보된 장르 및 형식의 콘텐츠에 투자가 집중됨에 따라 다양성이 감소할 가능성이 있다. 제작 측면에서는 창작자의 반복적 행위를 기계학습 시스템이 담당하는 역할을 한다면 생산효율성이 증대될 수 있다.