• 제목/요약/키워드: 언어 학습 모델

검색결과 838건 처리시간 0.027초

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 (Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data)

  • 김종모;이정빈;전호철;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.145-154
    • /
    • 2022
  • 자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.

교사교육을 위한 공공 빅데이터 수집 및 스프레드시트 활용 기초 데이터과학 교육 사례 연구 (A Case Study of Basic Data Science Education using Public Big Data Collection and Spreadsheets for Teacher Education)

  • 허경
    • 정보교육학회논문지
    • /
    • 제25권3호
    • /
    • pp.459-469
    • /
    • 2021
  • 본 논문에서는 현장 교사 및 예비교사를 위한 기초 데이터과학 실습 교육 사례를 연구하였다. 본 논문에서는 기초 데이터과학 교육을 위해, 스프레드시트 SW를 데이터 수집 및 분석 도구로 사용하였다. 이후 데이터 가공, 예측 가설 및 예측 모델 검증을 위한 통계학을 교육하였다. 또한, 수천명 단위의 공공 빅데이터를 수집 및 가공하고, 모집단 예측 가설 및 예측 모델을 검증하는 교육 사례를 제안하였다. 이와 같은 데이터과학의 기초 교육내용을 담아, 스프레드시트 도구를 활용한 34시간 17주 교육 과정을 제시하였다. 데이터 수집, 가공 및 분석을 위한 도구로서, 스프레드시트는 파이썬과 달리, 프로그래밍 언어 및 자료구조에 대한 학습 부담이 없고, 질적 데이터와 양적 데이터에 대한 가공 및 분석 이론을 시각적으로 습득할 수 있는 장점이 있다. 본 교육 사례 연구의 결과물로서, 세가지 예측 가설 검증 사례들을 제시하고 분석하였다. 첫 번째로, 양적 공공데이터를 수집하여 모집단의 그룹별 평균값 차이 예측 가설을 검증하였다. 두 번째로, 질적 공공데이터를 수집하여 모집단의 질적 데이터 내 연관성 예측 가설을 검증하였다. 세 번째로, 양적 공공데이터를 수집하여 모집단의 양적 데이터 내 상관성 예측 가설 검증에 따른 회귀 예측 모델을 검증하였다. 그리고 본 연구에서 제안한 교육 사례의 효과성을 검증하기 위해, 예비교사와 현장교사의 만족도분석을 실시하였다.

중국인 학습자의 한국어 모음 습득에 대한 제2언어 습득 모델 비교 연구 (A Comparative Study of Second Language Acquisition Models: Focusing on Vowel Acquisition by Chinese Learners of Korean)

  • 김주연
    • 말소리와 음성과학
    • /
    • 제6권4호
    • /
    • pp.27-36
    • /
    • 2014
  • This study provided longitudinal examination of the Chinese learners' acquisition of Korean vowels. Specifically, I examined the Chinese learners' Korean monophthongs /i, e, ɨ, ${\Lambda}$, a, u, o/ that were created at the time of 1 month and 12 months, tried to verify empirically how they learn by dealing with their mother tongue, and Korean vowels through dealing with pattern of the Perceptual Assimilation Model (henceforth PAM) of Best (Best, 1993; 1994; Best & Tyler, 2007) and the Speech Learning Model (henceforth SLM) of Flege (Flege, 1987; Bohn & Flege, 1992, Flege, 1995). As a result, most of the present results are shown to be similarly explained by the PAM and SLM, and the only discrepancy between these two models is found in the 'similar' category of sounds between the learners' native language and the target language. Specifically, the acquisition pattern of /u/ and /o/ in Korean is well accounted for the PAM, but not in the SLM. The SLM did not explain why the Chinese learners had difficulty in acquiring the Korean vowel /u/, because according to the SLM, the vowel /u/ in Chinese (the native language) is matched either to the vowel /u/ or /o/ in Korean (the target language). Namely, there is only a one-to-one matching relationship between the native language and the target language. In contrast, the Chinese learners' difficulty for the Korean vowel /u/ is well accounted for in the PAM in that the Chinese vowel /u/ is matched to the vowel pair /o, u/ in Korean, not the single vowel, /o/ or /u/.

모바일 기반 증강현실 기술을 활용한 3D전래동화 콘텐츠 연구 (3D Graphic Nursery Contents Developed by Mobile AR Technology)

  • 박영숙;박대우
    • 한국정보통신학회논문지
    • /
    • 제20권11호
    • /
    • pp.2125-2130
    • /
    • 2016
  • 본 논문에서는 모바일 증강현실기술 기반을 활용한 3D전래동화 콘텐츠에 관한 연구이다. 지식기반사회의 핵심콘텐츠 산업으로 주목받고 있는 시공간을 연결하는 SW기술 증강현실(Augmented Reality) 기술을 활용하여 흥미로운 전래동화를 한국어, 중국어, 영어로 자막언어선택으로 외국어학습에 적용한다. 이를 위해 상호작용 AR게임(놀이)으로 재구성하였다. 전래동화는 3D 콘텐츠 제작을 위해 6~8개의 scene으로 분량을 구성하고, 각색하여 번역하였다. 더빙은 모국어로 사용하는 원어민 성우를 통해 표준발음을 사용하여 더빙하였고, 효과음은 장면에 어울리도록 별도 제작하여 편집하였다. 시나리오를 구성하고, 3D 모델구성, 인터렉션 구성, 사운드 이펙트를 구성하고 콘텐츠 메타데이터를 작성한 후, Unity 3D 게임엔진을 실행하여 프로젝트를 생성하고, 스크립터로 기술한다. 재미있고 유익한 전래동화를 ICT기술을 접목한 융복한 콘텐츠로 경험하면서, 첨단기술기반 교육을 수용하며, 생활주변에서 소프트웨어를 인식할 수 있는 기회를 가지게 한다.

머신러닝을 활용한 프로그래밍언어 객관식 문제의 난이도 조정에 대한 연구 (A study on the difficulty adjustment of programming language multiple-choice problems using machine learning)

  • 김은정
    • 한국산업정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.11-24
    • /
    • 2022
  • LMS 기반의 온라인 평가를 위해 출제되는 문제들은 교수자가 직접 출제하거나 또는 카테고리별로 나뉘어진 문제은행에서 난이도에 따른 자동 출제 방식을 주로 이용한다. 이중에서 난이도에 따른 자동출제 방식은 평가자들에게 출제되는 문제가 서로 다를수 있기 때문에 무엇보다 객관적이고 효율적인 방법으로 문제의 난이도를 관리하는 것이 중요하다. 본 논문에서는 문제의 정답률뿐만 아니라 해당 문제를 해결하는데 사용된 소요시간을 같이 고려한 난이도 재조정 알고리즘을 제시한다. 이를 위해 머신러닝의 로지스틱 회귀 분류 알고리즘을 이용하였으며, 학습모델의 예측 확률값을 기반으로 기준 임계값을 설정하여 각 문항별 난이도 재조정에 활용하였다. 그 결과 정답률에만 의존한 문항별 난이도에 많은 변화가 일어남을 확인할 수 있었다. 또한 조정된 난이도의 문제를 이용하여 그룹별 평가를 수행한 결과, 정답률 기반의 난이도 문제에 비해서 대부분의 그룹에서 평균 점수가 향상됨을 확인할 수 있었다.

캐릭터 웹드라마 클리셰 분석을 통한 스토리 추천 개발 (Development of Story Recommendation through Character Web Drama Cliché Analysis)

  • 이현수;김정이
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.17-22
    • /
    • 2023
  • 본 연구는 본 연구는 대중적으로 인기 있는 캐릭터 웹드라마의 장르를 분석하여 언어 모델 GPT를 통한 스토리 추천 개발을 연구하였다. 연구 결과, 웹드라마에서도 반복되는 비슷한 클리셰가 존재함을 확인했다. 본 연구에서는 공통된 이야기 구조(클리셰)를 분석하여 숙련되지 않은 영상 제작자도 손쉽게 캐릭터 웹드라마를 제작할 수 있도록 대표적인 이야기 구조를 정형화하여 제시하였다. 분석을 위해 10대에게 가장 인기있는 장르인 학원 로맨스 장르 웹드라마의 클리셰를 기승전결에 따라 목록화하였다. 또한 본 연구는 분석하여 목록화한 클리셰를 지피티에게 학습시켜 사용자를 위한 스토리 추천 매커니즘을 연구하였다. 본 연구를 통해 웹콘텐츠의 데이터베이스 소비론의 입장에서 다양한 데이터베이스의 수용을 통해 대중의 인기뿐 아니라 다양한 콘텐츠의 제작에 박차를 가할 것으로 기대된다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

조선대학교-대구대학교 비교과 교육 업무협약(MOU) 기반 지역 연계 장애인평생교육 비교과프로그램 운영 방략 (The Operation Plan of the Community-Linked Extracurricular Education program for Lifelong Education for the Persons with Disabilities Based on the Memorandum of Understanding (MOU) of Extracurricular Education between Chosun University and Daegu University)

  • 김영준;김화수;이근용
    • 문화기술의 융합
    • /
    • 제8권2호
    • /
    • pp.273-280
    • /
    • 2022
  • 본 연구는 조선대학교-대구대학교 비교과 교육 업무협약(MOU) 기반 지역 연계 장애인평생교육 비교과프로그램 운영 방략을 탐색해 보는 데에 목적을 두어 실시되었다. 일선 대학 현장에서 비교과 교육 프로그램은 전공이나 교양 단위의 교과 학습을 보조하는 형태와 절차로 인식되는 경우가 많으나, 비교과 교육 프로그램의 구성 유형과 체계가 "학습역량 강화 지원", "진로심리상담 지원", "취창업 지원", "교과 연계 비교과 교육"으로 분류되는 사례를 감안할 경우 매우 중요한 위상과 정체성을 가졌다고 할 수 있다. 이에 따라, 비교과 교육 프로그램은 일회적인 경향의 프로그램 자체의 수준에서 뿐 아니라 학생들의 전공 학습 및 취업 연계를 비롯한 각종 지역사회 연계형 문제해결학습 역시 포괄할 수 있는 성격과 이점을 가진다. 위의 일환으로, 본 연구는 조선대학교와 대구대학교를 조망하여 "지역 연계 장애인평생교육"을 주요 주제와 내용으로 하는 비교과 프로그램이 운영될 수 있는 방략을 연구 내용으로 제시하고자 한다. 연구 방법은 전문가 간 협의를 통한 연구 내용의 모델 정립의 절차로 구성되었다. 연구 내용은 크게 "양 대학 간 조직적 운영 방략", "양 대학 간 교육과정 운영 방략", "양 대학 간 지역 연계 장애인평생교육 비교과 프로그램 운영에 대한 종합체계"로 제시되었다. 먼저, 첫 번째 연구 내용인 "양 대학 간 조직적 운영 방략"은 조선대학교 비교과통합관리센터와 대구대학교 평생교육원 산하 K-PACE센터, 기타 위원회 및 부서 등이 상호 협업 및 소통하는 절차가 상세히 도식화되었다. 두 번째 연구 내용인 "양 대학 간 교육과정 운영 방략"은 비교과프로그램에서 구성되어야 할 학습 내용과 방법 및 절차가 구체적으로 도식화되었다. 세 번째 연구 내용인 "양 대학 간 지역 연계 장애인평생교육 비교과 프로그램 운영의 종합체계"는 비교과프로그램을 운영하는 데 필수적으로 구성되어야 할 근거요소들을 로드맵의 차원으로 종합화한 결과를 제시하고 있다. 연구 결과, 양 대학 간 비교과 교육 업무협약(MOU)을 통한 지역 연계 장애인평생교육 비교과프로그램의 운영을 통해 심화적으로 연계 추진 가능한 사업과제를 조망할 수 있었다.

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석 (Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System)

  • 이경님;정민화
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.656-664
    • /
    • 2002
  • 본 논문에서는 한국어 발음열 자동 생성기를 이용하여 한국어의 음운 규칙에 대한 통계적 분석을 수행하였다. 실험에 사용한 발음열 자동 생성기는 한국어 음운 변화 현상에 대해 형태음운론에 기반 한 언어학적 분석과 문교부 표준어 규정의 표준 발음법에서 유도된 필수 및 수의적 음소 변동 규칙과 변이음 규칙의 단계적 적용 모델을 사용해서 구현되었으며, 특히 연속음성 인식을 위한 학습용 발음열과 인식용 발음사전 생성의 최적화를 목표로 하였다. 본 논문에서는 대어휘 연속음성 인식기의 음향 모델을 구축하기 위해 만들어진 삼성 PBS(Phonetically Balanced Sentence) 음성 데이터 베이스의 60,000문장에 적용된 발음열 생성기의 음소 변동규칙들의 분포 및 그 통계를 사용해서 한국어 음운 변화 양상을 분석하였다. 적용된 빈도수를 기준으로 분석한 결과, 필수음소 변동규칙의 경우는 연음법칙, 경음화, 격음화, 장애음의 비음화순으로, 수의적 음소 변동규칙의 경우는 초성 ㅎ 탈락, 중복 자음화, 동일 조음위치 자음탈락 순으로 음운 변화가 발생하였다. 이러한 적용 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 양상을 파악할 수 있었으며, 나아가 본 논문의 연구 결과는 음성 인식 시스템을 개발하는데 유용하게 사용할 수 있을 것이다.

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.