• 제목/요약/키워드: 언어TEXT

검색결과 756건 처리시간 0.029초

토핑 모델링을 활용한 동해안 관광의 변화 분석 (The Analysis of Changes in East Coast Tourism using Topic Modeling)

  • 정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.489-495
    • /
    • 2020
  • 4차혁명이 진행되고 있는 초연결사회에선 다양한 IT기기를 통해 데이터량이 증가하고 있고, 이렇게 생산된 데이터를 분석하여 새로운 가치를 창출 할 수 있다. 본 연구에서는 빅카인즈에서 2017년부터 2019년까지 중앙지, 경제지, 지역조합지, 주요방송사 등에서 "(동해안 관광 또는 동해안 여행) 그리고 강원도"라는 키워드로 기사를 총 1,526건을 수집하였다. 수집된 1,526건의 기사를 분석하기 위해 R언어로 구현된 LDA 알고리즘을 이용하여 토픽 모델링을 수행하였다. 2017년부터 2019년까지 각각의 년도별 키워드를 추출하고, 각 년도별로 빈도수가 높은 키워드를 분류하여 비교하였다. Log Likelihood와 Perplexity를 이용하여 최적의 토픽 수를 8로 설정한 후, 깁스 샘플링 방법으로 8가지의 토픽을 추론하였다. 추론된 토픽들은 강릉과 해변, 고성과 금강산, KTX와 동해북부선, 주말바다여행, 속초와 통일전망대, 양양과 서핑, 체험관광, 교통망 인프라이다. 추론된 8개의 토픽의 비중을 이용해 동해안 관광에 대한 기사들의 변화를 분석하였다. 그 결과, 통일전망대와 금강산의 비중은 큰 변화가 없는 것으로 나타났고, KTX와 체험관광의 비중은 증가하였고, 그 외의 토픽들의 비중은 2017년에 비해 2018년에 감소하였다. 2019년에는 KTX와 체험관광의 비중은 감소하였으나, 나머지 토픽들의 비중은 큰 변화가 없는 것으로 나타났다.

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

영화 <5일의 마중>으로 본 현대 중국 비극 영화의 특성 연구 (A Study on the Characteristics in Chinese Contemporary Tragic Films - Focused on the film -)

  • 우잉저
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권3호
    • /
    • pp.65-73
    • /
    • 2021
  • 본 연구는 영화 <5일의 마중>의 줄거리와 결말 설정에서의 구체적인 표현을 분석하며, 정치적 환경에 직면하여 감독의 문화적 화합의 비극적인 서사 전략을 분석하여 현대 중국 비극 영화의 비극 특성을 살펴보도록 한다. 이를 통하여 중국 전통 윤리 사상을 중심으로 하는 중국식 비극 특성을 소개하는데 목적이 있다. 영화 <5일의 마중>은 문화대혁명 배경으로 한 현대 비극 영화이다. 영화에서는 남자 주인공이 시대에 대한 타협과 사랑에 대한 남다른 수호를 통하여 중국식 비극 특성을 표현하였다. 이 영화는 현대 중국 비극 영화의 대표작이다. 영화의 줄거리는 숙명론, 낙천지명(樂天知命) 등 중국 전통 윤리사상을 묘사하며, 또한 남자 주인공의 사상 변화 묘사를 통하여 중국의 전통 윤리 사상 중의 고유한 비극 특성을 해석하였다. 결말 설정 측면에서는 영화가 중국의 전통적인 비극 중의 해피엔딩의 패턴을 돌파하며, 끝까지 슬퍼하는 열린 결말을 선택하여 현대 중국 비극 영화의 시대적 특징을 더욱 살렸다. <5일의 마중>은 비극 영화로 하여 독특한 완곡함과 온정이 드러났다. 이는 중국 강권 정치 문화와의 타협 때문만이 아니라 중국식 비극의 미학에 대한 감독의 이해와 관련이 된다. 동양의 감정 표현 구조와전통 유가의 윤리적 표현에서 비롯된 이러한 이성은 영화의 서사 구조에서 지대한 장력을 형성하였다. 영화 언어의 상징 기호를 사용함으로써 비극적 미적 감각에 영화 서사의 함축적 특징을 형성하였는데, 이러한 함축성 또한 현대 중국 비극 영화만 고유한 것이다. 또한 장이머우 감독은 이 영화를 통해 자신의 비극적 의식을 표현하고, 문화적 화해를 통해 비극적 서사 전략을 구사하며 정치적 탄압 속에서 예술적 돌파를 추구하는 자신의 창작 지혜를 보여주었다.

건설현장 정형·비정형데이터를 활용한 기계학습 기반의 건설재해 예측 모델 개발 (Development of Machine Learning-based Construction Accident Prediction Model Using Structured and Unstructured Data of Construction Sites)

  • 조민건;이동환;박주영;박승희
    • 대한토목학회논문집
    • /
    • 제42권1호
    • /
    • pp.127-134
    • /
    • 2022
  • 현재 국내 건설업에서는 꾸준히 증가하는 건설재해를 예방하기 위해 다양한 정책적 노력과 연구가 활발하게 진행되고 있다. 기존 연구에서 건설재해 예방을 위해 개발한 예측 모델의 경우, 주로 정형데이터만을 활용하였기에 건설현장의 다양한 특성을 충분히 고려하지 못한 예측 결과가 도출되었다. 따라서, 본 연구에서는 정형데이터와 텍스트 형식의 비정형데이터를 동시에 활용하여 건설현장의 특성을 충분히 고려할 수 있는 기계학습 기반 건설재해 사전 예측 모델을 개발하였다. 본 연구는 기계학습을 위해 건설공사 안전관리 종합정보망(CSI)의 최근 3년간 건설재해 데이터 6,826건을 수집하였다. 수집된 데이터 중 정형데이터의 학습은 5가지 알고리즘의 성능 분석을 통해 Decision forest 알고리즘을 사용하였고 비정형데이터의 학습은 BERT 언어모델을 사용하였다. 정형 및 비정형데이터를 동시에 활용한 건설재해 예측 모델의 성능 비교 결과, 정형데이터만을 활용한 경우보다 약 20 % 향상된 95.41 %의 예측정확도가 도출되었다. 본 연구 결과, 비정형데이터를 동시에 활용함으로써 예측 모델의 효과적인 성능 향상을 확인하였으며, 보다 정확한 예측을 통한 건설재해 저감을 기대할 수 있다.

학술논문 내에서 참고문헌 정보가 포함된 서지 메타데이터 자동 생성 연구 (Automatic Generation of Bibliographic Metadata with Reference Information for Academic Journals)

  • 정선기;신현호;지선영;최성필
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.241-264
    • /
    • 2022
  • 서지정보는 연구 주제의 최신 동향의 인지와 유용성을 검증하는 데에 참고할 수 있다. 즉, 각자 연구자들이 필요로 하는 문헌에 신속하게 접근하기 위해서는 학술논문에서 저자 정보, 요약, 초록, 참고문헌 등을 쉬운 방법으로 파악해야 한다. 그러나, 현재 출판되는 PDF 형식의 전자 학술논문은 출판 주체별로 고유한 양식을 띄고 있어서, 몇몇 특징에 의한 규칙 기반 추출법으로는 수많은 문헌에서 목표 정보를 추출하여 요약된 서지사항으로 자동 생성하기 어렵다. 이에 본 연구는 학술논문 서지사항 자동 생성에 있어서 양식의 다양성으로 인한 메타데이터 자동 추출의 난점을 극복할 방법을 제안한다. 제안하는 모델은 서지사항이 주로 기술되는 학술논문의 첫 페이지에서 목표 영역과 본문의 시작점을 구분할 수 있는 심층신경망 기반 모델과 앞의 모델로 추출된 서지사항을 상세한 메타데이터로 분류하고 재생성하는 규칙 기반 모델로 구성된다. 제안하는 모델은 참고문헌 요약정보를 생성하는 모델도 포함하는데, 본문의 말미와 참고문헌 시작점의 분리, 그리고 개별 참고문헌 추출을 규칙 기반 방법으로 진행하고, 추출한 각개 참고문헌의 서지정보를 분류하는 데에 심층신경망을 이용하도록 구성하였다. 추가로, 논문 자체의 서지정보를 전후처리 없이 추출/생성하는 모델의 가능성을 확인하기 위하여 참고문헌 영역까지 아우르는 모델을 구축하여 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방식이 서지정보를 전후처리 하지 않고 진행한 비교 실험에 비하여 더 높은 성능을 보였다.

2015 개정 초등학교 과학 교과서 텍스트의 명제 연결에 대한 분석 (Analyses on Propositional Connections in the Texts of Elementary School Science Textbooks Developed under the 2015 Revised Science Curriculum)

  • 송혜원;강석진
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권1호
    • /
    • pp.79-92
    • /
    • 2022
  • 이 연구에서는 2015 개정 과학교육과정의 3학년 1학기와 6학년 2학기 과학 교과서 텍스트에서 명제들 사이의 연결 유형과 명제의 연결에 사용된 표지 유형을 분석하여, 국어 교과서 및 사회 교과서와 비교하였다. 명제의 연결은 강조, 상술, 예시, 나열, 추가, 차례, 대응, 인과, 조건, 목적 유형 등으로 분류하였고, 명제의 연결에 사용된 명제 관계 표지의 유형은 지시어나 접속어를 사용한 경우, 쉼표를 사용한 경우, 특정 언어 요소를 사용한 경우, 표지가 없는 경우 등으로 분류하였다. 6학년 과학 교과서는 텍스트에 사용된 명제의 연결 관계가 국어나 사회 교과서에 비해 적었지만, 3학년 과학 교과서는 텍스트에 사용된 명제의 연결 관계 빈도가 사회 교과서보다는 낮았고 국어 교과서보다는 높았다. 명제의 연결 유형에서는 차례, 나열, 조건, 인과 유형이 대부분을 차지하였고, 이러한 경향은 국어나 사회 교과서에서도 유사하게 나타났다. 3학년과 6학년 교과서 모두 명제를 연결할 때 특별한 표지가 없는 비율이 40% 이상이었고, 특히 차례와 인과 유형에서는 표지가 없는 비율이 상대적으로 높았다.

심층 신경망을 활용한 진료 기록 문헌에서의 종단형 개체명 및 관계 추출 비교 연구 - 파이프라인 모델과 결합 모델을 중심으로 - (A Comparative Research on End-to-End Clinical Entity and Relation Extraction using Deep Neural Networks: Pipeline vs. Joint Models)

  • 최성필
    • 한국문헌정보학회지
    • /
    • 제57권1호
    • /
    • pp.93-114
    • /
    • 2023
  • 정보추출은 문헌 내에 존재하는 개체명을 인식함과 동시에 이들 간의 의미적 관계까지도 식별하여 최종적으로 문헌 내에 포함된 의미적 트리플을 자동으로 추출하여 활용할 수 있으므로 문헌에 대한 심층적인 분석과 이해에 많은 도움을 줄 수 있다. 그러나 지금까지 대부분의 정보추출에 대한 연구는 개체명 인식과 관계추출이 개별 연구로 각각 분리되어 진행되었으며, 그 결과 입력 문헌에 대한 정보추출의 최종 출력인 의미적 트리플 추출 성능에 대한 객관적이고 정확한 평가가 제대로 이루어지지 않았다. 이에 본 논문에서는 진료 기록 문헌에 나타나는 개체명과 그들 간의 관계를 트리플 형태로 직접 추출할 수 있는 종단형 정보추출의 2가지 모델인 파이프라인 및 결합형 모델을 구축하는 구체적인 방법론을 제시하고 성능 비교 실험을 진행하였다. 우선 파이프라인 모델은 양방향 GRU-CRFs를 활용한 개체명 인식 모듈과 다중 인코딩 기반 관계추출 모듈로 구현되었고, 결합형 모델을 위해서는 다중 헤드 레이블링 기반의 양방향 GRU-CRFs이 적용되었다. 두 가지 시스템을 바탕으로 진료기록 문헌 내의 개체명과 관계를 모두 태깅하여 구축된 i2b2/VA 2010 데이터셋을 활용한 비교 실험에서 파이프라인 모델의 성능이 5.5%(F-measure) 더 높게 나타났다. 추가적으로, 대규모 신경망 언어모델과 수작업으로 구축된 자질 정보를 활용한 최고 수준의 기존 시스템과의 비교 실험을 통해, 본 논문에서 구현한 종단형 모델의 객관적인 성능 수준을 파악할 수 있었다.

Implementation of Git's Commit Message Classification Model Using GPT-Linked Source Change Data

  • Ji-Hoon Choi;Jae-Woong Kim;Seong-Hyun Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.123-132
    • /
    • 2023
  • Git의 커밋 메시지는 프로젝트 진행 혹은 운영 과정에서 소스가 변경되는 이력을 관리한다. 이러한 이력 데이터를 활용하면 프로젝트 리스크와 프로젝트 현황을 파악할 수 있어 비용 절감과 시간 효율개선을 높일 수 있다. 이와 관련된 많은 연구가 진행되고 있고 이러한 연구 분야 중 커밋 메시지를 소프트웨어 유지관리의 유형으로 분류하는 연구가 있다. 발표된 연구 중 최대 분류 정확도는 95%로 보고되어 있다. 본 논문에서는 커밋 분류 모델을 이용한 솔루션 등의 활용을 목적으로 연구를 시작했고, 기존 연구 중 정확도가 가장 높은 모델이 JAVA 언어로 작성된 프로그램에만 적용할 수 있는 제약을 없애기 위한 연구를 수행하였다. 이를 위해 GPT를 이용해서 소스 변경 데이터를 자연어로 표준화하는 단계를 추가 설계하고 구현하였다. 본문은 Git에서 커밋 메시지와 소스 변경 데이터를 추출하고, GPT로 소스 변경 데이터를 표준화하는 과정과 디스틸버트(DistilBERT) 모델을 이용한 학습 과정을 설명한다. 검증 결과 91%의 정확도를 측정하였다. 제안하는 모델은 정확도를 확보하고 특정 프로그램에 종속되지 않고 분류할 수 있는 모델을 구현 및 검증하였다. 향후 Bard를 이용한 분류 모델 연구와 제안한 분류 모델을 이용해 프로젝트에 도움이 되는 관리 도구 모델에 관해 연구할 계획이다.

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

AI면접 대상자에 대한 다면적 평가방법론 -얼굴인식, 음성분석, 자연어처리 영역의 융합 (Multifaceted Evaluation Methodology for AI Interview Candidates - Integration of Facial Recognition, Voice Analysis, and Natural Language Processing)

  • 지현욱;이상진;문성민;이재열;이동은;임규상
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 최근 각 기업의 AI 면접시스템 도입이 증가하고 있으며, AI 면접에 대한 실효성 논란 또한 많은 상황이다. 본 논문에서는 AI 면접 과정에서 지원자를 평가하는 방식을 시각, 음성, 자연어처리 3영역에서 구현함으로써, 면접 지원자를 다방면으로 분석 방법론의 적절성에 대해 평가하고자 한다. 첫째, 시각적 측면에서, 면접 지원자의 감정을 인식하기 위해, 합성곱 신경망(CNN) 기법을 활용해, 지원자 얼굴에서 6가지 감정을 인식했으며, 지원자가 카메라를 응시하고 있는지를 시계열로 도출하였다. 이를 통해 지원자가 면접에 임하는 태도와 특히 얼굴에서 드러나는 감정을 분석하는 데 주력했다. 둘째, 시각적 효과만으로 면접자의 태도를 파악하는 데 한계가 있기 때문에, 지원자 음성을 주파수로 환산해 특성을 추출하고, Bidirectional LSTM을 활용해 훈련해 지원자 음성에 따른 6가지 감정을 추출했다. 셋째, 지원자의 발언 내용과 관련해 맥락적 의미를 파악해 지원자의 상태를 파악하기 위해, 음성을 STT(Speech-to-Text) 기법을 이용하여 텍스트로 변환하고, 사용 단어의 빈도를 분석하여 지원자의 언어 습관을 파악했다. 이와 함께, 지원자의 발언 내용에 대한 감정 분석을 위해 KoBERT 모델을 적용했으며, 지원자의 성격, 태도, 직무에 대한 이해도를 파악하기 위해 객관적인 평가지표를 제작하여 적용했다. 논문의 분석 결과 AI 면접의 다면적 평가시스템의 적절성과 관련해, 시각화 부분에서는 상당 부분 정확도가 객관적으로 입증되었다고 판단된다. 음성에서 감정분석 분야는 면접자가 제한된 시간에 모든 유형의 감정을 드러내지 않고, 또 유사한 톤의 말이 진행되다 보니 특정 감정을 나타내는 주파수가 다소 집중되는 현상이 나타났다. 마지막으로 자연어처리 영역은 면접자의 발언에서 나오는 말투, 특정 단어의 빈도수를 넘어, 전체적인 맥락과 느낌을 이해할 수 있는 자연어처리 분석모델의 필요성이 더욱 커졌음을 판단했다.

  • PDF