• 제목/요약/키워드: 방송 대본 데이터

검색결과 3건 처리시간 0.021초

토픽 모델을 이용한 방송 대본 분석 사례 연구 (A case study of a broadcast script by using topic model)

  • 노윤석;곽창욱;김선중;박성배;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-230
    • /
    • 2015
  • 방송 대본은 방송 콘텐츠에 대해 얻을 수 있는 가장 주요한 텍스트 데이터 중에 하나이다. 본 논문에서는 토픽 모델을 통해 방송 대본 분석을 수행하고 그 결과를 제시한다. 방송 대본을 토픽 모델로 학습하기 위해 대본의 장면 단위로 문서를 구성하여 학습하여 대본의 장면을 분석하고 등장인물 단위로 문서를 구성하여 등장인물을 분석하여 그 특징을 살펴본다. 토픽 모델을 사용하여 방송 대본을 분석하는 과정에서 방송 대본이 가지는 특징을 분석하고 그로부터 향후 연구방향에 대해 논의한다.

  • PDF

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

수화 통역을 위한 VR 콘텐츠 개발 (Development of Virtual Reality Contents for Korean Sign Language Interpretation)

  • 나길항;이병호;김종헌;김종남;정영기
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.690-695
    • /
    • 2009
  • 본 논문은 영화, 방송, 애니메이션 등의 다양한 동영상 콘텐츠에 수화 애니메이션을 합성하여 동영상 콘텐츠를 청각 및 언어장애인들에게 이해시키기 위한 수화 통역 VR 콘텐츠 시스템을 제안하고자 한다. 제안된 시스템은 수화 사전에 있는 수화들을 3D 애니메이션으로 DB화하기 위해, 모션 캡처 시스템과 데이터 글러브를 사용하여 실제 사람처럼 자연스러운 애니메이션을 생성하였다. 최종적으로 동영상 콘텐츠의 자막이나 대본의 구문분석을 한 후, 이를 수화용 단어자막을 통해 수화 애니메이션을 DB에서 검색한 후, 실시간적으로 기존 동영상 콘텐츠와 동기합성을 하여 수화 통역 콘텐츠를 제공하는 VR 콘텐츠 시스템을 구현하였고 이 시스템을 동화용 애니메이션에 적용하였다.

  • PDF