• 제목/요약/키워드: 생성 요약

검색결과 509건 처리시간 0.027초

잠재 토픽을 이용한 문서 요약문 추출 (Document Summarization Using Latent Topics)

  • 정영섭;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.240-243
    • /
    • 2011
  • 웹 문서를 비롯한 여러 가지 문서의 양이 급증함에 따라, 문서로부터 주요정보를 얻거나 자동으로 요약하는 연구들이 진행되어왔다. 특히, 문서를 요약하는 연구들은 문서에 존재하는 문장을 추출하는 방법과 요약문을 새롭게 생성하는 방법, 이렇게 크게 두 가지 방법으로 진행되었다. 이 연구에서는, 잠재 토픽 모델을 통하여 얻어낸 각 문장의 토픽 순열을 이용하여 문서를 대표하는 문장, 즉 요약문으로서 적합한 문장들을 추출하는 새로운 기법을 소개한다. 특히, 잠재 토픽 모델이 일반적으로 가지고 있는 속성인 토픽 순열의 교환성(exchangeability)을 배제하고 토픽의 순열을 이용하여 요약문을 추출해내므로 이 기법을 통하여 문서 혹은 문장의 구조를 반영한 요약문을 만들 수 있다.

모바일기기 사용자의 컨텍스트와 이미지 주석을 이용한 베이지안 네트워크기반 사진 자동요약 (Bayesian Network based Automatic Summarization of Photos using User's Context on Mobile Device and Image Annotation)

  • 민준기;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.425-428
    • /
    • 2008
  • 모바일기기에 탑재되어있는 디지털 카메라의 성능이 향상됨에 따라 이를 이용한 사진의 촬영 및 수집이 용이해졌으며, 따라서 사용자 로그정보를 이용하여 방대한 양의 사진을 분석하거나 브라우징해주는 방법들이 연구되고 있다. 본 논문에서는 모바일기기의 불확실한 로그정보와 사진 주석정보를 베이지안 네트워크로 모델링하여 사용자가 겪은 이벤트들을 추론하고 사용자의 일과를 요약해주는 방법을 제안한다. 우선 사진들을 시간과 위치정보에 따라 분할하여 사진그룹목록을 생성하고, 이를 모바일기기에 입력되어있는 사용자의 일정목록과 합하여 임시이벤트목록을 생성한다. 그 뒤 베이지안 네트워크를 이용하여 각 이벤트를 인식하고 이를 가장 잘 나타내는 사진을 선택한다. 제안하는 방법은 선택된 사진들을 나열하여 사진다이어리형식으로 사용자의 일과를 요약하여주며, 이때 특정 이벤트와 매치되는 사진이 없을 경우 미리 정의되어있는 만화 컷을 대신 사용하여 내용이 매끄럽게 이어지도록 하였다.

  • PDF

빅 데이터의 분석을 통한 정보 자동 요약 시스템 (Automatic Information Summary System using by Big Data Analysis)

  • 윤다영;이현화;송재오;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.415-416
    • /
    • 2014
  • 오늘날 인터넷상에서는 무수히 많은 디지털 데이터가 생성되고 있으며, 그 디지털 데이터는 기존의 소프트웨어로는 처리할 수 없을 정도로 그 양이 방대해지고 있다. 이러한 데이터들을 사용자의 검색의도에 따라 문장 분석, 키워드 추출, 요약문 생성 등의 방법을 통하여, 사용자에게 개인화된 정보를 제공하기 위한 빅 데이터의 분석을 이용한 정보 자동 요약 시스템을 제안한다.

  • PDF

데이터 스트림 정보 요약 기법 (A Summarization Method for Data Streams)

  • 한상길;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.657-660
    • /
    • 2006
  • 최근까지 데이터웨어하우스와 OLAP 에 관한 연구와 더불어 데이터 큐브(data cube)는 많은 다차원 데이터웨어하우스에서 데이터 분석과 의사 결정 지원을 위해 빠르게 OLAP 연산을 처리하기 위한 중요한 역할을 수행해 왔다. 최근에는 빠른 속도로 생성됨과 동시에 지속적으로 발생되는 연속적인 데이터로 구성된 데이터 스트림이 네트워크 트래픽 모니터링, 증권, 날씨, 콜 센터 등과 같은 많은 분야에서 생성된다. 데이터 스트림은 무한의 집합이기 때문에 기존의 데이터 큐브 방법은 처리시간과 저장공간의 문제 때문에 데이터 스트림에 적용하기 어렵다. 이에 본 논문에서는 기존의 데이터 큐브와 같은 데이터의 요약 정보를 데이터 스트림 환경에서 제한된 메모리를 이용하여 관리 할 수 있는 전원트리를 이용한 데이터 스트림 요약 기법을 제안하고, 실험을 통해 본 논문에서 제안한 방법이 데이터 스트림 환경에서 적응적으로 동작함을 증명한다.

  • PDF

PrefixLM에 기반한 한국어 텍스트 요약 (PrefixLM for Korean text summarization)

  • 이건희;나승훈;임준호;김태형;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-27
    • /
    • 2021
  • 언어 모델은 많은 데이터와 많은 파라미터로 오래 사전학습을 수행할수록 그 성능이 높아지지만, 그 크기가 큰 만큼 거대 언어 모델은 너무 큰 크기로 인해서 실사용에 많은 하드웨어 리소스를 필요로 한다. 본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조에 기반한 한국어 모델을 학습하여 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서의 성능평가를 하여 BART, T5와 비교하여 각각 0.02, 0.0859의 성능 향상을 보였다.

  • PDF

추상적 텍스트 요약 기반의 메소드 이름 제안 모델 (A Method Name Suggestion Model based on Abstractive Text Summarization)

  • 주한새
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.137-138
    • /
    • 2022
  • 소스 코드 식별자의 이름을 잘 정하는 것은 소프트웨어 엔지니어링에서 중요한 문제로 다루어지고 있다. 프로그램 엔티티의 의미있고 간결한 이름은 코드 이해도에 중요한 역할을 하며, 소프트웨어 유지보수 관리 비용을 줄이는 데에 큰 효과가 있다. 이러한 코드 식별자 중 평균적으로 가장 복잡한 식별자는 '메소드 이름'으로 알려져 있다. 본 논문에서는 메소드 내용과 일관성 있는 적절한 메소드 이름 생성을 자연어 처리 태스크 중 하나인 '추상적 텍스트 요약'으로 치환하여 수행하는 트랜스포머 기반의 인코더-디코더 모델을 제안한다. 제안하는 모델은 Github 오픈소스를 크롤링한 Java 데이터셋에서 기존 최신 메소드 이름 생성 모델보다 약 50% 이상의 성능향상을 보였다. 이를 통해 적절한 메소드 작명에 필요한 비용 절감 달성 및 다양한 소스 코드 관련 태스크를 언어 모델의 성능을 활용하여 해결하는 데 도움이 될 것으로 기대된다.

  • PDF

자연어 처리 태스크에 대한 기계와 인간의 성능 상관관계 연구 (Exploring the Relationship Between Machine and Human Performance in Natural Language Processing Tasks)

  • 박서윤;김희재;이성우;강예지;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.485-490
    • /
    • 2023
  • 언어 모델 발전에 따라 사람과 유사하게 글을 생성하고 태스크를 수행하는 LLM들이 등장하고 있다. 하지만 아직까지도 기계와 사람의 수행 과정에 초점을 맞추어 차이점을 드러내는 연구는 활성화되지 않았다. 본 연구는 자연어 이해 및 생성 태스크 수행 시 기계와 인간의 수행 과정 차이를 밝히고자 하였다. 이에 이해 태스크로는 문법성 판단, 생성 태스크로는 요약 태스크를 대상 태스크로 선정하였고, 기존 주류 사전학습 모델이었던 transformer 계열 모델과 LLM인 ChatGPT 3.5를 사용하여 실험을 진행하였다. 실험 결과 문법성 판단 시 기계들이 인간의 언어적 직관을 반영하지 못하는 양상을 발견하였고, 요약 태스크에서는 인간과 기계의 성능 판단 기준이 다름을 확인하였다.

  • PDF

Text summarization of dialogue based on BERT

  • Nam, Wongyung;Lee, Jisoo;Jang, Beakcheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.41-47
    • /
    • 2022
  • 본 연구는 일목요연하게 정리되지 않은 구어체(대화)에 대한 텍스트 자동 요약 모델을 적용시키는 방법을 제안한다. 본 연구에서는 구어체 데이터인 SAMSum 데이터를 활용하였고, 선행연구에서 문어체 데이터 텍스트 자동 요약 모델 연구에서 제안한 BERTSumExtAbs 모델을 적용하였다. SAMSum 데이터셋은 70% 이상은 두 사람 간 대화, 나머지 약 30%는 세 사람 이상 간 대화로 구성되어 있다. 본 논문에서는 텍스트 자동 요약 모델을 구어체 데이터에 적용하여, ROUGE Score R-1 부문에서 42.43 이상의 결과를 도출해내었다. 또한, 텍스트 요약 모델로 기존에 제안된 모델인 BERTSum 모델을 fine-tuning하여, 45.81의 높은 점수를 도출했다. 본 연구를 통하여 구어체 데이터에 대한 텍스트 생성 요약의 성능을 입증하였으며, 앞으로 사람의 자연어를 있는 그대로 컴퓨터가 이해하여 다양한 task를 해결하는 데 기초 자료로 활용되길 바란다.

시공간 입체를 이용한 등장인물 얼굴요약 (Face-Summarization using Spatio-Temporal Volume)

  • 박재희;김휘용;김성대
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1839-1842
    • /
    • 2003
  • 본 논문에서는 동영상 내 얼굴요약을 통하여 동영상의 접근성을 향상시키고자 하는 방법을 제안한다. 얼굴요약이란 동영상에 등장한 각 사람들을 한 장씩의 얼굴영상으로 요약하는 것을 말한다. 제안하는 얼굴요약 방법은 크게 얼굴그룹생성과 대표얼굴선정의 두 과정으로 이루어진다. 동영상에서의 얼굴그룹이란 한 사람의 얼굴영상들의 집합을 의미한다. 본 논문에서는 살색화소의 시공간에서의 연속성(spatio-temporal connectivity)및 얼굴검출기법을 이용하여 얼굴영상들을 사람에 따라 그룹화 한다. 대표얼굴이란 얼굴그룹에서 그 사람을 알아보는데 가장 적당한 얼굴영상이다. 본 논문에서는 크고 정면인 얼굴을 대표얼굴로 선정하는 방법을 제안한다. 실험결과에서는 제안한 기법을 이용하여 등장인물의 등퇴장이 빈번하게 발생할 경우에도 동영상을 얼굴 영상들로 요약할 수 있음을 보인다

  • PDF

버그 리포트 사이의 연관 관계를 이용한 PageRank 기반 버그 리포트 요약 기법 (A PageRank-based Bug Report Summarization Technique using Bug Report Relationships)

  • 김범준;강성원;이선아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.653-656
    • /
    • 2019
  • 소프트웨어의 유지보수 단계에서 소프트웨어의 버그 리포트는 개발자에게 유용한 정보를 제공한다. 개발자들은 버그 수정이나 변경 내역 열람 등 다양한 작업을 위해 버그 리포트를 열람한다. 하지만, 대화 형식으로 작성되는 버그 리포트의 특징 때문에 버그 리포트는 종종 매우 길거나 장황하여 이를 읽고 이해하기 어려운 경우가 많다. 이러한 문제점을 해결하기 위한 방법으로 버그 리포트의 요약문을 자동으로 생성하는 기법을 제안하였고, 다양한 관련 연구가 진행되었다. 그러나, 기존에 제안된 버그 리포트 요약 기법들은 버그 리포트만의 고유한 특성들을 활용하지 않는 경우가 많다. 본 연구에서는 버그 리포트들 사이의 중복(duplicates), 의존(depends-on), 역의존(blocks) 관계들을 이용한 PageRank 알고리즘 기반 버그 리포트 요약 기법을 제안한다. 실험 결과 제안 기법이 기존 버그 리포트 요약 기법보다 요약 품질과 적용 범위 측면에서 뛰어남을 확인하였다.