• 제목/요약/키워드: 추상 요약

검색결과 23건 처리시간 0.026초

워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법 (Multi Sentence Summarization Method using Similarity Clustering of Word Embedding)

  • 이필원;송진수;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

개체명 문맥의미표현 학습을 통한 기계 요약의 사실 불일치 교정 (Learning Contextual Meaning Representations of Named Entities for Correcting Factual Inconsistent Summary)

  • 박준모;노윤석;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2020
  • 사실 불일치 교정은 기계 요약 시스템이 요약한 결과를 실제 사실과 일치하도록 만드는 작업이다. 실제 요약 생성연구에서 가장 공통적인 문제점은 요약을 생성할 때 잘못된 사실을 생성하는 것이다. 이는 요약 모델이 실제 서비스로 상용화 하는데 큰 걸림돌이 되는 부분 중 하나이다. 본 논문에서는 원문으로부터 개체명을 가져와 사실과 일치하는 문장으로 고치는 방법을 제안한다. 이를 위해서 언어 모델이 개체명에 대한 문맥적 표현을 잘 생성할 수 있도록 학습시킨다. 그리고 학습된 모델을 이용하여 원문과 요약문에 등장한 개체명들의 문맥적 표현 비교를 통해 적절한 단어로 교체함으로써 요약문의 사실 불일치를 해소한다. 제안 모델을 평가하기 위해 추상 요약 데이터를 이용해 학습데이터를 만들어 학습하고, 실제 시나리오에서 적용가능성을 검증하기 위해 모델이 요약한 요약문을 이용해 실험을 수행했다. 실험 결과, 자동 평가와 사람 평가에서 제안 모델이 비교 모델보다 높은 성능을 보여주었다.

  • PDF

텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리 (Spark-Based Big Data Preprocessing for Text Summarization)

  • 지동준;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.383-385
    • /
    • 2022
  • 텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

개연성 규칙과 문장추상화를 활용한 문서요약 (Text Summarization with Abductive Rules and Sentence Abstraction)

  • 김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.359-362
    • /
    • 2002
  • 본 논문에서는 문장추상화와 문장간 개연적 연결상황을 활용한 문단 기준의 문서요약을 생각하였다. 구상한 문단기준 문서요약 방법론은 다음과 같은 절차로 구성되어 있다: (1) 문단의 문장들을 추상화시킨다, (2) 문장구성성분들의 문장간 개연적 연결상황을 확인한다, (3) 연결집중도가 상대적으로 높은 문장을 문단의 화제를 담고 있는 것으로 인정한다. 본 논문에서는 이 과정에서 문장추상화에 필요한 구문분석기와 온톨로지를 구체화하였고, 문장추상기로 설화문장 추상화를 하였다. 그 후 개연성 규칙을 적용하여 문단의 주제문을 선별하였다.

  • PDF

요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋 (News in a Nutshell: A Korean Headline-Style Summarization Dataset)

  • 권홍석;고병현;박주홍;이명지;오재영;허담;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2020
  • 문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

  • PDF

대화문 재구조화를 통한 한국어 대화문 요약 (Summarization of Korean Dialogues through Dialogue Restructuring)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.77-85
    • /
    • 2023
  • COVID-19 이후 온라인을 통한 소통이 증가하여 다양한 플랫폼을 기반으로 소통을 위한 대화 텍스트 데이터가 대량으로 축적되고 있다. 텍스트 데이터로부터 유의미한 정보를 추출하기 위한 텍스트 요약에 대한 중요성이 더욱 증가함에 따라 딥러닝을 활용한 추상 요약 연구가 활발하게 이루어지고 있다. 그러나 대화 데이터는 뉴스 기사와 같은 정형화된 텍스트에 비해 누락 및 변형이 많아 대화 상황을 다양한 관점에서 고려해야 하는 특이성이 있다. 특히 어휘 생략과 동시에 내용과 관련 없는 표현 요소들이 대화의 내용을 요약하는 데 방해가 된다. 그러므로 본 연구에서는 한국어 대화 데이터의 특성을 고려하여 발화문을 재구조화하고 KoBART 기반의 사전학습된 텍스트 요약 모델을 파인 튜닝후, 요약문에서 중복 요소를 제거하는 정제 작업을 통해 대화 데이터 요약 성능을 향상시키고자 한다. 발화문을 재구조화하는 방법으로는 발화 순서에 따라 재구조화는 방법과 중심 발화자를 기준으로 재구조화하는 방법을 결합하였다. 대화문 재구조화 방법을 적용한 결과, Rouge-1 점수가 4 정도 향상되었다. 본 연구의 대화 특성을 고려한 재구조화 방법이 한국어 대화 요약 성능 향상에 유의미함을 입증하였다.

텍스트 요약 품질 향상을 위한 의미적 사전학습 방법론 (Semantic Pre-training Methodology for Improving Text Summarization Quality)

  • 전민규;김남규
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.17-27
    • /
    • 2023
  • 최근 사용자에게 의미있는 정보만을 자동으로 간추리는 텍스트 자동 요약이 꾸준히 연구되고 있으며, 특히 인공신경망 모델인 트랜스포머를 활용한 텍스트 요약 연구가 주로 수행되고 있다. 다양한 연구 중 특히 문장 단위 마스킹을 통해 모델을 학습시키는 GSG 방식이 가장 주목을 받고 있지만, 전통적인 GSG는 문장의 의미가 아닌 토큰의 중복 정도에 기반을 두어 마스킹 대상 문장을 선정한다는 한계를 갖는다. 따라서 본 연구에서는 텍스트 요약의 품질을 향상시키기 위해, 문장의 의미를 고려하여 GSG의 마스킹 대상 문장을 선정하는 SbGSG(Semantic-based GSG) 방법론을 제안한다. 뉴스기사 370,000건과 요약문 및 레포트 21,600건을 사용하여 실험을 수행한 결과, ROUGE와 BERT Score 측면에서 제안 방법론인 SbGSG가 전통적인 GSG에 비해 우수한 성능을 보임을 확인하였다.

LOGO프로그래밍 언어가 초등학생의 창의성 발달에 미치는 영향 (Effects of LOGO Programming Language on Elementary School Students' Creativity)

  • 이점순;홍기천
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2008년도 동계학술대회
    • /
    • pp.123-128
    • /
    • 2008
  • 1960년대 후반에 미국MIT대학의 인공지능 실험실에서 Seymour Papert와 그의 동료들에 의해 개발된 LOGO프로그래밍 언어학습이 초등학생의 창의성 발달에 미치는 영향을 연구하고자 하였다. 그래서 LOGO프로그래밍 언어는 MSWLogo를 초등학교 5학년을 대상으로 주 2회 20차시 학습을 하고 창의성 검사는 TORRANCE TTCT(도형)을 활용하여 실시했으며, 창의성 전체요인과 세부항목에 미치는 영향을 분석하였다. 그 결과를 요약하면 다음과 같다. 첫째, LOGO프로그래밍 언어 학습 활동이 창의성 발달에 효과적인 것으로 보인다. 둘째, LOGO프로그래밍 언어가 세부항목인 유창성, 독창성, 추상성, 정교성, 저항요인 향상에 영향을 미치는 것으로 나타났다. 셋째, 실험집단 내 남학생과 여학생간의 창의성 발달에 기여하는 정도는 동일한 것으로 나타났다. 이상의 연구 결과를 종합해 볼 때 LOGO프로그래밍 언어가 아동의 두뇌 활동을 자극하여 창의성 발달에 유용한 것으로 사료된다.

  • PDF

해동피(海桐皮)와 갈근(葛根)을 이용한 닭고기 개발에 대한 연구

  • 추상용
    • 한국조리학회지
    • /
    • 제5권2호
    • /
    • pp.59-89
    • /
    • 1999
  • 본 연구는 기존의 삼계탕재료에 해동피와 갈근의 축출액을 넣어서 조리를 하여 특성변화와 기호도를 검토하고자 4주령(28일)의 부로일러 종 50수 각 처리구당 해동닭 15수, 삼계탕 15수, 일반닭 15수씩 총 3개 처리구에 배치하여 상품개발을 위한 실험결과를 요약하면 다음과 같다. 영양분석에서 단백질은 해동닭이 작게는 10.07%~11.08%까지 높게 분석되었고 지방은 해동닭이 삼계탕보다는 0.04% 더 많으며 일반닭보다는 4.65%나 작았다. 특히 적육(Red-meat)에서는 다른 흰살(White-meat) 고기의 닭고기에서는 우리인체에 중요한 작용을 하는 생체의 성장기능, 번식기능과 치료효과의 동맥경화증, 혈전억제 효과가 있다고 하는 불포화지방산(Omega-polyunsaturated fatty acide, 3, 6)( $\omega$-3, 6)을 함유하고 있어 지속적인 식도락가의 사랑을 받을 것으로 예측된다. 회분함량도 상대적으로 많으며 수분도 조리의 특성상 증발하지 못한 관계로 그대로 있어 수분과 조리로 인하여 손실되는 영양상태를 그대로 유지할 수가 있었다. 관능테스트에서는 <그림2-1, 2, 3>과 <표 2-10>에서 분석결과를 보듯이 제일 중요한 점은 고객의 기호도라 볼 수 있겠다. 시각적인 면만 약간 개선된다면 정말로 말할 수 없을 정도로 흡족한 상품이라 할 수 있겠다. 해동닭이 후각 90%, 맛 97%, 조직도 83%, 만족도 97%를 보면 그 누가 훌륭한 상품이라고 하지 않겠는가 하는 아쉬움을 가지며 시각적인 면도 해동피, 갈근, 황기, 인삼, 밤, 마늘, 대추, 은행, 생강, 고추 등 고객의 관심도가 높은 의 한약재료가 들어가는 것을 안다면 그리 문제가 되지 않는다고 보며 단지 문제가 있다면 우리 국민 의식이 가공식품에 대한 인식전환과 시기적인 환경, 국민소득 12,000불대의 시대에 맞는 상품이기를 바란다.

  • PDF

Cyanidin 3-glucoside(C3G) 함량이 높은 고기능성 벼 신품종 '슈퍼자미' (A New Rice Variety 'Superjami' with High Content of Cyanidin 3-glucoside)

  • 권순욱;추상호;한상준;류수노
    • 한국육종학회지
    • /
    • 제43권3호
    • /
    • pp.196-200
    • /
    • 2011
  • '슈퍼자미'는 한국방송통신대학교 농학과에서 2009년도에 육성한 C3G 고함유 흑자색 품종으로 주요특성과 수량성을 요약하면 다음과 같다. 1. 중부평야지 평균 출수기는 8월 25일로 만생종이며, 간장은 75 cm 정도이고, 종피색이 흑자색인 유색메벼 품종이다. 2. 현미천립중은 26.2 g 정도이고, 장폭비는 1.87로 단원형이며, 종피는 흑자색으로 안토시아닌 주색소인 C3G 함량이 '흑진주벼'의 10배 수준으로 색택이 균일한 품종이다. 3. 중부평야지역 보통기 보비재배 2개소에서 평균 629.7 kg/10a 수준으로 '흑진주벼'의 162% 수준이다.