• 제목/요약/키워드: Document research

검색결과 1,350건 처리시간 0.032초

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

  • 박요한;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.341-354
    • /
    • 2023
  • 문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과 (Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy)

  • 김지영;한다현;김종권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.553-558
    • /
    • 2017
  • 빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.

TripleDiff: 트리플 저장소에서 RDF 문서에 대한 점진적 갱신 알고리즘 (TripleDiff: an Incremental Update Algorithm on RDF Documents in Triple Stores)

  • 이태휘;김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.476-485
    • /
    • 2006
  • 시멘틱 웹(semantic web)과 함께 등장한 RDF는 웹 상의 메타데이타 및 데이타를 나타내는 표준으로 자리매김 하고 있다. 이에 따라 RDF에 대한 저장 및 질의 처리에 대한 연구가 많이 이루어졌으며, 대표적인 시스템으로 Sesame, Jena 등이 있다. 그러나 아직 갱신 방법에 대한 연구는 부족하다. RDF 데이타가 지속적으로 갱신이 이루어지는 경우에는 저장된 RDF를 갱신해야 하는 상황이 발생한다. 현존하는 RDF 저장소에서 데이타를 갱신하기 위해서는 기존의 데이타를 모두 삭제한 후 새로운 데이타를 처음부터 다시 저장해야 하는데, 이러한 상황에서는 매우 비효율적이다. 또한 한 RDF 저장소에 여러 RDF가 저장되어 있는 경우에는 갱신 문제가 더욱 복잡해진다. 이에 본 논문에서는 RDF 데이타를 점진적으로 갱신하는 기법을 제안하고자 한다. 제안한 기법은 텍스트 비교 알고리즘을 통해 얻은 결과를 보완하여 기존 RDF 데이타에서 변화된 트리플 문장만을 추출하여 갱신한다. 실제 RDF 데이터를 이용한 실험을 통해 제안한 방법을 사용하여 갱신을 효율적으로 할 수 있음을 보였다.

학생독립운동 지식정보자원관리에 관한 연구 (The Management Knowledge Information Resources of Student Independent Movement under the Rule of Japanese Imperialism)

  • 장우권
    • 한국도서관정보학회지
    • /
    • 제46권1호
    • /
    • pp.203-239
    • /
    • 2015
  • 이 연구는 문헌정보와 아카이브적 측면에서 학생독립운동의 지식정보자원관리에 대한 효율적인 자료수집, 자료해제, DB구축과 아카이브를 제시하는데 그 목적이 있다. 연구는 학생독립운동과 지식정보자원 관련 문헌적 고찰과 일제식민지 치하 학생독립운동 시발과 그 운동과정에서 생성된 자료들의 유통과 이들 자료들이 어떻게 관리되고 있는지에 대한 실제적 조사로 이루어졌다. 이들은 운동과 투옥 그리고 재판의 과정에서 다양한 문헌정보를 생산했으며 이것을 기반으로 정보자원관리와 아카이브가 이루어지고 있다. 이 연구의 결과는 학생독립운동의 지식정보자원에 대한 가치와 역량을 나타내고 진일보한 학생독립운동 연구와 발전에 기여하게 될 것이다.

동적 환경에 적합한 SGML 인덱스 관리자의 설계 및 구현 (Design and Implementation of a SGML Index Manager for Dynamic Environment)

  • 한성근;손정한;장재우;김현기;강현규
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2574-2586
    • /
    • 1999
  • SGML문서는 정보 표현의 기본 단위인 엘리먼트로 구성되어져 있기 때문에 SGML 정보 검색은 기존의 정보 검색에서의 문서 단위 검색뿐만 아니라 엘리먼트 단위 검색이 이루어져야 한다. 또한, SGML 인덱스 구조는 동적 환경을 위해 문서의 부분 삭제와 부분 삽입을 지원해야 한다. 이를 위해 본 연구에서는 동적 환경하에서 구조 질의에 적합한 SGML 인덱스 구조를 제안한다. 그리고, 제안된 인덱스 구조에 근거하여 내용 및 구조-기반 검색을 효율적으로 지원하는 인덱스 관리자를 설계하고, O2시스템을 기반으로 SGML 정보 검색 인덱스 관리자를 구현하며, 기존 인덱스 관리자와 성능 비교를 수행한다. 검색성능 비교 결과, 본 연구에서 제안한 방법이 기존의 K-ray 완전 트리를 사용한 방법보다 더 우수함을 나타낸다.

  • PDF

비료제조업의 국내와 EU 최적가용기법 기준서 비교·분석 (Comparative Analysis of Best Available Techniques Reference Documents on the Fertilizer Manufacture between Korea and European Union)

  • 서경애;김가희;김은석;석희정;신수정;김영란;강필구
    • 한국환경과학회지
    • /
    • 제29권3호
    • /
    • pp.307-318
    • /
    • 2020
  • The integrated permit system is applied to class 1 and 2 atmospheric and water pollutant discharge facilities in 19 sectors. The fertilizer sector should receive a permit for a period of four years, from 2019 to 2023. The purpose of this study is to investigate the differences between the Korean Best Available Techniques (BAT) reference document (K-BREF) and the European Union BAT reference document (EU-BREF) in terms of the process and emission characteristics of fertilizer manufacture. K-BREF is written by focusing on products, whereas EU-BREF is produced on focusing on manufacture process. There are five types of BATs(best available techniques economically achievable) in Korea. These BATs selected mainly to recover and reuse raw meterials and save energy. The number of BATs and BAT-AELs(BAT associated emission level) in K-BREF is smaller than that in EU-BREF. We suggest that BATs and those environmental management parameters in Korea need to further reflect the emission characteristics in the fertilizer sector.

자체방제계획서 검토기준 마련 연구 (A Study on the Self-Prevention Plan System)

  • 김성범;노혜란;이진선;김정민;안승영;석광설
    • 한국재난정보학회 논문집
    • /
    • 제9권1호
    • /
    • pp.50-55
    • /
    • 2013
  • 자체방제계획서 검토기준과 검토서는 공정안전보고서, 안전성향상계획서 등 안전관리제도의 심사내용과 기준, 심사양식에 관한 고시 및 지침을 분석하였다. 심사 담당인력과의 인터뷰를 통해 심사과정에서 예상되는 문제점을 사전 파악하여 연구에 반영될 수 있도록 하였다. 또한 자체방제계획서 작성항목에 따라 서류검토 및 현장이행실태 등의 검토방법으로 나누어 제안하였다. 자체방제계획서 검토는 유해화학물질관리법에 규정되어 있으나, 실질적인 승인절차가 없어 성과가 미흡했던 "자체방제계획서 검토제도"를 활성화 시키고, 검토반 구성을 통한 업무의 전문성과 효율성을 제고하고자 본 연구를 수행하였다.

문서 요약 기법이 가짜 뉴스 탐지 모형에 미치는 영향에 관한 연구 (A Study on the Effect of the Document Summarization Technique on the Fake News Detection Model)

  • 심재승;원하람;안현철
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.201-220
    • /
    • 2019
  • 가짜뉴스가 전세계적 이슈로 부상한 최근 수년간 가짜뉴스 문제 해결을 위한 논의와 연구가 지속되고 있다. 특히 인공지능과 텍스트 분석을 이용한 자동화 가짜 뉴스 탐지에 대한 연구가 주목을 받고 있는데, 대부분 문서 분류 기법을 이용한 연구들이 주를 이루고 있는 가운데 문서 요약 기법은 지금까지 거의 활용되지 않았다. 그러나 최근 가짜뉴스 탐지 연구에 생성 요약 기법을 적용하여 성능 개선을 이끌어낸 사례가 해외에서 보고된 바 있으며, 추출 요약 기법 기반의 뉴스 자동 요약 서비스가 대중화된 현재, 요약된 뉴스 정보가 국내 가짜뉴스 탐지 모형의 성능 제고에 긍정적인 영향을 미치는지 확인해 볼 필요가 있다. 이에 본 연구에서는 국내 가짜뉴스에 요약 기법을 적용했을 때 정보 손실이 일어나는지, 혹은 정보가 그대로 보전되거나 혹은 잡음 제거를 통한 정보 획득 효과가 발생하는지 알아보기 위해 국내 뉴스 데이터에 추출 요약 기법을 적용하여 '본문 기반 가짜뉴스 탐지 모형'과 '요약문 기반 가짜뉴스 탐지 모형'을 구축하고, 다수의 기계학습 알고리즘을 적용하여 두 모형의 성능을 비교하는 실험을 수행하였다. 그 결과 BPN(Back Propagation Neural Network)과 SVM(Support Vector Machine)의 경우 큰 성능 차이가 발생하지 않았지만 DT(Decision Tree)의 경우 본문 기반 모델이, LR(Logistic Regression)의 경우 요약문 기반 모델이 다소 우세한 성능을 보였음을 확인하였다. 결과를 검증하는 과정에서 통계적으로 유의미한 수준으로는 요약문 기반 모델과 본문 기반 모델간의 차이가 확인되지는 않았지만, 요약을 적용하였을 경우 가짜뉴스 판별에 도움이 되는 핵심 정보는 최소한 보전되며 LR의 경우 성능 향상의 가능성이 있음을 확인하였다. 본 연구는 추출요약 기법을 국내 가짜뉴스 탐지 연구에 처음으로 적용해 본 도전적인 연구라는 점에서 의의가 있다. 하지만 한계점으로는 비교적 적은 데이터로 실험이 수행되었다는 점과 한 가지 문서요약기법만 사용되었다는 점을 제시할 수 있다. 향후 대규모의 데이터에서도 같은 맥락의 실험결과가 도출되는지 검증하고, 보다 다양한 문서요약기법을 적용해 봄으로써 요약 기법 간 차이를 규명하는 확장된 연구가 추후 수행되어야 할 것이다.

텍스트 마이닝 기반의 미국 국방 표준 동향 분석을 통한 한국 국방 표준의 발전 방안 연구 (A Study on the Development of Korean Defense Standards through Text Mining-Based Trend Analysis of United States Defense Standards)

  • 채수환;심보현;염슬기;홍성돈
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.651-660
    • /
    • 2021
  • 본 연구는 국방 분야 선진국인 미국의 표준에 대한 제정 동향을 파악하고, 한국 국방 표준에 적용 가능한 방안을 검토하였다. 이를 위해 웹에 등록된 MIL-STD를 비롯하여 다양한 미국 국방 문서에 대해 제목을 중심 데이터를 수집한 후, 텍스트 마이닝을 이용하여 단어 빈도를 분석하고 그 결과를 워드클라우드 형태로 생성하였다. 그 결과, 시대별로 MIL-STD에 등장하는 단어의 동향을 파악할 수 있었다. 문서 자체의 형식으로 인해 많이 등장하는 단어, 전 시대에 걸쳐 많이 등장하는 단어도 있는 반면, 과거에는 자주 쓰이다 현재는 많이 쓰이지 않는 단어나 과거에는 주목을 받지 못하다가 현재에 와서야 많이 등장하는 단어도 파악이 가능하였다. 또한 MIL-STD를 포함한 다양한 국방 문서를 대상으로 생성한 워드클라우드를 통해 그 특징을 도출하였다. 결론적으로 한국 국방 표준도 재료의 안전한 사용 및 다양한 화물 운반 기준을 마련하는 것에 대한 고민이 필요한 것을 확인하였다. 더 나아가 국방 분야 표준 및 규격에 4차 산업혁명 등과 관련된 최신 기술을 반영하여 표준을 선점하고 규격을 마련하는 것이 중요할 것이다. 또한 국방표준 문서체계를 명확하게 정립하고 효율적인 관리에 투자한다면, 국방 분야 표준의 질 향상을 기대할 수 있을 것이다.

ITU-T 전자정보유통시스템의 현황과 과제 (Overview and Future Plan on Electronic Document Handling(EDH) of ITU-T)

  • 구경철;박기식
    • 전자통신동향분석
    • /
    • 제12권2호통권44호
    • /
    • pp.103-118
    • /
    • 1997
  • 최근 국제표준화기구인 ITU를 비롯해 ETSI, T1 Committee, TTA, TTC, ATSC, TSACC 등 각 지역 표준화 기구 (Participating Standardization Organization: PSO)들은 빠른 기술개발에 따른 적기의 표준공급 및 전자적인 표준화문서유통을 통한 신속한 표준제정을 위해 EDH(Electronic Document Handling)라는 전자정보유통시스템을 구축하고 기고서 및 표준문서 등 표준화 진행에 관련된 각종 정보를 전자적으로 검색하고 처리할 수 있는 환경을 구축하는데 많은 노력을 기울이고 있다. 이와 관련하여, 본 고에서는 제2차 세계전기통신표준총회(WTSC-96)에서 가장 활발하게 논의된 사항 중의 하나인 ITU-T/TSAG/EDH 관련 표준화 활동 현황을 고찰하고, 향후 EDH의 방향을 소개하고자 한다.