• 제목/요약/키워드: Document Order

검색결과 777건 처리시간 0.027초

질의응답을 위한 복수문서 요약에 관한 실험적 연구 (An Experimental Study on Multi-Document Summarization for Question Answering)

  • 최상희;정영미
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.289-303
    • /
    • 2004
  • 이 연구에서는 이용자가 여러 곳에 분산되어 있는 문서들을 일일이 보지 않고 하나의 요약문에서 쉽게 질의에 맞는 답을 찾을 수 있는 가장 효율적인 방안을 제시하고자 하였다. 이를 위해, 클러스터링 기법, 단락확장 기법, 두 기법의 특성을 반영한 혼합 기법 등 세 가지 복수문서 요약 기법의 성능을 평가하는 실험을 수행하였다. 요약기법 평가 기준으로는 요약 정확률과 요약문내 정보 중복도를 적용하였다. 실험결과 이용자 질의에 따라 여러 문서를 요약하는 최적 기법으로 문장검색을 기반으로 한 순차적 단락확장 기법을 제안하였다. 순차적 단락확장은 특히, 용약의 대상이 되는 문서가 대용량인 환경에서 정확한 정보를 찾아 요약문을 생성하는 성능이 가장 우수한 것으로 나타났다.

지언고론(至言高論)에 의한 한의학적(韓醫學的) 정신치료(精神治療)에 대(對)한 연구(硏究) (의안(醫案)을 중심으로) (A study of psychotherapy by means of oriental medicine though the Giungoroen(至言高論)-Focusing on Ancient clinical document)

  • 구병수;김근우
    • 동의신경정신과학회지
    • /
    • 제12궈1호
    • /
    • pp.29-45
    • /
    • 2001
  • Objectives: In order to overcome psychotherapeutic problems though the theory of oriental medicine by means of the Giungoroen(至言高論-wise saying and lofty opinion). Methods: This research was done by comparing the contents of psychotherapeutic ancient clinical document with the western medical method of psychotherapy Results: 1. Inquire into the clinical document, the psychotherapy is used treatment of wide area disease inclusive of neuropsychiatric disease different from the western medicine. 2. Inquire into the method of psychotherapy, the supportive psychotherapy and behavior therapy is applied. 3. In case of psychotherapy and treatment of medicines is done at the same time, treatment of medicines followed psychotherapy. 4. A viewpoint of Yusic(唯識-vijnaptim-atra)-a field of Buddhism, possibility of psychotherapy is showed. 5. A doctor's oriental thought and oriental medical Preservation of Health view was based. 6. The change of patient's the emotion and will is focused than disease itself. Conclusion: When western medical method of psychotherapy is complemented by a oriental thought and oriental medical Preservation of Health view, the good effects is hoped in psychotherapy.

  • PDF

Local Similarity based Document Layout Analysis using Improved ARLSA

  • Kim, Gwangbok;Kim, SooHyung;Na, InSeop
    • International Journal of Contents
    • /
    • 제11권2호
    • /
    • pp.15-19
    • /
    • 2015
  • In this paper, we propose an efficient document layout analysis algorithm that includes table detection. Typical methods of document layout analysis use the height and gap between words or columns. To correspond to the various styles and sizes of documents, we propose an algorithm that uses the mean value of the distance transform representing thickness and compare with components in the local area. With this algorithm, we combine a table detection algorithm using the same feature as that of the text classifier. Table candidates, separators, and big components are isolated from the image using Connected Component Analysis (CCA) and distance transform. The key idea of text classification is that the characteristics of the text parallel components that have a similar thickness and height. In order to estimate local similarity, we detect a text region using an adaptive searching window size. An improved adaptive run-length smoothing algorithm (ARLSA) was proposed to create the proper boundary of a text zone and non-text zone. Results from experiments on the ICDAR2009 page segmentation competition test set and our dataset demonstrate the superiority of our dataset through f-measure comparison with other algorithms.

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법 (Document Clustering Technique by K-means Algorithm and PCA)

  • 김우생;김수영
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.625-630
    • /
    • 2014
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.

비음수 행렬 분해와 K-means를 이용한 주제기반의 다중문서요약 (Topic-based Multi-document Summarization Using Non-negative Matrix Factorization and K-means)

  • 박선;이주홍
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권4호
    • /
    • pp.255-264
    • /
    • 2008
  • 본 논문은 K-means과 비음수 행렬 분해(NMF)를 이용하여 주제기반의 다중문서를 요약하는 새로운 방법을 제안하였다. 제안방법은 비음수 행렬 분해를 이용하여 가중치가 부여된 용어-문장 행렬을 희소(Sparse)한 비음수 의미특징 행렬과 비음수 변수 행렬로 분해함으로써 직관적으로 이해할 수 있는 형태의 의미적 특징을 추출할 수 있고, 주제와 의미특징간의 유사도에 가중치를 부여하여 유사도는 높으나 실제 의미 없는 문장이 추출되는 것을 막는다. 또한 K-means 군집을 이용하여 문장에 포함된 노이즈를 제거함으로써 문서의 의미가 요약에 편향되게 반영하는 것을 피할 수 있고, 추출된 문장에 부여된 순위순서대로 정렬하여 보여 줌으로써 응집성을 높인다. 실험 결과 제안방법이 다른 방법에 비하여 좋은 성능을 보인다.

컨텐츠 기반 문서 라우팅 시스템을 이용한 로제타넷 다중-PIP환경의 구축에 대한 연구 (A Study on the Construction of RosettaNet Multi-PIP Environment with Contents- Based Document Routing System)

  • 김민수
    • 한국전자거래학회지
    • /
    • 제11권1호
    • /
    • pp.113-126
    • /
    • 2006
  • 기업 간 협업이 강조되면서 전자상거래 업무의 범위도 확대되고 있다. 전자상거래는 점차 초기의 주문처리 및 지불 업무에서 벗어나 기업의 가치 사슬 전반에 걸친 협업 프로세스로 확대되고 있다. 이러한 협력 이 원활하기 위해서는 해당 프로세스가 표준을 통해 충분히 지원되어 야 한다. 대표적 인 B2B 국제 표준의 하나인 로제타넷에서는 프로세스 확대를 지원하기 위하여 꾸준히 새 PIP(Partner Interface Process)을 개발하고 있다. 각 PIP들은 모두 기업 내$\cdot$외부의 단위 업무를 표준화한 것이므로, 큰 단위의 업무프로세스에는 여러 개의 PIP들을 유기적으로 연계해야만 한다. 그러나, 다중_PIP의 연계와 관련하여 참고할만한 가이드라인이나 표준 산출물이 제시되고 있지 많아 로제타넷 구현에 어려움을 주고 있다. 본 연구에서는 컨텐츠 기반 문서 라우팅 시스템을 구현하고, 다중-PIP이 요구되는 로제타넷 e-Logistics 환경의 구축에 실제로 활용함으로써, 다중-PIP의 실행이 유연하게 지원될 수 있음을 보였다.

  • PDF

특징선택과 특징가중의 융합을 통한 웹문서분류 성능의 개선 (Performance Improvement of Web Document Classification through Incorporation of Feature Selection and Weighting)

  • 이아람;김한준;현만
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.141-148
    • /
    • 2013
  • 기계학습을 이용한 자동분류시스템은 학습과정을 통해 분류모델을 구축하고 이를 기반으로 미분류 데이터를 특정 카테고리로 분류한다. 기계학습 기반 자동분류 시스템의 성능은 분류모델의 구성 인자인 특징의 품질에 크게 의존한다. 문서 데이터의 경우 특징 집합을 생성하기 위해 문서내의 출현단어와 문서의 구조적 정보를 활용한다. 특히 웹문서로부터 특징을 추출하기 위해 단어뿐만 아니라 태그, 하이퍼링크 정보를 분석할 수 있다. 최근 웹문서의 분류 기법에 대한 연구는 기계학습 알고리즘보다 특징 생성 및 가공 기술에 초점을 맞추고 있다. 이에 본 논문은 웹문서의 분류모델을 개선하기 위해 단어, 태그, 하이퍼링크 정보로부터 고품질의 특징을 선별 추출하여 가중치를 자동으로 부여하는 기법을 제안한다. Web-KB 문서집합을 이용한 다양한 실험을 통해 제안 기법의 우수성을 보인다.

OOXML형식을 사용하는 MS 파워포인트 파일에 대한 편집 이력 조사 방법 (Methods for Investigating of Edit History about MS PowerPoint Files That Using the OOXML Formats)

  • 윤지혜;박정흠;이상진
    • 정보처리학회논문지C
    • /
    • 제19C권4호
    • /
    • pp.215-224
    • /
    • 2012
  • 개인 및 기업의 업무 처리 시 컴퓨터 사용이 일반화됨에 따라 각종 문서 파일들이 디지털 형태로 생성되고 이메일, USB등 다양한 매체를 통해 이동, 복사되고 있다. 이러한 디지털 자료를 면밀히 분석하면 문서 작업 중 발생한 편집 이력을 추적할 수 있다. 이에 관하여 복합문서 파일 형식에 대한 연구는 있었으나 새로운 OOXML형식에 대해서 파일의 작성 과정을 파악하기 위한 저장되지 않은 파일을 찾거나 내부 작성 순서를 추적하고 서로 다른 문서 파일간의 연관성을 분석하는 방법에 대한 연구는 없었다. 향후 OOXML형식 디지털 문서의 사용이 더욱 증가할 것이며, 이러한 편집이력 추적 연구는 문서 파일에 대한 디지털 포렌식 수사에 큰 도움이 될 것이다. 따라서 본 논문은 OOXML형식 문서에 대해서 포렌식 관점을 가지고 문서파일의 내부 작성순서를 분석하고 파일 간 연관성을 추적하는 조사 방법을 제시한다.

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.

Development and Evaluation of PDF Report Annotation Tool GABA Facilitating Comment Reuse

  • Kakeshita, Tetsuro;Motoyama, Shoichi
    • International Journal of Contents
    • /
    • 제9권2호
    • /
    • pp.22-26
    • /
    • 2013
  • Comparing online and paper-based environment for report submission and correction, the former supersedes to the latter, since (1) the turn-around time becomes shorter, (2) teaching opportunity increases, and (3) as a consequence, the student's achievement level becomes higher in the online environment. In this paper, we propose an annotation tool GABA for PDF document in order to reduce correction time by the teachers and to facilitate instruction to students. In a usual class, the same or similar assignments are given to the students. Then it is often the case that many students make similar mistakes. A teacher can register and classify common correction comments to GABA. Report correction time becomes significantly shorter by reusing the registered comments. GABA also provides various support functions in order to assist efficient checking of numerous report files such as (1) sorting of frequently-used comments, (2) similarity-based file sorting, and (3) cross tabulation of comments using category and weight.