• Title/Summary/Keyword: 문단

Search Result 128, Processing Time 0.025 seconds

Automatic Text Categorization Using Passage-based Weight Function and Passage Type (문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화)

  • Joo, Won-Kyun;Kim, Jin-Suk;Choi, Ki-Seok
    • The KIPS Transactions:PartB
    • /
    • v.12B no.6 s.102
    • /
    • pp.703-714
    • /
    • 2005
  • Researches in text categorization have been confined to whole-document-level classification, probably due to lacks of full-text test collections. However, full-length documents availably today in large quantities pose renewed interests in text classification. A document is usually written in an organized structure to present its main topic(s). This structure can be expressed as a sequence of sub-topic text blocks, or passages. In order to reflect the sub-topic structure of a document, we propose a new passage-level or passage-based text categorization model, which segments a test document into several Passages, assigns categories to each passage, and merges passage categories to document categories. Compared with traditional document-level categorization, two additional steps, passage splitting and category merging, are required in this model. By using four subsets of Routers text categorization test collection and a full-text test collection of which documents are varying from tens of kilobytes to hundreds, we evaluated the proposed model, especially the effectiveness of various passage types and the importance of passage location in category merging. Our results show simple windows are best for all test collections tested in these experiments. We also found that passages have different degrees of contribution to main topic(s), depending on their location in the test document.

Detecting Improper Sentences in a News Article Using Text Mining (텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템)

  • Kim, Kyu-Wan;Sin, Hyun-Ju;Kim, Seon-Jin;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

Detecting Improper Sentences in a News Article Using Text Mining (텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템)

  • Kim, Kyu-Wan;Sin, Hyun-Ju;Kim, Seon-Jin;Lee, Hyun Ah
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

탈이념의 사회상황 반영한 90년대 대표적 논쟁들

  • Park, Cheon-Hong
    • The Korean Publising Journal, Monthly
    • /
    • s.253
    • /
    • pp.11-11
    • /
    • 1999
  • 80년대 문단이 문학의 사회성과 예술성을 둘러싼 리얼리즘과 모더니즘의 선명한 대립선상에서 파악될 수 있다면, 이념의 깃발이 내려진 90년대 문단을 지배한 것은 문학(비평)의 위기와 상업주의의 악마적 질주에 대한 문학적 대응이라고 할 수 있다. 선명한 진영은 해체되고 위기의 담론이 넘쳤으며 문단 상업주의는 더욱 노골화됐다. 따라서 90년대는 '중심'을 상실해간 시대에 진정성의 문학이 놓일 자리를 찾는 잡음과 소음의 연대로 기록될 것이다.

  • PDF

Text Summarization with Abductive Rules and Sentence Abstraction (개연성 규칙과 문장추상화를 활용한 문서요약)

  • Kim, Gon;Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.359-362
    • /
    • 2002
  • 본 논문에서는 문장추상화와 문장간 개연적 연결상황을 활용한 문단 기준의 문서요약을 생각하였다. 구상한 문단기준 문서요약 방법론은 다음과 같은 절차로 구성되어 있다: (1) 문단의 문장들을 추상화시킨다, (2) 문장구성성분들의 문장간 개연적 연결상황을 확인한다, (3) 연결집중도가 상대적으로 높은 문장을 문단의 화제를 담고 있는 것으로 인정한다. 본 논문에서는 이 과정에서 문장추상화에 필요한 구문분석기와 온톨로지를 구체화하였고, 문장추상기로 설화문장 추상화를 하였다. 그 후 개연성 규칙을 적용하여 문단의 주제문을 선별하였다.

  • PDF

Keyword Weight based Paragraph Extraction Algorithm (키워드 가중치 기반 문단 추출 알고리즘)

  • Lee, Jongwon;Joo, Sangwoong;Lee, Hyunju;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.504-505
    • /
    • 2017
  • Existing morpheme analyzers classify the words used in writing documents. A system for extracting sentences and paragraphs based on a morpheme analyzer is being developed. However, there are very few systems that compress documents and extract important paragraphs. The algorithm proposed in this paper calculates the weights of the keyword written in the document and extracts the paragraphs containing the keyword. Users can reduce the time to understand the document by reading the paragraphs containing the keyword without reading the entire document. In addition, since the number of extracted paragraphs differs according to the number of keyword used in the search, the user can search various patterns compared to the existing system.

  • PDF

The Effect of the Individual differences in Cognitive Processes on Paragraph Comprehension: Structural Equation Modeling (인지정보처리의 개인차와 문단의 이해: 구조모형 연구)

  • Lee, Yoonhyoung;Kwon, Youan
    • Korean Journal of Cognitive Science
    • /
    • v.23 no.4
    • /
    • pp.487-515
    • /
    • 2012
  • The purpose of this study was to investigate the effect of the individual differences in cognitive processes on paragraph comprehension. To do so, the lexical decision task and the pattern comparison task were used to measure the low-level cognitive processes. Digit span task was used to test the phonological loop capacity. The individual differences of the central executive processing capacity were measured by operational span task. Reading span task was used to test the working memory capacity related with the sentence processing. Reading times and accuracies of the logically valid inferences and logically void inferences were tested to measure the high-level cognitive processes. Reading times and accuracies for the target sentences with and without prior explicit causal sentence were measured to test individuals' paragraph comprehension abilities. The results showed that the speed of the low-level cognitive processes was related with the speed of the high-level cognitive processes. Also, the accuracy of the low-level cognitive processes was related with the accuracy of the high-level cognitive processes while there was no significant correlation between the speed and the accuracy in any measures of the cognitive processes. Working memory capacity was related with the accuracy of the cognitive processes while it was not significantly correlated with the speed of the cognitive processes. Most importantly, the speed of low-level cognitive processes significantly affected the speed of the paragraph comprehension while the working memory capacity and the high-level cognitive processes had influences on the accuracies of the paragraph comprehension. The speed of the paragraph comprehension had no influence on the accuracies of the paragraph comprehension.

  • PDF

Document Analysis based Main Requisite Extraction System (문서 분석 기반 주요 요소 추출 시스템)

  • Lee, Jongwon;Yeo, Ilyeon;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.4
    • /
    • pp.401-406
    • /
    • 2019
  • In this paper, we propose a system for analyzing documents in XML format and in reports. The system extracts the paper or reports of keywords, shows them to the user, and then extracts the paragraphs containing the keywords by inputting the keywords that the user wants to search within the document. The system checks the frequency of keywords entered by the user, calculates weights, and removes paragraphs containing only keywords with the lowest weight. Also, we divide the refined paragraphs into 10 regions, calculate the importance of the paragraphs per region, compare the importance of each region, and inform the user of the main region having the highest importance. With these features, the proposed system can provide the main paragraphs with higher compression ratio than analyzing the papers or reports using the existing document analysis system. This will reduce the time required to understand the document.

Keyword Weight based Paragraph Extraction Algorithm (문단 가중치 분석 기반 본문 영역 선정 알고리즘)

  • Lee, Jongwon;Yu, Seongjong;Kim, Doan;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.05a
    • /
    • pp.462-463
    • /
    • 2018
  • Traditional document analysis systems used word-based analysis using a morphological analyzer or TF-IDF technique. These systems have the advantage of being able to derive key keywords by calculating the weights of the keywords. On the other hand, it is not appropriate to analyze the contents of documents due to the structural limitations. To solve this problem, the proposed algorithm calculates the weights of the documents in the document and divides the paragraphs into areas. And we calculate the importance of the divided regions and let the user know the area with the most important paragraphs in the document. So, it is expected that the user will be provided with a service suitable for analyzing documents rather than using existing document analysis systems.

  • PDF

The Selective Effect of Cohesive Devices on Scientific Text Reading and Comprehension (과학텍스트의 읽기 및 이해에 대한 결속장치의 선택적 영향)

  • Kim, Say-Young;Han, Kwang-Hee;Cho, Sook-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.226-232
    • /
    • 2001
  • 본 연구는 결속장치(cohesive devices)가 과학텍스트의 읽기 속도와 내용 이해에 끼치는 영향에 대해 연구하였다. 연구의 목적을 위한 실험을 통해서 먼저, 텍스트의 문단별 읽기 시간을 측정하여 온라인 처리 과정을 검토하였고, 둘째, 회상과 재인 검사를 실시하여 오프라인 상태에서의 이해도를 조사하였다. 이 연구의 재료로 사용된 텍스트는 번개 생성과정에 대한 과학텍스트로서, 반복, 지시사, 정박(anchoring), 인과적 접속사 등의 결속장치를 이용하여 응집성(coherence)의 강도를 높고, 낮게 조작하였다. 실험 결과, 결속장치가 길속장치의 종류와 지엽적 응집성의 강도에 따라 과학텍스트 읽기와 이해에 선택적으로 영향을 끼친다는 것을 발견하였다. 첫째, 인과적 접속사는 읽기 시간에는 영향을 주지 않는 반면, 이해를 촉진했는데, 이 긍정적 효과는 과제의 종류에 따라 다르게 나타났다. 즉, 회상 검사 결과에서는 인과적 접속사가 쓰인 모든 문단에서 유의한 차이가 나타났으나, 재인 검사에서는 유의한 차이가 부분적으로만 나타났다. 둘째, 반복 결속장치는 다른 결속장치와 같이 발생할 경우에만 읽기 시간과 이해를 부분적으로 촉진하는 것으로 나타났다. 셋째. 정박 결속장치의 영향은 읽기와 이해 두 처리 과정에 모두 선택적으로 영향을 준 것으로 나타났다. 인과적 접속사와 함께 쓰인 문단의 경우에는 회상 검사에서만, 반복 결속장치가 함께 쓰인 문단에서는 회상, 재인 검사에서 모두 긍정적 영향을 준 것으로 관찰되었다.

  • PDF