• 제목/요약/키워드: Textual information

검색결과 240건 처리시간 0.027초

교육과정 변천에 따른 초등 과학 교과서 텍스트에 대한 체계기능언어학적 분석 (The Systemic Functional Linguistics Analysis of Texts in Elementary Science Textbooks by Curriculum Revision)

  • 맹승호;김혜리;김찬종;이정아
    • 한국과학교육학회지
    • /
    • 제27권3호
    • /
    • pp.242-252
    • /
    • 2007
  • 이 연구는 교수요목기부터 7차 교육과정까지의 모든 과학(자연) 교과서에서 공통적으로 제시되는 '기압'과 '바람'을 다루는 텍스트를 체계기능언어학적으로 분석하였다. 연구 결과는 다음과 같다. 관념적 메타기능 측면에서 과학적 정보를 많이 담고 있는 텍스트는 교육과정 개정에 따라 줄어든 것으로 나타났다. 대부분의 정보의 형태는 '원리'보다는 '정의'와 '사실'이었다. 상호적 메타기능 측면에서 학생과 텍스트 사이의 거리는 점점 줄어들었으며, 학생들의 사회적 지위는 교육과정 개정에 따라 점차적으로 고려되었다. 구성적 메타기능 측면에서 전문적 용어와 기호의 비율은 감소 추세에 있었으나, 과학 교과서에서 텍스트양 또한 줄어든 것으로 나타났다. 초기에는 문장에 주어가 제시되었으나, 시간이 흐르면서 주어가 생략되었다. 또한 주어와 문장 첫 구의 일치율은 7차의 교과서 텍스트에서 그 일치도가 현저히 줄어든 것으로 나타났다.

A Term Importance-based Approach to Identifying Core Citations in Computational Linguistics Articles

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권9호
    • /
    • pp.17-24
    • /
    • 2017
  • Core citation recognition is to identify influential ones among the prior articles that a scholarly article cite. Previous approaches have employed citing-text occurrence information, textual similarities between citing and cited article, etc. This study proposes a term-based approach to core citation recognition, which exploits the importance of individual terms appearing in in-text citation to calculate influence-strength for each cited article. Term importance is computed using various frequency information such as term frequency(tf) in in-text citation, tf in the citing article, inverse sentence frequency in the citing article, inverse document frequency in a collection of articles. Experiments using a previous test set consisting of computational linguistics articles show that the term-based approach performs comparably with the previous approaches. The proposed technique could be easily extended by employing other term units such as n-grams and phrases, or by using new term-importance formulae.

블로그의 구조적인 정보를 고려한 블로그 가치평가 방법 (A Method of Blog Evaluation based on Non-Textual information of Blogs)

  • 박성건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1057-1060
    • /
    • 2013
  • 블로그가 1인미디어로서 영향력을 행사하고 있으며 기업과 함께 마케팅과 광고가 진행되고 있을 정도로 산업적으로 다양하게 사용되고 있으나 블로그에 대한 평가는 대부분 정성적으로 행해지고 있다. 하지만 수십 수백만 개의 블로그를 수작업으로 확인하는 것은 쉬운 일이 아니며 자동화된 정량적인 평가가 시급한 실정이다. 본 논문에서는 블로그의 구조적인 특성을 이용한 평가방법을 제안하고 포털사이트 네이버에서 매년 발표되는 파워블로그 중 요리, 육아, 미술/디자인 카테고리의 파워블로그를 비교하여 성능을 평가한다. 평가의 방법은 일반적인 미디어 파워의 평가방법인 구독자수를 비교하였으며 본 논문에서 제시하고 있는 평가의 방법을 통해서 얻어진 블로그가 높은 수의 구독자를 가지고 있음이 판명되어 정성적인 평가 보다 높은 성능을 보임을 알 수 있었다.

RNN과 강화 학습을 이용한 자동 문서 제목 생성 (Automatic Document Title Generation with RNN and Reinforcement Learning)

  • 조성민;김우생
    • Journal of Information Technology Applications and Management
    • /
    • 제27권1호
    • /
    • pp.49-58
    • /
    • 2020
  • Lately, a large amount of textual data have been poured out of the Internet and the technology to refine them is needed. Most of these data are long text and often have no title. Therefore, in this paper, we propose a technique to combine the sequence-to-sequence model of RNN and the REINFORCE algorithm to generate the title of the long text automatically. In addition, the TextRank algorithm was applied to extract a summarized text to minimize information loss in order to protect the shortcomings of the sequence-to-sequence model in which an information is lost when long texts are used. Through the experiment, the techniques proposed in this study are shown to be superior to the existing ones.

서지학의 연구방법 (Methodology of bibliography)

  • 이희재
    • 한국문헌정보학회지
    • /
    • 제20권
    • /
    • pp.223-270
    • /
    • 1991
  • To give any science or discipline an assured status, the most important and fundamental thing is to establish the method of research. 'Bibliography' is an ambiguous and much-abused term in any area, oriental, anglo-american, or latin countries. This study is a little essay to examine the different theories of these three areas and to synthesize the common factors. It is devised three parts : the definition of the term itself and the transition of its concept, the introduction of each theory, and a proposition of methodology based on these theories. In all, bibliography is commonly understood to mean (i) a list of books and other graphic materials arranged according to some system, (ii) the study of books as material objects include historical and textual problems, (iii) as a science of books, the systematic study of all conditions of its production, diffusion, and utilisation, including the study of factors of explication of phenomenon, on the political, economical, technical, social and culturel plans.

  • PDF

5-HMM물 이용한 텍스트 정보추출 (Information extraction wish S-HMM from textual data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.328-330
    • /
    • 2002
  • 본 논문에서는 패턴이나 음성데이터와 같이 순차적 데이터론 인식하는데 널리 사용되어온 모델로서, 일련의 순차적인 성질을 내포하고있는 데이터를 다루는 문제에 적합하다고 할 수 있는 HMM을 이용하여 정보추출 문제를 다룬다. 기본적으로는 통상적인 HMM 사용법을 따르나 모델의 구조를 정함에 있어서 HMM을 사용할 때는 주로 목적에 맞는 HMM의 구조를 수동으로 구성하고 모델 내부의 확률 파라미터 값을 학습시켰던 데 반해, 본 논문에서는 데이터의 전처리 정보를 이용하여 초기에 추상적으로 설정한 모델이 학습을 통해서 점차 구체화되어 가는 자기 구성 은닉마르코프 모델(5-HMM)을 제시하여 사용한다. 제시된 방법은 CFP(Call for Paper)등의 텍스트 데이터에 더만 실험에서 기존 방식을 사용한 HMM보다 향상된 결과를 보여준다.

  • PDF

하이브리드 다중모델 학습기법을 이용한 자동 문서 분류 (Automatic Text Categorization Using Hybrid Multiple Model Schemes)

  • 명순희;김인철
    • 정보관리학회지
    • /
    • 제19권4호
    • /
    • pp.35-51
    • /
    • 2002
  • 본 논문에서는 다중 모델 기계학습 기법을 이용하여 자동 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모델 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고자 한 것인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과. 본 논문에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

Automatic Summarization of French Scientific Articles by a Discourse Annotation Method using the EXCOM System

  • Antoine, Blais
    • 한국언어정보학회지:언어와정보
    • /
    • 제13권1호
    • /
    • pp.1-20
    • /
    • 2009
  • Summarization is a complex cognitive task and its simulation is very difficult for machines. This paper presents an automatic summarization strategy that is based on a discourse categorization of the textual information. This categorization is carried out by the automatic identification of discourse markers in texts. We defend here the use of discourse methods in automatic summarization. Two evaluations of the summarization strategy are presented. The summaries produced by our strategy are evaluated with summaries produced by humans and other applications. These two evaluations display well the capacity of our application, based on EXCOM, to produce summaries comparable to the summaries of other applications.

  • PDF

자기 주도적 학습력 신장을 위한 교육용 Web 컨텐트 설계 및 구현 (A Design and Implementation of Educational Web Contents for Self-directed Learning)

  • 김성희;김수형
    • 정보교육학회논문지
    • /
    • 제3권1호
    • /
    • pp.33-43
    • /
    • 1999
  • Most educational Web contents developed so far can be regarded' as another type of printed textbooks since they are made up of static lists of textual information. It results in a lack of capability in such educational viewpoints as interaction between students and/or teachers, self-directed learning of individual students, and so on. This paper proposes a new style of Web contents, which can improve the self-directed learning capabilities as well as the interaction between students, with the topic of "the life cycle of frog" that the student studies in the third year of elementary school. It has been designed to provide BBS and a studying material appropriate to the achievement level of individual students, and implemented with DHTML and Java.

  • PDF

무선 인터넷 서비스를 위한 WAP 게이트웨이용 WML 컴파일러의 설계 및 구현 (A Design and Implementation of WML Compiler for WAP Gateway for Wireless Internet Services)

  • 최은정;한동원;임경식
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권2호
    • /
    • pp.165-182
    • /
    • 2001
  • 무선 마크업 언어(Wireless Markup Language) 컴파일러는 텍스트로 구성된 문서를 바이너리 문서로 변환, 압축함으로써, 낮은 대역폭을 갖는 무선 선로에서 트래픽을 감소시키며, 낮은 성능을 갖고 있는 이동 단말기에서 브라우징 처리를 간단하게 하는 역할을 한다. 또한 이러한 변환 과정에서 확장 마크업 언어(eXtensible Markup Language)의 well-formedness와 validation 과정을 동시에 처리함으로써, 이동 단말기에서 문서처리 부담을 대폭 경감하는 효과를 가져온다. 본 논문에서 구현한 무선 마크업 언어 컴파일러는 어휘분석기 모듈과 파서 모듈로 구성되어 있는데, 파서 모듈은 파서 생성기를 사용하여 구현하였다. 이는 향후 응용 수준에서 보안 기능을 제공하기 위하여 태그를 확장하거나 무선 마크업 언어의 버전이 업그레이드 될 때에서 변경된 부분에 해당하는 문법만 다시 설계함을써 유연하게 대처할 수 있는 장점을 가지고 있다. 사용된 문법은 LALR(1) context-free 문법으로서, 확장 마크업 언어 1.0과 무선 마크업 언어 1.2의 문서 형태 정의(Document Type Definition)를 기반으로 무선 응용 프로토콜 바이너리 확장 마크업 언어(Wireless Application Protocol Binary XML) 문법을 고려하여 설계되었다. 구현된 컴파일러의 기능을 실험하여 데모하기 위하여 세 가지 방법(수작업, WML 디컴파일러, 노키아 WAP 툴킷)을 사용하였으며, 다양한 태그 조합을 갖는 임의의 130여 개 문서에 대해 실험한 결과, 최대 85%의 압축효과를 얻을 수 있었다. 그러나, 태그나 속성에 비해 일반 문자열 데이타가 많아지면 상대적으로 압축효과가 감소되므로, Hyper Text Markup Language 문서로부터 무선 마크업 언어 문서로 자동 변환된 텍스트를 인코딩하는 경우와 같이 특정한 응용 분야에서는 일반 문자열에 대한 확장 인코딩 기법을 적용할 필요가 있을 수 있다.

  • PDF