• Title/Summary/Keyword: 텍스트 연구

Search Result 3,471, Processing Time 0.032 seconds

A Chrome Plug-in for Harmful Text Filtering based on CNN-LSTM (CNN-LSTM 기반 유해 텍스트 필터링 크롬 플러그인)

  • Hwang, Hyun-Bin;Kim, Han-Kyum;Chung, Jinwoo;Chung, Hyuk-Soon;Seo, Choong-Won;Lee, Soowon
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.543-546
    • /
    • 2021
  • 최근 온라인 매체에서 무분별한 비속어나 욕설 사용이 늘어남에 따라 유해한 텍스트를 자동으로 필터링하는 시스템의 필요성이 증가하고 있다. 유해 텍스트 필터링 관련 기존의 접근방법은 채팅 프로그램 등 특정 프로그램에 한하여 적용이 되거나 특정 포탈의 웹페이지에 국한되어 적용이 되는 한계가 있다. 따라서 본 연구에서는 AI를 활용하여 모든 웹 페이지의 유해 텍스트를 필터링할 수 있는 Chrome Extension을 구현하고 그 유효성을 검증한다.

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

Generating Literature-Style Sentences based on Summarized Text (요약문 기반 문학 스타일 문장 생성)

  • Bugwang Choe;Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

Image Logging Technique of a Web URL Page on the Tiny Web Server (Web URL Page 의 Image Logging 기법)

  • Yoo, Seung-Hee;Cho, Dong-Sub
    • Annual Conference of KIPS
    • /
    • 2008.05a
    • /
    • pp.679-682
    • /
    • 2008
  • 기존의 웹서버는 텍스트형식의 로그파일을 기록한다. 웹 서버에서 로그파일은 클라이언트의 웹서버에 대한 접속정보와 웹서버의 처리상황 등 모든 상황을 기록하고 저장한다. 이 정보를 분석하면 웹 서비스를 하는데 있어서 웹 서비스의 질을 높이는데 좋은 참고자료가 될 뿐 아니라 웹 서버에 이상이 생겼을 경우 발생한 오류를 조기에 발견하는 데에도 사용되는 중요한 자료이다. 현재 이러한 로그파일은 텍스트 파일로 저장되어있기 때문에 조작의 가능성도 있고 오랜 시간이 지나 해당 웹 페이지가 삭제되었을 경우 로그파일에 기록된 그 시각의 웹 페이지를 볼 수 없다. 본 연구에서는 로그파일에 기록된 그 시간의 웹 URL 페이지 이미지를 저장하여 이미지 로그파일을 만드는 시스템을 구현해 봄으로써 텍스트형식 로그파일의 단점을 보안하고 오랜 시간이 지난 후에도 그 웹 페이지를 볼 수 있는 기법을 연구하였다. 이 기법은 로그파일로써의 역할 뿐만 아니라 Digital Forensics 로 범죄 수사에도 많은 도움이 될 수 있고 휴대전화에서 풀 인터넷 브라우징 연구에도 적용될 수 있다.

Analysis of the feasibility of using title-id indexing in a news recommendation system (뉴스 추천 시스템에서의 제목 인덱싱의 활용 가능성 분석)

  • Jun-Pyo Kim;Tae-Ho Kim;Sang-Wook Kim
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.680-682
    • /
    • 2024
  • 현재까지 연구되었던 뉴스 추천 시스템은 일반적으로 뉴스 제목, 뉴스 본문, 카테고리 정보 등의 텍스트 정보를 기반으로 사용자에게 맞춤 뉴스를 추천해주는 방식으로 동작한다. 구체적으로는 뉴스의 텍스트 정보를 통해 뉴스를 표현하는 임베딩 벡터를 생성하여 사용자 맞춤 뉴스를 추천하는 task-specific 한 아키텍처를 기반으로 동작한다. 기존 연구에서는 task-specific 아키텍처 내의 뉴스의 임베딩 벡터를 생성하는 과정에서 BERT 와 같은 언어모델을 이용하여 텍스트 정보를 더 잘 반영하고자 했다. 본 연구에서는 기존의 구조와 다르게, 뉴스 제목 인덱싱을 통해 전체 뉴스 추천 시스템에서의 언어모델을 충분히 활용할 수 있는 방식을 제안하고자 한다.

A Transition of Informetrics and Its Application : With Relation to Information Service (계량정보학의 변천과 응용에 관한 고찰 -정보서비스를 중심으로-)

  • 장우권
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.101-104
    • /
    • 1996
  • 학문은 다양한 이론적 배경을 토대로 시대적 환경에 적응하여 발전한다. 즉, 서로의 영역을 공유하면서 새로운 이론을 창출하고 실제로 이를 응용하고 있는 것이다. 계량서지학, 계량과학학, 문헌과학학등으로 일컫고 있는 계량정보학은 문헌의 분석을 위해 수량학적 방법으로 적용하여 연구하는 학문으로, 활발히 연구되어 응용되고있는 분야는 텍스트검색시스템, OPACs, 비디오텍스시스템, 하이퍼텍스트시스템, CD-ROM, 온라인 정보서비스, 전자출판, 전자우편, 케이블 TV 등의 전자정보서비스 분야이다. 본 연구에서는 계량정보학의 사적변천과 연구영역, 그 응용과 실제를 고찰하였다.

  • PDF

Vocabulary Improvement in EFL Writing through Narrative and Expository Texts (외국어교육 상황에서 텍스트 유형별 읽기에 따른 어휘력향상 연구)

  • Shin, Kyu-Cheol
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.1
    • /
    • pp.201-209
    • /
    • 2020
  • The purpose of this study is to investigate the effect of narrative and expository texts on incidental vocabulary learning of Korean university EFL learners while reading. The experimental groups were divided into 3 groups. The first experimental group were exposed to narrative texts and second group received expository texts. And the third group were administered narrative and expository texts alternately. The vocabulary tests were conducted after the last session to assess the incidental vocabulary gains of the learners. The results indicated the superiority of the expository texts over narratives in terms of enhancing learners' incidental acquisition of unknown words. Moreover, the results showed that the blended reading group of expository and narrative texts did better on the vocabulary gains than those of narrative reading group and expository reading group. However, in the essay writing assessment, the expository group committed the most vocabulary errors in writing.

Aesthetic's Influence on Ad Text for Hyper Connection Media and Consumers' Thinking Tendency (하이퍼 커넥션 미디어의 광고 텍스트유형과 사고방식에 따른 심미적 영향)

  • Park, Jinpyo;Kim, Jeayoung
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.3
    • /
    • pp.171-179
    • /
    • 2020
  • Media technologies that have made the hyper-connected age change the way people use communication text. Ads texts actively used by companies are storytelling and storydoing. These two advertising texts are very effective in inducing people's emotions and forming participatory behavior. People's thinking tendency also influence persuasion. The results of this study are as follows according to the type of ads text and the thinking tendency of consumers. Consumers' attitudes toward ads turned out to be more positive in synthetic thinking. In analytical thinking, the storytelling ads texts induced more favorable responses. On the other hand, in comprehensive thinking, the story doing text was effective. The same result was found in the perception of premium value, willingness to pay premium price, and repurchase intention.

Building Concept Networks using a Wikipedia-based 3-dimensional Text Representation Model (위키피디아 기반의 3차원 텍스트 표현모델을 이용한 개념망 구축 기법)

  • Hong, Ki-Joo;Kim, Han-Joon;Lee, Seung-Yeon
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.9
    • /
    • pp.596-603
    • /
    • 2015
  • A concept network is an essential knowledge base for semantic search engines, personalized search systems, recommendation systems, and text mining. Recently, studies of extending concept representation using external ontology have been frequently conducted. We thus propose a new way of building 3-dimensional text model-based concept networks using the world knowledge-level Wikipedia ontology. In fact, it is desirable that 'concepts' derived from text documents are defined according to the theoretical framework of formal concept analysis, since relationships among concepts generally change over time. In this paper, concept networks hidden in a given document collection are extracted more reasonably by representing a concept as a term-by-document matrix.