• Title/Summary/Keyword: 텍스트 연구

Search Result 3,494, Processing Time 0.037 seconds

A Study on Protection for Web Contents against a Spam-Robot (스팸로봇으로부터 웹컨텐츠 보호에 대한 연구)

  • Yoon, Seung-Hyun;Kim, Chang-Soo
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.1205-1208
    • /
    • 2004
  • 인터넷의 빠른 성장과 함께 다양한 웹 컨텐츠들이 사용자들에게 서비스되고 있다. 특히 상업적 목적으로 만든 사이트나 사용자들이 많은 컴뮤니티 사이트 같은 경우, 웹 컨텐츠의 정보 가치가 높기 때문에 스팸로봇에 의해 정보가 유출되는 경우가 발생한다. 이는 대부분의 웹컨텐츠가 HTML문서로 작성되어 있어 스팸로봇과 같은 도구들로부터 보안이 취약하다. 본 연구는 스팸로봇으로부터 웹컨텐츠를 보호하기 위해 이미지 보호를 위한 이미지 경로 은닉화 방법을 제시하고, 텍스트와 전자우편 메일을 보호하기 위한 방법을 제시한다.

  • PDF

The gene prediction method considering stages of cancer, obtained by integrating gene expression, genetic interaction data and document (문헌정보와 유전자 발현 및 상호 작용 데이터를 통합, 암의 단계를 고려한 질병 유전자 예측 방법)

  • Kim, Jungrim;Yeu, Yunku;Park, Sanghyun
    • Annual Conference of KIPS
    • /
    • 2013.11a
    • /
    • pp.1113-1116
    • /
    • 2013
  • 유전체에 대한 관심이 크게 증가하면서, 이에 따른 다양한 연구가 이루어졌다. 그 결과 유전체와 관련된 다양한 종류의 데이터가 얻어졌으며, 그것을 해석하고 다른 데이터와 통합하는 것이 중요한 연구과제 중 하나가 되었다. 본 논문은 유전자 상호작용(genetic interaction) 데이터, 유전자 발현 데이터, 문헌으로부터 텍스트마이닝 기술을 통해 얻은 이종(heterogeneous) 데이터를 통합하여 암과 관련이 있는 유전자를 찾는 실험을 수행하였다. 또한, 단순히 질병(disease)-정상(normal)의 대조가 아니라 암의 단계(stage)를 고려한 실험을 수행하였다. 데이터를 통합하지 않거나 암의 단계를 고려하지 않았을 경우에 비하여 제안하는 방법이 더 높은 유전자 예측 성능을 나타냈다.

A study on a chatbot that conveys the message of 『The Analects』 using Google Dialogflow (Google Dialogflow를 활용해 『논어』의 메시지를 전하는 챗봇에 관한 연구)

  • Yeon-Soo Ryu;Young-Seok Woo;Yeong-Chae Yun;So-Jeong Park
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.565-570
    • /
    • 2022
  • 본 논문은 Google Dialogflow 챗봇 개발 플랫폼으로 『논어』의 메시지를 현대화한 고민상담 챗봇을 제안한다. Dialogflow 챗봇 개발 플랫폼은 사전에 설계된 대화 아키텍처에 따라 응답을 제시한다. 즉, 질문의 의도가 파악되면 별도의 문장생성 없이 사전에 입력된 시나리오가 출력되기 때문에 고전 텍스트의 낯선 어투와 함축성의 허들을 극복할 수 있다. '챗봇'을 매체로 선정한 주된 이유는 쌍방향성 때문이다. 사용자는 챗봇을 통해 원하는 내용을 주체적이고 선별적으로 학습할 수 있다. 본 연구는 인문학적 문화원형과 공학 분야의 기술을 접목한 융복합 서비스 모델을 제시한다. 이를 통해 『논어』의 메시지를 젊은 세대에게 친숙하게 전달함으로써 세대 간 문화적 공통성을 마련할 수 있다.

  • PDF

Fusion-in-Decoder for Open Domain Multi-Modal Question Answering (FiD를 이용한 멀티 모달 오픈 도메인 질의 응답)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

Hierarchical Automated Essay Evaluation Model Using Korean Sentence-Bert Embedding (한국어 Sentence-BERT 임베딩을 활용한 자동 쓰기 평가 계층적 구조 모델)

  • Minsoo Cho;Oh Woog Kwon;Young Kil Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.526-530
    • /
    • 2022
  • 자동 쓰기 평가 연구는 쓰기 답안지를 채점하는데 드는 시간과 비용을 절감할 수 있어, 교육 분야에서 큰 관심을 가지고 있다. 본 연구의 목적은 쓰기 답안지의 문서 구조를 효과적으로 학습하여 평가하고, 문장단위의 피드백을 제공하는데 있다. 그 방법으로는 문장 레벨에서 한국어 Sentence-BERT 모델을 활용하여 각 문장을 임베딩하고, LSTM 어텐션 모델을 활용하여 문서 레벨에서 임베딩 문장을 모델링한다. '한국어 쓰기 텍스트-점수 구간 데이터'를 활용하여 해당 모델의 성능 평가를 진행하였으며, 다양한 KoBERT 기반 모델과 비교 평가를 통해 제안하는 모델의 방법론이 효과적임을 입증하였다.

  • PDF

Korean Relation Extraction Using Pre-Trained Language Model and GCN (사전학습 언어모델과 GCN을 이용한 한국어 관계 추출)

  • Je-seung Lee;Jae-hoon Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.379-384
    • /
    • 2022
  • 관계 추출은 두 개체 간의 관계를 식별하는 작업이며, 비정형 텍스트를 구조화시키는 역할을 하는 작업 중 하나이다. 현재 관계 추출에서 다양한 모델에 대한 연구들이 진행되고 있지만, 한국어 관계 추출 모델에 대한 연구는 영어에 비해 부족하다. 따라서 본 논문에서는 NE(Named Entity)태그 정보가 반영된 TEM(Typed Entity Marker)과 의존 구문 그래프를 이용한 한국어 관계 추출 모델을 제안한다. 모델의 학습과 평가 말뭉치는 KLUE에서 제공하는 관계 추출 학습 말뭉치를 사용하였다. 실험 결과 제안 모델이 68.57%의 F1 점수로 실험 모델 중 가장 높은 성능을 보여 NE태그와 구문 정보가 관계 추출 성능을 향상시킬 수 있음을 보였다.

  • PDF

A Design and Development of Augmented Reality Based Video Guestbook System (증강현실 기반의 비디오 방명록 시스템 설계 및 개발)

  • Kim, Namkil;Park, Heechan;Park, Kyoung Shin
    • Annual Conference of KIPS
    • /
    • 2009.11a
    • /
    • pp.415-416
    • /
    • 2009
  • 최근 증강현실 기술이 발전하면서 다양한 환경에서의 상호작용을 위한 증강현실 기반 사용자 인터페이스가 활발히 연구되고 있다. 본 논문에서는 증강현실 기반의 사용자 인터페이스를 이용하여 전시회에서 사용자의 참여를 유도하고 다양한 상호작용을 제공하는 비디오 방명록 시스템을 제안한다. 이 시스템은 기존의 텍스트나 음성 서비스 중심적인 전시장 안내 시스템과는 달리 증강현실 기술과 사용자의 참여와 기록을 남길 수 있도록 유도하는 상호작용 방법을 제시한다. 본 논문에서는 증강현실 기반의 동영상 방명록 시스템의 설계와 구현을 설명하고 추후 연구방향을 논한다.

Scenario Generation Assistance System Using GPT-3 (GPT-3를 활용한 시나리오 생성 보조 시스템)

  • Jo, Dongha;Jeon, Isle;Moon, Mikyeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.503-504
    • /
    • 2022
  • 최근 자연어 처리 분야에서 언어 모델을 활용하여 문장 생성에 관한 연구가 이루어지고 있다. 기존 언어 모델을 활용하여 생성된 시나리오는 텍스트를 학습하여 활용하는 것 외에는 작가의 의도를 반영하는 것에 한계가 존재했고 문맥에 일관성 없는 모습을 보여주었다. 시나리오를 작성하는 것은 작가가 흐름을 주도하며 작업해야 하는 내용이다. 본 논문에서는 GPT-3 기반 언어 모델을 기반으로 다양한 시나리오 문장을 생성하여 작가가 선택하거나 원하는 문장을 직접 입력하는 등 작가의 의도에 부합하는 시나리오를 생성하는 보조 시스템을 제안한다. 본 연구를 통해 시나리오 생성을 포함한 문장 생성 분야의 보조 도구로 활용하여 작가의 의도를 반영하는 결과물을 생성하는 것을 목표로 한다.

  • PDF

Digital Forensic Analysis Case study on Smartphone (스마트폰 환경에서 디지털 포렌식 분석 사례 연구)

  • Lee, Ki-Wook;Choi, Ok-kyung;Hong, Manphyo
    • Annual Conference of KIPS
    • /
    • 2011.11a
    • /
    • pp.765-767
    • /
    • 2011
  • IT 와 비즈니스가 융합화 되고 정보가 디지털화 됨에 따라 그에 대한 저장매체도 점점 더 다양해지고 있다. 그 중 이동성이 편리하고 휴대하기 간편한 스마트폰을 활용하여 개인 정보를 주고 받고 이를 이용한 비즈니스가 현재 활발히 진행되고 있다. 이러한 소셜 네트워크 서비스 이용이 급격히 증가함에 따라 개인 정보 보안에 대한 중요성은 점점 더 강조 되고 있는 실정이다. 본 연구에서 제안하는 디지털 포렌식 분석 방법을 이용하면 스마트폰에서 지원하는 서비스 형태에 따라 텍스트, 이미지, 동영상 등의 개인 정보를 수집 및 분석이 가능하다. 또한 디지털 포렌식의 관점에 따라 스마트폰 에서 사용되고 있는 애플리케이션의 로그 정보를 수집 및 분석함으로써 스마트폰의 저장 장치에 남겨진 기록들을 훼손 없이 그대로 보존시키고 디지털 증거 자료로 활용이 가능해 사이버 범죄에 대한 신속한 해결이 가능하다.

A Study on the Improvement of Tesseract-based OCR Model Recognition Rate using Ontology (온톨로지를 이용한 tesseract 기반의 OCR 모델 인식률 향상에 관한 연구)

  • Hwang, Chi-gon;Yun, Dai Yeol;Yoon, Chang-Pyo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.438-440
    • /
    • 2021
  • With the development of machine learning, artificial intelligence techniques are being applied in various fields. Among these fields, there is an OCR technique that converts characters in images into text. The tesseract developed by HP is one of those techniques. However, the recognition rate for recognizing characters in images is still low. To this end, we try to improve the conversion rate of the text of the image through the post-processing process that recognizes the context using the ontology.

  • PDF