• 제목/요약/키워드: 언어TEXT

Search Result 757, Processing Time 0.027 seconds

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

Korean and English Text Chunking Using IG Back-off Smoothing and Probabilistic Model (IG back-off 평탄화와 확률 기반 모델을 이용한 한국어 및 영어 단위화)

  • Yi, Eun-Ji;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.118-123
    • /
    • 2002
  • 많은 자연언어처리 분야에서 문장의 단위화는 기본적인 처리 단계로서 중요한 위치를 차지하고 있다. 한국어 단위화에 대한 기존 연구들은 규칙 기반 방법이나 기계 학습 기법을 이용한 것이 대부분이었다. 본 논문에서는 통계 기반 방식의 일환으로 순수 확률기반 모델을 이용한 단위화 방법을 제시한다. 확률 기반 모델은 처리하고자 하는 해당 언어에 대한 깊은 지식 없이도 적용 가능하다는 장점을 가지므로 다양한 언어의 단위화에 대한 기본 모델로서 이용될 수 있다. 또한 자료 부족 문제를 해결하기 위해 메모리 기반 학습 시에 사용하는 IG back-off 평탄화 방식을 시스템에 적용하였다. 본 논문의 모텔을 적용한 단위화 시스템을 이용하여 한국어와 영어에 대해 실험한 결과 비교적 작은 규모의 말뭉치를 학습하였음에도 불구하고 각각 90.0%, 90.0%의 정확도를 보였다.

  • PDF

PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization (PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용)

  • Park, Eunhwan;Na, Seung-Hoon;Lim, Joon-Ho;Kim, Tae-Hyeong;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

Design of PBL(Problem - Based Learning) instructional model for HTML (Hyper Text Markup Language) learning (HTML 학습을 위한 문제중심학습 (Problem -Based Learning) 모형 개발)

  • Lee, Sun-Hyun;Kim, Kap-Su
    • 한국정보교육학회:학술대회논문집
    • /
    • 2005.08a
    • /
    • pp.401-408
    • /
    • 2005
  • 본 연구는 학습자 중심의 구성주의 학습 모형인 문제중심학습( Problem-Based Learning: PBL) 모형 개발을 통한 효과적인 HTML 학습 방안의 탐색을 위해 수행되었다. 초등학생이 HTML( Hyper Text Markup Language )학습을 통해 프로그래밍을 학습할 때 단순문법을 익히는 것을 넘어 프로그래밍 언어를 자율적이고 창의적으로 활용하기 위해서는 고차원적인 자기 주도적 학습 능력과 문제 해결 능력이 요구된다. 이를 위해 본 논문은 문제중심학습의 기존모형들이 갖고 있는 특징을 기반으로 하여 개발되었다. 본 연구의 문제중심학습의 절차는 문제와의 만남- 문제의 해결 전략 세우기- 문제 해결을 위한 정보수집- 문제의 해결 -평가 단계와 같다. 학습과정 에세이 기록을 통해 학습절차를 설계하고 과정을 돌이킬 수 있으며 피드백 과정을 통하여 학습의 결손을 방지하도록 하였다. 구성주의 학습 모형인 문제중심학습(PBL)을 HTML 언어교육에 적용 할 경우 학습자의 자기 주도적 학습 능력과 의사소통능력, 창의력 논리력을 키울 수 있을 것으로 기대된다.

  • PDF

An Alignment based technique for Text Translation between Traditional Chinese and Simplified Chinese

  • Sue J. Ker;Lin, Chun-Hsien
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2002.02a
    • /
    • pp.147-156
    • /
    • 2002
  • Aligned parallel corpora have proved very useful in many natural language processing tasks, including statistical machine translation and word sense disambiguation. In this paper, we describe an alignment technique for extracting transfer mapping from the parallel corpus. During building our system and data collection, we observe that there are three types of translation approaches can be used. We especially focuses on Traditional Chinese and Simplified Chinese text lexical translation and a method for extracting transfer mappings for machine translation.

  • PDF

Discoursive Analysis of Starcraft;Focused on Greimas's Semiotics (스타크래프트에 대한 담화분석;그레마스의 구조생성기호학을 중심으로)

  • Park, Tae-Soon
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.7
    • /
    • pp.135-145
    • /
    • 2008
  • This paper tried to analyze Starcraft's multiplay by using especially Greimas's theory of discourse. Greimas's theory of semiotics is known as a useful tool of analyzing non-verbal text as well as verbal text. The discourse of Starcraft is continuously made by subject and anti-subject. This characteristic of discourse- not given completely made- is the prominent difference from discourses made from other media. The subject and anti-subject, as actively crossing the position of enunciator and enunciatee each other, dynamically make and complete the discourse.

Text Visualization and Concordance Search Using Gutenberg Project Text Data (구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색)

  • Kim, Dongsung;Shin, Yeonsu;Lee, Jian;Yu, Jimin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다[1].

  • PDF

Automatic Text Categorization Using Text Summarization Techniques (문서 요약 기법을 이용한 자동 문서 범주화)

  • Park, Jin-Woo;Ko, Young-Joong;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF

Plagiarism Detected Source Retrieval and Text Alignment (표절 원본 문서 추출 및 표절 위치 탐색 기법)

  • Lee, Hyun-Young;Jeon, Seung-Cheol;Kang, Yu-Jin;Kim, Seung-Hwan;Lee, Are-Mi;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.187-192
    • /
    • 2014
  • 인터넷과 스마트기기 발전으로 정보에 대한 접근이 쉬워짐에 따라 다른 문서에 대한 표절 행위가 쉽게 이루어지고 있습니다. 그리고 표절 검사를 수행하는데 시간적, 인적, 공간적 낭비가 이루어진다. 이러한 낭비와 표절에 대한 경각심을 일으키고자 본 논문에서는 표절 검사 속도 향상을 위한 표절 원본 문서 추출(source retrieval)과 추출된 문서의 단어를 이용하는 표절 위치 탐색(text alignment)기법을 이용하여 표절구간을 찾는 방법을 제안한다. 본 논문의 표절 원본 문서 추출 및 표절 위치 탐색 기법을 활용하면 표절 검사의 시간과 정확도가 향상될 것으로 기대한다.

  • PDF

Mining Parallel Text from the Web based on Sentence Alignment

  • Li, Bo;Liu, Juan;Zhu, Huili
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2007.11a
    • /
    • pp.285-292
    • /
    • 2007
  • The parallel corpus is an important resource in the research field of data-driven natural language processing, but there are only a few parallel corpora publicly available nowadays, mostly due to the high labor force needed to construct this kind of resource. A novel strategy is brought out to automatically fetch parallel text from the web in this paper, which may help to solve the problem of the lack of parallel corpora with high quality. The system we develop first downloads the web pages from certain hosts. Then candidate parallel page pairs are prepared from the page set based on the outer features of the web pages. The candidate page pairs are evaluated in the last step in which the sentences in the candidate web page pairs are extracted and aligned first, and then the similarity of the two web pages is evaluate based on the similarities of the aligned sentences. The experiments towards a multilingual web site show the satisfactory performance of the system.

  • PDF