• 제목/요약/키워드: Tokenization

검색결과 32건 처리시간 0.025초

Word-Level Embedding to Improve Performance of Representative Spatio-temporal Document Classification

  • Byoungwook Kim;Hong-Jun Jang
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.830-841
    • /
    • 2023
  • Tokenization is the process of segmenting the input text into smaller units of text, and it is a preprocessing task that is mainly performed to improve the efficiency of the machine learning process. Various tokenization methods have been proposed for application in the field of natural language processing, but studies have primarily focused on efficiently segmenting text. Few studies have been conducted on the Korean language to explore what tokenization methods are suitable for document classification task. In this paper, an exploratory study was performed to find the most suitable tokenization method to improve the performance of a representative spatio-temporal document classifier in Korean. For the experiment, a convolutional neural network model was used, and for the final performance comparison, tasks were selected for document classification where performance largely depends on the tokenization method. As a tokenization method for comparative experiments, commonly used Jamo, Character, and Word units were adopted. As a result of the experiment, it was confirmed that the tokenization of word units showed excellent performance in the case of representative spatio-temporal document classification task where the semantic embedding ability of the token itself is important.

한국어 인공신경망 기계번역의 서브 워드 분절 연구 및 음절 기반 종성 분리 토큰화 제안 (Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables)

  • 어수경;박찬준;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권3호
    • /
    • pp.1-7
    • /
    • 2021
  • 인공신경망 기계번역(Neural Machine Translation, NMT)은 한정된 개수의 단어만을 번역에 이용하기 때문에 사전에 등록되지 않은 단어들이 입력으로 들어올 가능성이 있다. 이러한 Out of Vocabulary(OOV) 문제를 완화하고자 고안된 방법이 서브 워드 분절(Subword Tokenization)이며, 이는 문장을 단어보다 더 작은 서브 워드 단위로 분할하여 단어를 구성하는 방법론이다. 본 논문에서는 일반적인 서브 워드 분절 알고리즘들을 다루며, 나아가 한국어의 무한한 용언 활용을 잘 다룰 수 있는 사전을 만들기 위해 한국어의 음절 중 종성을 분리하여 서브 워드 분절을 학습하는 새로운 방법론을 제안한다. 실험결과 본 논문에서 제안하는 방법론이 기존의 서브 워드 분리 방법론보다 높은 성능을 거두었다.

공간의 토큰화와 빚 없이 현금 뽑기: 블록체인 기술을 활용한 증권형 토큰 발행을 중심으로 (The Tokenization of Space and Cash Out without Debt: Focus on Security Token Offerings Using Blockchain Technology)

  • 이후빈;홍다솜
    • 한국경제지리학회지
    • /
    • 제24권1호
    • /
    • pp.76-101
    • /
    • 2021
  • 본 연구는 공간 금융화의 방식으로써 토큰화의 가능성을 탐구하기 위해 Meridio와 Quantm RE의 사례를 분석한다. 공간의 토큰화는 블록체인 기술과 증권형 토큰 공개(STO)에 기초한다. Meridio와 Quantm RE는 구분소유권 거래를 바탕으로 공간을 토큰으로 만드는 금융모형을 제시하는데, 특히 QuantmRE는 주택소유자가 부채 없이 주택지분 거래를 통해 현금을 확보할 수 있게 한다. 이와 같은 방식은 대출이 아닌 매매의 형태를 취함으로써 금융기관이 대출에 대한 규제를 우회하고, 더 이상 부채를 늘릴 수 없는 하우스푸어가 주택으로부터 현금을 얻을 수 있게 해준다. 따라서 공간의 토큰화는 2008년 금융위기 이후에도 여전히 공간의 금융화를 재생산하는 대안이 될 수 있다. 그리고 하우스푸어에 대한 추가적 투자는 불황 주택시장의 저소득층 주거지역을 다시 투자지역으로 부상시켜서 금융화의 지리적 확장을 실현할 수 있다.

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

딥러닝을 이용한 한국어 Head-Tail 토큰화 기법과 품사 태깅 (Korean Head-Tail Tokenization and Part-of-Speech Tagging by using Deep Learning)

  • 김정민;강승식;김혁만
    • 대한임베디드공학회논문지
    • /
    • 제17권4호
    • /
    • pp.199-208
    • /
    • 2022
  • Korean is an agglutinative language, and one or more morphemes are combined to form a single word. Part-of-speech tagging method separates each morpheme from a word and attaches a part-of-speech tag. In this study, we propose a new Korean part-of-speech tagging method based on the Head-Tail tokenization technique that divides a word into a lexical morpheme part and a grammatical morpheme part without decomposing compound words. In this method, the Head-Tail is divided by the syllable boundary without restoring irregular deformation or abbreviated syllables. Korean part-of-speech tagger was implemented using the Head-Tail tokenization and deep learning technique. In order to solve the problem that a large number of complex tags are generated due to the segmented tags and the tagging accuracy is low, we reduced the number of tags to a complex tag composed of large classification tags, and as a result, we improved the tagging accuracy. The performance of the Head-Tail part-of-speech tagger was experimented by using BERT, syllable bigram, and subword bigram embedding, and both syllable bigram and subword bigram embedding showed improvement in performance compared to general BERT. Part-of-speech tagging was performed by integrating the Head-Tail tokenization model and the simplified part-of-speech tagging model, achieving 98.99% word unit accuracy and 99.08% token unit accuracy. As a result of the experiment, it was found that the performance of part-of-speech tagging improved when the maximum token length was limited to twice the number of words.

단어 구분 및 인식 알고리즘을 이용한 안드로이드 플랫폼 기반의 멀티 성경 애플리케이션 (A Multi-Bible Application on an Android Platform Using a Word Tokenization and Recognition Algorithm)

  • 강성모;강명수;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권4호
    • /
    • pp.215-221
    • /
    • 2011
  • Mobile phones, which were used for simply calling and sending text messages, have recently moved to application-oriented digital devices such as smart phones and tablet phones. The rapid increase of smart and tablet phones which can offer advanced ability and run a variety of applications based on Java requires various digital multimedia content activities. These days, there are more than 2.2 billions of Christians around the world. Among them, more than 300 millions of people live in Asian, and all of them have and read the bible. If there is an application for the bible which translates from English to their own languages, it could be very helpful. With this reason, this paper proposes a multi-bible application that supports various languages. To do this, we implemented an algorithm that recognize sentences in the bible as word by word. The algorithm is essentially composed of the following three functions: tokenizing sentences in the bible into word by word (word tokenization), recognizing words by using touch event (word recognition), and translating the selected words to the desired language. Consequently, the proposed multi-bible application supports language translation efficiently by touching words of sentences in the bible.

전통시장 활성화를 위한 소액 결제 모델의 인증 및 프라이버시 지원하기 위한 개념 설계 (Concept Design to support Authentication and Privacy of Micropayment Model for Traditional Market Activation)

  • 차병래;박봉구;김대규
    • 한국항행학회논문지
    • /
    • 제16권4호
    • /
    • pp.665-672
    • /
    • 2012
  • 본 논문에서는 광주광역시의 전통시장 활성화를 위한 노력과 현황에 대해서 알아본다. 그리고 전통시장 활성화를 위한 물리적인 인프라와 환경 개선 사업보다 IT 측면에서의 소상인의 소액결제를 지원하기 위한 안드로이드 NFC 기반의 소액 결제 모델과 토큰화 기술을 제안한다. 소액결제 모델은 NFC 기반의 스마트폰을 이용하여 결제의 편리성을 제공하며, 암호화 및 토큰화 기술에 의한 사용자들의 간접 인증과 프라이버시를 제공한다.

전통시장 활성화를 위한 NFC 기반 모바일 전자소액결제 시스템의 설계 (Design of NFC-based Mobile Electronic Micro-payment System for Traditional Market Activation)

  • 차병래;김대규;김용일;김종원
    • 스마트미디어저널
    • /
    • 제2권3호
    • /
    • pp.23-33
    • /
    • 2013
  • 본 논문에서는 광주광역시의 전통시장 활성화를 위한 노력과 현황에 대해서 알아본다. 그리고 전통시장 활성화를 위한 물리적인 인프라와 환경 개선 사업보다 IT 측면에서의 소상인의 소액결제를 지원하기 위한 안드로이드 NFC 기반의 소액 결제 모델과 토큰화 기술을 제안한다. 소액결제 모델은 NFC 기반의 스마트폰을 이용하여 결제의 편리성을 제공하며, 암호화 및 토큰화 기술에 의한 사용자들의 간접 인증과 프라이버시를 제공한다.

  • PDF

복사 방법론과 입력 추가 구조를 이용한 End-to-End 한국어 문서요약 (End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding)

  • 최경호;이창기
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.503-509
    • /
    • 2017
  • 본 논문에서는 copy mechanism과 input feeding 추가한 RNN search 모델을 end-to-end 방식으로 한국어 문서요약에 적용하였다. 또한 시스템의 입출력으로 사용하는 데이터를 음절단위, 형태소단위, hybrid 단위의 토큰화 형식으로 처리하여 수행한 각각의 성능을 구하여, 모델과 토큰화 형식에 따른 문서요약 성능을 비교한다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, 형태소 단위로 토큰화 하였을 때 우수한 성능을 확인하였으며, GRU search에 input feeding과 copy mechanism을 추가한 모델이 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.