• Title/Summary/Keyword: 최소단어

Search Result 56, Processing Time 0.021 seconds

A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR (한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법)

  • Jang, Myung-Gil;Myaeng, Sung-Hyon;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Orthographic Influence in the Perception and Production of English Intervocalic Consonants: A Pilot Study (영어 모음사이 자음의 인지와 발화에서 철자의 영향: 파일럿 연구)

  • Cho, Mi-Hui;Chung, Ju-Yeon
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.12
    • /
    • pp.459-466
    • /
    • 2009
  • While Korean allows the same consonants at the coda of the preceding syllable and at the onset of the following syllable, English does not allow the geminate consonants in the same intervocalic position. Due to this difference between Korean and English, Korean learners of English tend to incorrectly produce geminate consonants for English geminate graphemes as in $su\underline{mm}er$. Based on this observation, a pilot study was designed to investigate how Korean learners of English perceive and produce English doubleton graphemes and singleton graphemes. Twenty Korean college students were asked to perform a forced-choice perception test as well as a production test for the 36 real word stimuli which consist of (near) minimal pairs of singleton and doubleton graphemes. The result showed that the accuracy rates for the words with singleton graphemes were higher than those for the words with doubleton graphemes both in perception and production because the subjects misperceived and misproduced the doubleton graphemes as geminates due to orthographic influence. In addition, the low error rates of the word with voiced stops were accounted for by Korean language transfer. Further, spectrographic analyses were provided where more production errors were witnessed in doubleton grapheme words than singleton grapheme words. Finally, pedagogical implications are provided.

A Visual Study of the Phonemic Awareness (음소인지에 관한 시각적 연구)

  • Park, Heesuk
    • Journal of Digital Contents Society
    • /
    • v.16 no.2
    • /
    • pp.219-225
    • /
    • 2015
  • This experimental study aims at understanding the Korean subjects' phonemic awareness in the English minimal pairs. For the purpose of the experiment, English listening comprehension tests were designed using minimal pairs and conducted among subjects, and the results of the tests were analyzed with the help of spectrogram. From the results of this study, I could find out three important things: First, subjects have difficulty in understanding and distinguishing English vowel minimal pairs. Second, among the English vowel minimal pairs, they had much difficulty in distinguishing between /ə:/ and /ɔ:/. Third, subjects could recognize the semivowel /w/ in words without any difficulty. In addition to this, I tried to analyze the results using the spectrogram, which helps to educate students effectively.

Design of Dynamic Time Warp Element for Speech Recognition (음성인식을 위한 Dynamic Time Warp 소자의 설계)

  • 최규훈;김종민
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.3
    • /
    • pp.543-552
    • /
    • 1994
  • Dynamic Time Warp(DTW) needs for iterative calculations and the design of PE cell suitable for the operations is very important. Accordingly, this paper aims at real time recognition design enables large dictionary hardware realization using DTW algorithm. The DTW PE cell separated into three large blocks. "MIN" is the one block for counting accumulated minimum distance. "ADD" block calculates these minimum distances, and "ABS" seeks for the absolute values to the total sum of local distances. Circuit design and verification about the three block have been accomplished, and performed layout '||'&'||' DRC(design rule check) using 1.2 m CMOS N-Well rule base.CMOS N-Well rule base.

  • PDF

Cluster-based keyword Ranking Technique (클러스터 기반 키워드 랭킹 기법)

  • Yoo, Han-mook;Kim, Han-joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.529-532
    • /
    • 2016
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 13% 가량 개선됨을 보인다.

e-Learning Course Reviews Analysis based on Big Data Analytics (빅데이터 분석을 이용한 이러닝 수강 후기 분석)

  • Kim, Jang-Young;Park, Eun-Hye
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.2
    • /
    • pp.423-428
    • /
    • 2017
  • These days, various and tons of education information are rapidly increasing and spreading due to Internet and smart devices usage. Recently, as e-Learning usage increasing, many instructors and students (learners) need to set a goal to maximize learners' result of education and education system efficiency based on big data analytics via online recorded education historical data. In this paper, the author applied Word2Vec algorithm (neural network algorithm) to find similarity among education words and classification by clustering algorithm in order to objectively recognize and analyze online recorded education historical data. When the author applied the Word2Vec algorithm to education words, related-meaning words can be found, classified and get a similar vector values via learning repetition. In addition, through experimental results, the author proved the part of speech (noun, verb, adjective and adverb) have same shortest distance from the centroid by using clustering algorithm.

영어 발음 교육

  • 이영길
    • Proceedings of the KSPS conference
    • /
    • 1997.07a
    • /
    • pp.258-259
    • /
    • 1997
  • 1. 외국어로서의 영어 교육에 있어서 발음 지도는 어느 정도의 영어 수준에 도달하기를 기다릴 필요없이 가능한 한 저학년에서부터 직접 지도되어야 한다. 즉 영어 교육은 영어 발음 교육부터 시작되는 것이 가장 바람직하다. 어느 정도의 수준 높은 문법 이론을 알고 있는 (대)학생들이라도 발음에 관한 한 많은 연습이 요구되는 경우가 흔히 있다. 바꿔 말하면 이러한 학생들은 그들이 갖고 있는 문법 지식만큼 발음에 대한 적극적인 구사력도 당연히 발휘할 수 있어야할 것이다. 영어 교육을 강조할 때 문장 구조와 어휘 교육이 중요시된다면 발음 또한 조기 교육 단계부터 영어 교육 프로그램의 필수불가결한 요소로 인식되어야 한다. 그렇다면 제일 처음 무엇을 어떻게 시작 해야할 것인가\ulcorner 흔히 음소(phoneme)라는 말의 최소 단위부터 시작하여 자음군(consonant cluster)과 같은 음 결합체를 가르친 다음 단어 강세(word stress)를 다루며, 마지막으로 문장 강세(sentence stress), 리듬(rhythm), 억양(intonation) 등을 포함함 이음말(connected speech)을 가르치는 순서가 될 수 있을 것이다. 그러나 이러한 방법이 이론상 논리적이긴 하지만 실제로 영어를 외국어로 배우는 우리 학생들에게는 얼마나 효과를 거둘 수 있는지 매우 의심스렵다. 오히려 가장 유익한 순서는 기본 억양 과 같은 적절한 표현과 함께 주어진 화맥 속에서의 의미 있는 문장 강세를 가르치고 그 다음에 그에 수반되는 중요한 소리의 발음을 지적해 주는 것이다. 예를 들면 Give it to him과 같은 구조를 교사가 구두로 제시할 때 단어 하나 하나를 강조한 나머지 너무 천천히 말하게 되면 전체 문장의 발음을 오히려 어렵게 만들어버린다. 중요한 것 은 기본 의사소통에 필요한 부분에 초점을 맞추는 일이다. 개별 단어에 부수되는 문제점은 '보충 지도'(remedial teaching)로 교정이 가능하다. 2. 우리의 초등학교 영어 교육의 현황을 고려할 때 비록 발음 지도가 쉬운 일은 아니지만 미래 지향적 결과를 기대할 때 우선 두 가지를 생각할 수 있다. 첫째로 현재의 교육대학교의 교사양성에 있어서 영어교육의 교과과정을 염두에 두지 않을 수 없다. 1981년도부터 교육대학교가 4년제가 명실공히 영어과로 운영되기는 수년밖에 되지 않는 실정이다. 현재의 교과과정도 현장에서 영어교육을 담당하기에는 불충분할 뿐만 아니라 영어발음에 관한 뚜렷한 과정이 없는 실정이다. 혼히 외국인 강사가 담당하는 이른바 영어회화 시간이 곧 발음 시간도 될 수 있다고 생각하기 쉬우나 이것은 전적으로 별개의 문제이다. 따라서 체계적인 발음 교육을 할 수 있는 교과과정이 되기를 바란다. 3. 앞에서 언급했듯이 4년제 이전에 졸업한 현직 교사들은 재학 중 영어 발음에 관한 지도를 받아본 적이 없다. 여기서 중요한 것은 이들 교사들에게 적절하고도 충분한 발음 교육을 시켜야 하는 연수 과정이다. 소리로 듣고 말해야 하는 초둥 영어 교육에 서 교사의 발음에 관한 지식은 그 중요성을 아무리 과대평가해도 지나치지 않을 것이다. 문제는 연수 내용이다. 적어도 현재까지 실시되어 온 초둥영어교육 담당자 연수 교과목 내용은 핵심을 찾기 힘들 정도로 교파목이 다양하고 산만하다. 따라서 예를 들면 영어발음 지도에 관한 과목도 마지못해 끼워 넣는 식의 과목 배정이다. 여기에 고작 할당된 시간은 많아야 4시간 정도이다. 대학에서 한 학기에도 부족한 영어 발음을 아 무런 배경 지식도 없는 초등 교사들에게 4시간 동안 무엇을 어떻게 가르칠 것인가\ulcorner

  • PDF

A Study on Performance Improvement of Recurrent Neural Networks Algorithm using Word Group Expansion Technique (단어그룹 확장 기법을 활용한 순환신경망 알고리즘 성능개선 연구)

  • Park, Dae Seung;Sung, Yeol Woo;Kim, Cheong Ghil
    • Journal of Industrial Convergence
    • /
    • v.20 no.4
    • /
    • pp.23-30
    • /
    • 2022
  • Recently, with the development of artificial intelligence (AI) and deep learning, the importance of conversational artificial intelligence chatbots is being highlighted. In addition, chatbot research is being conducted in various fields. To build a chatbot, it is developed using an open source platform or a commercial platform for ease of development. These chatbot platforms mainly use RNN and application algorithms. The RNN algorithm has the advantages of fast learning speed, ease of monitoring and verification, and good inference performance. In this paper, a method for improving the inference performance of RNNs and applied algorithms was studied. The proposed method used the word group expansion learning technique of key words for each sentence when RNN and applied algorithm were applied. As a result of this study, the RNN, GRU, and LSTM three algorithms with a cyclic structure achieved a minimum of 0.37% and a maximum of 1.25% inference performance improvement. The research results obtained through this study can accelerate the adoption of artificial intelligence chatbots in related industries. In addition, it can contribute to utilizing various RNN application algorithms. In future research, it will be necessary to study the effect of various activation functions on the performance improvement of artificial neural network algorithms.

최소가공 과일의 갈변저해를 위한 저해제의 탐색

  • 박연주;최소영;김영언;문광덕
    • Proceedings of the Korean Society of Postharvest Science and Technology of Agricultural Products Conference
    • /
    • 2003.04a
    • /
    • pp.119.1-119
    • /
    • 2003
  • 단체 급식의 증가와 더불어 편의식품을 선호하는 소비 경향에 맞추어 최소가공한 과일의 갈변저해를 위한 저해제를 탐색하였다. 실험에 사용한 과일은 배와 감으로 각각 박피하여 속심을 제거한 후 배는 8조각으로 절단하고 감은 1~2cm 두께로 slice 하였다. 저해제는 1% ascorbic acid, citric acid, NaCl, MgCl$_2$, CaCl$_2$, oxalic acid, EDTA, raffinose, salicylic acit, sporix를 사용하였다. 또한 열수 추출한 오약, 계피, 황기, 당기, 건칡, 진피, 천궁, 감초 등도 저해제로 사용하였다. 최소가공한 과일은 저해제에 3분간 침지한 후 물기를 제거하고 tray에 포장하여 실온에서 저장하면서 colorimeter를 이용하여 갈변도의 변화를 측정하였다. 갈변 정도를 나타내는 $\Delta$E 는 시간의 경과에 따라 점차 감소하는 경향을 보였으나 배의 경우 변화 정도가 크지 않았다. NaCl, MgCl$_2$, CaCl$_2$를 처리한 배의 갈변 정도가 가장 적었다. cysteine을 처리한 구에서는 황화합물 냄새가 났다. 또한 oxalic acid를 처리한 구에서는 연화가 빠르게 일어났으며 저장 시간이 경과함에 따라 수분이 용출되었다. 한약재는 자체 색으로 인해 배의 색변화를 증가시켰으며 이취가 발생했다. 또한 저장 시간이 경과함에 따라 건조가 빠르게 일어나 관능적으로도 좋지 않은 결과를 나타냈다. 감에서는 CaCl$_2$, MgCl$_2$를 처리한 구에서 색의 변화가 가장 적었으며 cysteine은 색변화는 적었으나 배의 경우과 같이 이취가 발생하였다. 한약제는 계피와 진피를 처리한 감에서 색의 변화를 저해하는 효과를 보였다.를 처리하였을 경우 당귀, 천문동을 처리한 구에서 효과를 보였다. oxalic acid는 갈변저해에는 효과적이었으나 시간이 경과함에 따라 수분의 용출이 증가하였으며 물성의 변화도 컸다. 또한 ZnCl$_2$를 처리한 구에서는 이취 발생과 수분 용출이 컸으며 색의 변화도 컸다.내었다. 고온 단시간 처리구의 경우 저온 장시간 처리구와는 달리 저장 1일 후부터 그 농도가 다소 상승되었다가 다시 감소는 경향을 보였다. 한편 열처리하여 냉각시킨 직후 및 저장1주 후 사과의 pH, 산도, 당도, 경도, 과육의 갈변도 등을 조사하였던 바 대조구 및 처리구간에 일부 항목에 있어서는 약간의 차이를 나타내었다. 대치할 수 있을 것이라고 사료된다. 수분함량은 기계적 검사보다 관능검사와 더욱 높은 상관관계를 나타냈다.내었다. 항균활성이 우수한 생약재를 농도별로 활성을 조사한 결과, 물 추출물과 10% Ethanol 추출물 모두 낮은 농도에서도 우수한 항균활성을 나타내었다.취와 함께 점질성 갈변물질이 생성되었다. 이와 같은 결과로 볼 때, BAAG의 처리는 BAAC의 경우보다 가격은 저렴하면서도 항균력은 우수한 천연 항균복합제재로써 농산물 식품원료에 적용하여 선도유지 기간을 연장할 수 있는 효과를 기대할 수 있었다. 과일 등의 포장제로서 이용할 가능성을 확인하였다.로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성요 소를 지닌 병렬적 합성어([$[W1]_{XO-}$ $[W1]_{XO}$ ]

  • PDF