• 제목/요약/키워드: short texts

검색결과 57건 처리시간 0.026초

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

조선전기 출토 여성복식의 유형과 특징에 관한 연구 (A Study on the Types and Characteristics of Women's Costume Excavated in the Early Joseon Dynasty)

  • 정주란;김용문
    • 복식
    • /
    • 제67권1호
    • /
    • pp.147-168
    • /
    • 2017
  • This study examines the types and characteristics of women's garments excavated in the early Joseon Dynasty before 1592. The study sorts out headgear, jacket, skirt and trousers, and coats from the historical texts in the early Joseon Dynasty and excavated women's wears in the fifteenth and sixteenth centuries, and analyzes their textiles and patterns. The Joseon women's garments convey several features. They are wide across the chest and square shaped collar with virtually straight sleeves. While their breast-ties are extremely little for the size of clothes, they do not have any inner-tie. They have broad and short dongjeongs which seem to be hard to be adjusted. There are a variety of headgear. Jang-Jeogori slit down in both sides. The Jeogori after the seventeenth century transformed a more practical form of a fitting dress to an individual body in comparison with the sixteenth jeogori. It is identified that the fabrics in the early Joseon period were woven more diversely and colorfully than the late Joseon period. Most of the excavated fabrics in the sixteenth century were in silk. Materials for adornments before 1592 were not much diverse and their designs mostly contained patterns of lotus flowers, patterns of cloud and treasures with oblique lines. The colors are mainly brown, navy and green. The Joseon women's clothes were comprised of skirts with folded hem, coat with round collars, wide leg pants, Jangot, long-sleeved coat with folding collars, and quadrangular pieces of cloth in various sizes, or mu and so forth. Joseon women's clothes, like men's wears, partake of active functions in their headgears, wide leg pants, styles in short front and long back, and coat with round collars.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

Arousal and Valence Classification Model Based on Long Short-Term Memory and DEAP Data for Mental Healthcare Management

  • Choi, Eun Jeong;Kim, Dong Keun
    • Healthcare Informatics Research
    • /
    • 제24권4호
    • /
    • pp.309-316
    • /
    • 2018
  • Objectives: Both the valence and arousal components of affect are important considerations when managing mental healthcare because they are associated with affective and physiological responses. Research on arousal and valence analysis, which uses images, texts, and physiological signals that employ deep learning, is actively underway; research investigating how to improve the recognition rate is needed. The goal of this research was to design a deep learning framework and model to classify arousal and valence, indicating positive and negative degrees of emotion as high or low. Methods: The proposed arousal and valence classification model to analyze the affective state was tested using data from 40 channels provided by a dataset for emotion analysis using electrocardiography (EEG), physiological, and video signals (the DEAP dataset). Experiments were based on 10 selected featured central and peripheral nervous system data points, using long short-term memory (LSTM) as a deep learning method. Results: The arousal and valence were classified and visualized on a two-dimensional coordinate plane. Profiles were designed depending on the number of hidden layers, nodes, and hyperparameters according to the error rate. The experimental results show an arousal and valence classification model accuracy of 74.65 and 78%, respectively. The proposed model performed better than previous other models. Conclusions: The proposed model appears to be effective in analyzing arousal and valence; specifically, it is expected that affective analysis using physiological signals based on LSTM will be possible without manual feature extraction. In a future study, the classification model will be adopted in mental healthcare management systems.

한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계 (Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts)

  • 임채균;정영섭;이영준;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Management of Greying of Hairs (Sheeb) and Use of Hair Dyes (Khizaab) in Unani Medicine

  • Rani, Seema
    • 셀메드
    • /
    • 제8권2호
    • /
    • pp.7.1-7.12
    • /
    • 2018
  • Greying of hairs or Canities (Sheeb) is a hair disorder characterized by premature graying of scalp hair, beard, moustache etc. In Unani system of medicine (USM), the causes of premature greying of hairs, concept behind graying of hairs, principles of treatment, preparations that prevent premature greying of hairs, regimen, systemic and local treatment to stimulate pigmentation and the most interesting point is the use of different type of hair dyes (khizabat) is all illustrated. Classical texts described black, red, blond and white hair dye preparations with formulae and method of use. Initially for the hair graying management, utilizing simple and complex substances from plants, minerals, metals and mixture of these was the main method, which satisfied the desire to change the colour of the hair. With the advancement in chemical science, dyes formulaes, method of formation and application are changed. But due to the awareness about demerits of chemical dyes, people are looking back towards the natural ways to combat hair greying and herbal hair dye is an alternative. This paper is an overview of Unani drugs of local and internal use for hair greying with special attention towards herbal dyes. Most commonly used herbs in khizaab with their actions and constituents has been summarized. This is an effort to globalize the benefits of Unani herbs in hair greying problem. In short, International demand for hair dyes has been steadily growing and there is a wide scope for exploring different aspects of hair greying treatment and dyes in USM.

한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계 (Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts)

  • 임채균;정영섭;이영준;오교중;최호진
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Inculcating a Sense of Community Among Members of Social Networking Communities

  • Gupta, Sumeet;Kim, Hee-Woong;Lee, So-Hyun
    • 지식경영연구
    • /
    • 제16권4호
    • /
    • pp.89-108
    • /
    • 2015
  • Social networking communities (SNCs) are media designed to facilitate social interaction using highly accessible and scalable publishing techniques. SNCs can constitute individuals' their own profiles in the online environment and share texts, images and photos in a variety ways. In other words, one of the other motivators is knowledge sharing. Various sites, such as Facebook, Orkut, MySpace, and Hi5 are categorized as SNCs. SNCs have become increasingly popular in recent years among youths, especially students, who use them to build social networks. This study examines whether this usage of SNCs inculcates a sense of community among their members. Several studies have examined the role of a sense of community through increased usage in the context of virtual communities. Although this result may be true of virtual communities, this paper contends that the opposite relationship prevails in the case of SNCs because members interact to build networks and are not obliged to interact. The results reveal that maintaining long-term interactions in the SNCs is helpful in building a sense of community in SNCs. Although short-term usage may not boost the development of a sense of community in SNCs, it does matter if the premise is for a long-term commitment to SNCs. Implications for theory and practice are discussed.

『신찬피온방(新纂辟瘟方)』의 온역(瘟疫) 인식 및 피역서(辟疫書)로서의 의의에 대한 고찰 - 『동의보감(東醫寶鑑)·온역문(瘟疫門)』과의 비교를 중심으로 - (A Study on the perception of epidemic febrile disease[瘟疫] in the Sinchanbyeokonbang(新纂辟瘟方) and its significance as prevention contents - Based on comparison with Dong-uibogam(東醫寶鑑) -)

  • 김상현;백유상;정창현;장우창
    • 대한한의학원전학회지
    • /
    • 제26권4호
    • /
    • pp.355-366
    • /
    • 2013
  • Based on analysis of the organization and listed formulas of the Sinchanbyeokonbang(新纂辟瘟方), it is clear that it has been published based on the Dong-uibogam(東醫寶鑑). This study was carried out under this premise, with focus on the differences between Sinchanbyeokonbang and the epidemic febrile disease[瘟疫] chapter of the Dong-uibogam. In short, Sinchanbyeokonbang reflected a changed view on the epidemic febrile disease, improving its professionalism by supplementing formulas from previous texts and folk prescriptions. At the same time, it improved clinical practicality rather than medical, academic facts, which shows its objective in improving public health and medicine.

Conceptual Graph Matching Method for Reading Comprehension Tests

  • Zhang, Zhi-Chang;Zhang, Yu;Liu, Ting;Li, Sheng
    • Journal of information and communication convergence engineering
    • /
    • 제7권4호
    • /
    • pp.419-430
    • /
    • 2009
  • Reading comprehension (RC) systems are to understand a given text and return answers in response to questions about the text. Many previous studies extract sentences that are the most similar to questions as answers. However, texts for RC tests are generally short and facts about an event or entity are often expressed in multiple sentences. The answers for some questions might be indirectly presented in the sentences having few overlapping words with the questions. This paper proposes a conceptual graph matching method towards RC tests to extract answer strings. The method first represents the text and questions as conceptual graphs, and then extracts subgraphs for every candidate answer concept from the text graph. All candidate answer concepts will be scored and ranked according to the matching similarity between their sub-graphs and question graph. The top one will be returned as answer seed to form a concise answer string. Since the sub-graphs for candidate answer concepts are not restricted to only covering a single sentence, our approach improved the performance of answer extraction on the Remedia test data.