• 제목/요약/키워드: Dictionary Learning

검색결과 140건 처리시간 0.032초

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

어린이 환경백서 개발 및 적용 (A Development and Application of the Environmental Report for Children)

  • 남영숙;장호창;박태윤;문윤섭;김찬국;우정애;안미영;지승현;문경희
    • 한국환경교육학회지:환경교육
    • /
    • 제23권4호
    • /
    • pp.44-55
    • /
    • 2010
  • The purpose of this study is to develop an environmental report for children and to examine the learning effects of the environmental report on elementary school students. This study is carried out by the survey. The results of this study are as follows. First, the Environmental Report for children, which consists of 8 subjects related to the environmental policy in Korea. 1) Green Growth and Sustainable Policy, 2) Climate Change, 3) Water Supply and Sewage Policy, 4) Sustainable Watershed Management, 5) Conservation of Biodiversity, 6) Resource Recirculation, 7) Environmental Health for Children, and 8) Environmental Dictionary, was systematically developed. Second, the Environmental report developed was examined the effects to third and fourth grade elementary school students in Incheon and Daegu. By dividing elementary school students into two groups: A Control group and an Experimental group, the lessons were respectively executed. In conclusion, the Environmental Report leads to good effects when it is applied to both Environmental Education and the public relation of the Environmental Policy in Korea. Finally, it would be expected to be efficient in learning Sustainable Development and the Environmental Policy.

  • PDF

Abnormal Behavior Recognition Based on Spatio-temporal Context

  • Yang, Yuanfeng;Li, Lin;Liu, Zhaobin;Liu, Gang
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.612-628
    • /
    • 2020
  • This paper presents a new approach for detecting abnormal behaviors in complex surveillance scenes where anomalies are subtle and difficult to distinguish due to the intricate correlations among multiple objects' behaviors. Specifically, a cascaded probabilistic topic model was put forward for learning the spatial context of local behavior and the temporal context of global behavior in two different stages. In the first stage of topic modeling, unlike the existing approaches using either optical flows or complete trajectories, spatio-temporal correlations between the trajectory fragments in video clips were modeled by the latent Dirichlet allocation (LDA) topic model based on Markov random fields to obtain the spatial context of local behavior in each video clip. The local behavior topic categories were then obtained by exploiting the spectral clustering algorithm. Based on the construction of a dictionary through the process of local behavior topic clustering, the second phase of the LDA topic model learns the correlations of global behaviors and temporal context. In particular, an abnormal behavior recognition method was developed based on the learned spatio-temporal context of behaviors. The specific identification method adopts a top-down strategy and consists of two stages: anomaly recognition of video clip and anomalous behavior recognition within each video clip. Evaluation was performed using the validity of spatio-temporal context learning for local behavior topics and abnormal behavior recognition. Furthermore, the performance of the proposed approach in abnormal behavior recognition improved effectively and significantly in complex surveillance scenes.

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

신조어를 인식할 수 있는 영어단어 게임시스템 (English Word Game System Recognizing Newly Coined Words)

  • 심동욱;박소영;김기섭;강한구;장준호;이대웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.521-524
    • /
    • 2009
  • 인터넷 환경의 급속하게 발전하면서 웹을 통하여 많은 학습 매체를 경험할 수 있다. 특히 영어 교육의 중요성이 강조되면서, 많은 영어 학습 관련 소프트웨어가 출시되었다. 그러나 기존 영어단어 교육용 시스템은 대부분 1명의 사용자가 게임을 진행하는 방식이며, 또한 'WIKIPEDIA'와 같은 신조어를 전혀 고려하지 못한다. 따라서 본 논문에서는 사용자에게 흥미와 즐거움을 유도하여 학습이 가능하도록 '스크레블'이라는 보드게임을 온라인으로 구현하였다. 제안하는 영어단어 교육용 게임시스템의 특징은 다음과 같다. 첫째, 제안하는 시스템은 인공지능을 바탕으로 한 가상의 사용자와 함께 단일 사용자 모드와 다중 사용자 모드를 모두 지원한다. 둘째, 제안하는 시스템은 NEVER 오픈 API사전을 이용하여 'WIKIPEDIA'와 같은 신조어에도 인식할 수 있다. 셋째, 매뉴얼 없이도 쉽게 게임을 즐길 수 있도록 사용자에게 익숙한 UI를 제공한다. 따라서 제안하는 시스템은 사용자에게 영어단어학습에 대한 흥미와 즐거움을 고취할 수 있다고 기대한다.

  • PDF

Identification of Profane Words in Cyberbullying Incidents within Social Networks

  • Ali, Wan Noor Hamiza Wan;Mohd, Masnizah;Fauzi, Fariza
    • Journal of Information Science Theory and Practice
    • /
    • 제9권1호
    • /
    • pp.24-34
    • /
    • 2021
  • The popularity of social networking sites (SNS) has facilitated communication between users. The usage of SNS helps users in their daily life in various ways such as sharing of opinions, keeping in touch with old friends, making new friends, and getting information. However, some users misuse SNS to belittle or hurt others using profanities, which is typical in cyberbullying incidents. Thus, in this study, we aim to identify profane words from the ASKfm corpus to analyze the profane word distribution across four different roles involved in cyberbullying based on lexicon dictionary. These four roles are: harasser, victim, bystander that assists the bully, and bystander that defends the victim. Evaluation in this study focused on occurrences of the profane word for each role from the corpus. The top 10 common words used in the corpus are also identified and represented in a graph. Results from the analysis show that these four roles used profane words in their conversation with different weightage and distribution, even though the profane words used are mostly similar. The harasser is the first ranked that used profane words in the conversation compared to other roles. The results can be further explored and considered as a potential feature in a cyberbullying detection model using a machine learning approach. Results in this work will contribute to formulate the suitable representation. It is also useful in modeling a cyberbullying detection model based on the identification of profane word distribution across different cyberbullying roles in social networks for future works.

한국어 신조어 교육의 가치와 자료 구축을 위한시론 (Research on the Value of Korean Neologism Education and the Method of Building Data)

  • 김덕신
    • 문화기술의 융합
    • /
    • 제8권1호
    • /
    • pp.371-377
    • /
    • 2022
  • 이 연구는 그간 학습 결과, 교육적 결과물, 객체를 우선시하느라 한국어 어휘 교육에서 다루지 못한 '과정'으로서 주목해야 할 대상과 학습자는 없는지 검토한 후, 신조어의 교육적 가치를 점검하고 이에 대한 자료구축 방안을 제안하는 데 목적을 두었다. '과정' 중에 빠진 사각지대 어휘로는 신조어를, 사각지대 단계의 학습자로는 외국인 학문목적 학습자를 들고, 학문 목적 학습자에게 신조어를 가르치기 위한 학습 자료로 사전을 만들기 위한 전초 작업으로 신조어 '단층적 목록' 만들기를 제안하였다. '단층적 목록'은 신조어를 시기별로 조어, 의미, 문화 등으로 나누어 자료로 구축하는 것이다. 이러한 연구는 그간 한국어 어휘교육에서 구축한 결과물에 '과정'으로 학습으로 할 어휘를 추가하여 한국어 어휘교육을 체계적으로 하는 데 도움을 줄 것이다.

잠재적 차량 결함 탐지를 위한 비정형 고객불만 텍스트 데이터 분류 (Classification of Unstructured Customer Complaint Text Data for Potential Vehicle Defect Detection)

  • 조주현;옥창수;박재일
    • 산업경영시스템학회지
    • /
    • 제46권2호
    • /
    • pp.72-81
    • /
    • 2023
  • This research proposes a novel approach to tackle the challenge of categorizing unstructured customer complaints in the automotive industry. The goal is to identify potential vehicle defects based on the findings of our algorithm, which can assist automakers in mitigating significant losses and reputational damage caused by mass claims. To achieve this goal, our model uses the Word2Vec method to analyze large volumes of unstructured customer complaint data from the National Highway Traffic Safety Administration (NHTSA). By developing a score dictionary for eight pre-selected criteria, our algorithm can efficiently categorize complaints and detect potential vehicle defects. By calculating the score of each complaint, our algorithm can identify patterns and correlations that can indicate potential defects in the vehicle. One of the key benefits of this approach is its ability to handle a large volume of unstructured data, which can be challenging for traditional methods. By using machine learning techniques, we can extract meaningful insights from customer complaints, which can help automakers prioritize and address potential defects before they become widespread issues. In conclusion, this research provides a promising approach to categorize unstructured customer complaints in the automotive industry and identify potential vehicle defects. By leveraging the power of machine learning, we can help automakers improve the quality of their products and enhance customer satisfaction. Further studies can build upon this approach to explore other potential applications and expand its scope to other industries.

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

영상 관찰 모델을 이용한 예제기반 초해상도 텍스트 영상 복원 (Example-based Super Resolution Text Image Reconstruction Using Image Observation Model)

  • 박규로;김인중
    • 정보처리학회논문지B
    • /
    • 제17B권4호
    • /
    • pp.295-302
    • /
    • 2010
  • 예제기반 초해상도 영상 복원(EBSR)은 고해상도 영상과 저해상도 영상간의 패치간 대응관계를 학습함으로써 고해상도 영상을 복원하는 방법으로, 한 장의 저해상도 영상으로부터도 고해상도 영상을 복원할 수 있는 장점이 있다. 그러나, 폰트의 종류나 크기가 학습 영상과 다른 텍스트 영상을 적용할 경우 잡영을 많이 발생시킨다. 그 이유는 복원 과정 중 매칭 단계에서 입력 패치들이 사전 내의 고해상도 패치와 부적절하게 매칭될 수 있기 때문이다. 본 논문에서는 이러한 문제점을 극복하기 위한 새로운 패치 매칭 방법을 제안한다. 제안하는 방법은 영상 관찰 모델을 이용하여 입력 영상과 출력 영상간의 상관 관계를 보존함으로써 잘못 매칭된 패치로 인한 잡영을 효과적으로 억제한다. 이는 출력 영상의 화질을 개선할 뿐 아니라, 다양한 종류 및 크기의 폰트를 포함한 대용량 패치 사전을 적용할 수 있게 함으로써 폰트의 종류 및 크기의 변이에 대한 적응력을 크게 향상시킨다. 실험에서 제안하는 방법은 폰트와 크기가 다양한 영상에 대하여 기존의 방법보다 우수한 영상 복원 성능을 나타내었다. 뿐만 아니라, 인식 성능도 88.58%에서 93.54%로 개선되어 제안하는 방법이 인식 성능의 개선에도 효과적임을 확인하였다.