• Title/Summary/Keyword: 단어 유사도 분석

Search Result 231, Processing Time 0.022 seconds

Concept-based Question Analysis for Accurate Answer Extraction (정확한 해답 추출을 위한 개념 기반의 질의 분석)

  • Shin, Seung-Eun;Kang, Yu-Hwan;Ahn, Young-Min;Park, Hee-Guen;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.1
    • /
    • pp.10-20
    • /
    • 2007
  • This paper describes a concept-based question analysis to analyze concept which is more important than keyword for the accurate answer extraction. Our idea is that we can extract correct answers from various paragraphs with different structures when we use well-defined concepts because concepts occurred in questions of same answer type are similar. That is, we will analyze the syntactic and semantic role of each word or phrase in a question in order to extract more relevant documents and more accurate answer in them. For each answer type, we define a concept frame which is composed of concepts commonly occurred in that type of questions and analyze user's question by filling a concept frame with a word or phrase. Empirical results show that our concept-based question analysis can extract more accurate answer than any other conventional approach. Also, concept-based approach has additional merits that it is language universal model, and can be combined with arbitrary conventional approaches.

Analysis of trends in mathematics education research using text mining (토픽 모델링 분석을 통한 수학교육 연구 주제 분석)

  • Jin, Mireu;Ko, Ho Kyoung
    • Communications of Mathematical Education
    • /
    • v.33 no.3
    • /
    • pp.275-294
    • /
    • 2019
  • In order to understand the recent trends in mathematics education research papers, data mining method was applied to analyze journals of the mathematics education posterior to the year of 2016. Text mining method is useful in the sense that it utilizes statistical approach to understand the linkages and influencing relationship between concepts and deriving the meaning that data shows by visualizing the process. Therefore, this research analyzed the key words largely mentioned in the recent mathematics education journals. Also the correlation between the subjects of mathematics education was deduced by using topic modeling. By using the trend analysis tool it is possible to understand the vital point which researchers consider it as important in recent mathematics education area and at the same time we tried to use it as a fundamental data to decide the upcoming research topic that is worth noticing.

The Reduction or computation in MLLR Framework using PCA or ICA for Speaker Adaptation (화자적응에서 PCA 또는 ICA를 이용한 MLLR알고리즘 연산량 감소)

  • 김지운;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.6
    • /
    • pp.452-456
    • /
    • 2003
  • We discuss how to reduce the number of inverse matrix and its dimensions requested in MLLR framework for speaker adaptation. To find a smaller set of variables with less redundancy, we adapt PCA (principal component analysis) and ICA (independent component analysis) that would give as good a representation as possible. The amount of additional computation when PCA or ICA is applied is as small as it can be disregarded. 10 components for ICA and 12 components for PCA represent similar performance with 36 components for ordinary MLLR framework. If dimension of SI model parameter is n, the amount of computation of inverse matrix in MLLR is proportioned to O(n⁴). So, compared with ordinary MLLR, the amount of total computation requested in speaker adaptation is reduced by about 1/81 in MLLR with PCA and 1/167 in MLLR with ICA.

Methodology for semi-autonomous rule extraction based on Restricted Language Set and ontology (제한된 언어집합과 온톨로지를 활용한 반자동적인 규칙생성 방법 연구)

  • Son, Mi-Ae;Choe, Yun-Gyu
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.05a
    • /
    • pp.297-306
    • /
    • 2007
  • 지능정보시스템 구축에 있어서 자동화가 어려운 단계중의 하나인 규칙 습득을 위해 활용되는 방법중의 하나가 제한된 언어집합 기법을 이용하는 것이다. 그러나 제한된 언어집합 기법을 이용해 규칙을 생성하기 위해서는 규칙을 구성하는 변수와 그 값들에 대한 정보가 사전에 정의되어 있어야 하는데, 유동성이 큰 웹 환경에서 예상 가능한 모든 변수와 그 값을 사전에 정의하는 것이 매우 어렵다. 이에 본 연구에서는 이러한 한계를 극복하기 위해 제한된 언어집합 기법과 온톨로지를 이용한 규칙 생성 방법론을 제시하였다. 이를 위해 지식의 습득 대상이 되는 특정 문장은 문법구조 분석기를 이용해 파싱을 수행하며, 파싱된 단어들을 이용해 규칙의 구성 요소인 변수와 그 값을 식별한다. 그러나 규칙을 내포한 자연어 문장의 불완전성으로 인해 변수가 명확하지 않거나 완전히 빠져 있는 경우가 흔히 발생하며, 이로 인해 온전한 형식의 규칙 생성이 어렵게 된다. 이 문제는 도메인 온톨로지의 생성을 통해 해결하였다. 이 온톨로지는 특정 도메인을 구성하고 있는 개념들간의 관계를 포함하고 있다는 점에서는 기존의 온톨로지와 유사하지만, 규칙을 완성하는 과정에서 사용된 개념들의 사용빈도를 기반으로 온톨로지의 구조를 변경하고, 결과적으로 더 정확한 규칙의 생성을 지원한다는 점에서 기존의 온톨로지와 차별화된다. 이상의 과정을 통해 식별된 규칙의 구성요소들은 제한된 언어집합 기법을 이용해 구체화된다. 본 연구에서 제안하는 방법론을 설명하기 위해 임의의 인터넷 쇼핑몰에서 수행되는 배송관련 웹 페이지를 선정하였다. 본 방법론은 XRML에서의 지식 습득 과정의 효율성 제고에 기여할 수 있을 것으로 기대된다.

  • PDF

감성개념 차원구조의 특징에 관한 연구 -아동청소년 및 임상집단을 중심으로-

  • 문혜신;김진관;오경자
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 1998.11a
    • /
    • pp.59-64
    • /
    • 1998
  • 정상 성인의 경우, 감성 개념의 내적 차원 구조는 쾌/불쾌 차원과 각성 차원이라는 2차원 구조에 원형의 체계적인 분포를 보이는 것으로 알려져 왔다. 본 연구에서는 이와 같은 2차원 구조가 얼마나 보편적이고 일관된 양상으로 나타나고 있는지를 살펴보고자 하였다 이를 위해 연구1에서는 아동 및 청소년에게 15개의 정서 관련 어휘로 이루어진 10i개의 단어 쌍에 대한 7점 척도의 유사성 평정을 시행하였으며, 연구 2에서는 정신분열증 환자에게 통일한 절차를 시행하였다 다차원 분석 결과, 1차원(초등5년:74%, 중등2 년:72%, 정신분열증 환자: 60%)과 2차원(초등5년: 18%, 중등2년16%, 정신분열증 환자: 11%)이 도출되었다 정상 성인의 경우와 마찬가지로 1차원은 쾌/불쾌 차원, 2차원은 각성 차원으로 해석될 수 있었다. 따라서, 감성 개념의 구조에 있어서 쾌/불쾌 및 각성은 인지적 성숙의 단계나 인지, 정서적 손상에 관계 없이 매우 일관되게 나타나는 비교적 안정적인 차원 구조인 것으로 생각된다. 다만, 발달 단계나 병리적 속성에 따라 각 차원의 비중치는 다소 차이를 보이는데, 아동 및 청소년의 경우, 주로 쾌/불쾌 차원을 통해 감성을 개념화 하는 특징을 보이며, 정신분열증 환자 집단의 경우, 1,2차원 모두 상대적으로 설명량이 낮은 것으로 나타나는데, 의 경우, 비중치가 더욱 낮은 것으로 나타났다. 이러한 결과를 통해 내적 차원 구조의 타당성 및 제한점에 관해 논의하였다.

  • PDF

A Study on Analysis of Source Code for Program Protection in ICT Environment (ICT 환경에서 프로그램보호를 위한 소스코드 분석 사례 연구)

  • Lee, Seong-Hoon;Lee, Dong-Woo
    • Journal of Convergence for Information Technology
    • /
    • v.7 no.4
    • /
    • pp.69-74
    • /
    • 2017
  • ICT(Information Communication Technology) is a key word in our society on today. Various support programs by the government have given many quantitative and qualitative changes to the software industries. Software is instructions(Computer Program) and data structure. Software can be divided into Application program and System program. Application programs have been developed to perform special functions or provide entertainment functions. Because of this rapid growth of software industries, one of the problems is issue on copyright of program. In this paper, we described an analysis method for program similarity based on source code in program.

A Study on Structuring Method of Study Data Supporting Efficient Keyword Search (효율적인 키워드 검색을 지원하는 학습자료의 구조화 방법 연구)

  • Kim, Eun-Kyung;Choi, Jin-Oh
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.1063-1066
    • /
    • 2005
  • Most reading systems that supply various study data generally support keyword search. But the usual keyword matching techniques have a problem to require the exact keyword matching, and could not find similar field materials. Futhermore, testing materials have too little information to apply the keyword matching search. To solve these problems, this thesis proposes the method to extract the important keyword from study data and to construct the database automatically when the data are stored at the storage. And using prepared similar terminology database, we suggest the intelligent and efficient technique to find study materials.

  • PDF

Korean Idiom Classification Using Word Embedding (워드 임베딩을 활용한 관용표현 인식 연구)

  • Park, Seo-Yoon;Kang, Ye-Jee;Kang, Hye-Rin;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

Structural Analysis of the Graduate Medical School Student's Perception about 'Good Doctor' (의학전문대학원생의 '좋은 의사'에 대한 인식 구조 분석)

  • Yoo, Hyo-Hyun;Lee, Jun-Ki;Shin, Sein
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.9
    • /
    • pp.631-638
    • /
    • 2015
  • The purpose of this study is to provide developmental direction of medical education by analysing graduate medical school student's perception structure about 'good doctor' and the difference between graduate medical school student's perception structure about 'good doctor' before and after clerkship. Subject of study is medical students in 1st~4th year. NetMiner 4.0 program, which is social network analysis, was used to analyse. Many of the words that students used to describe good doctor were similar. But especially lots of times they used 'patient', 'treatment', 'competence', 'heart' and a word 'patient' showed highest degree centrality. Higher density of network and mean degree centrality were shown in students who experienced clerkship. 'Diagnosis and treatment', 'medical communication', 'attitudes to patients', 'medical knowledge', 'basic competence' these 5 groups were shown in network of students before and after clerkship in common. In the case of students after clerkship, 'lifelong learning ' groups have been added, so were the 6 groups. Considering the fact that social responsibility, professionalism, medical humanities are emphasized in recent medical education, students have lack of perception structure about good doctor, therefore education of this area needs to be strengthened.

Analysis method of patent document to Forecast Patent Registration (특허 등록 예측을 위한 특허 문서 분석 방법)

  • Koo, Jung-Min;Park, Sang-Sung;Shin, Young-Geun;Jung, Won-Kyo;Jang, Dong-Sik
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.4
    • /
    • pp.1458-1467
    • /
    • 2010
  • Recently, imitation and infringement rights of an intellectual property are being recognized as impediments to nation's industrial growth. To prevent the huge loss which comes from theses impediments, many researchers are studying protection and efficient management of an intellectual property in various ways. Especially, the prediction of patent registration is very important part to protect and assert intellectual property rights. In this study, we propose the patent document analysis method by using text mining to predict whether the patent is registered or rejected. In the first instance, the proposed method builds the database by using the word frequencies of the rejected patent documents. And comparing the builded database with another patent documents draws the similarity value between each patent document and the database. In this study, we used k-means which is partitioning clustering algorithm to select criteria value of patent rejection. In result, we found conclusion that some patent which similar to rejected patent have strong possibility of rejection. We used U.S.A patent documents about bluetooth technology, solar battery technology and display technology for experiment data.