• 제목/요약/키워드: Cluster Topic Words

검색결과 20건 처리시간 0.023초

Effects of Korean Syllable Structure on English Pronunciation

  • Lee, Mi-Hyun;Ryu, Hee-Kwan
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2000년도 7월 학술대회지
    • /
    • pp.364-364
    • /
    • 2000
  • It has been widely discussed in phonology that syllable structure of mother tongue influences one's acquisition of foreign language. However, the topic was hardly examined experimentally. So, we investigated effects of Korean syllable structure when Korean speakers pronounce English words, especially focusing on consonant strings that are not allowed in Korean. In the experiment, all the subjects are divided into 3 groups, that is, native, experienced, and inexperienced speakers. Native group consists of 1 male English native speaker. Experienced and inexperienced are each composed of 3 male Korean speakers. These 2 groups are divided by the length of residence in the country using English as a native language. 41 mono-syllable words are prepared considering the position (onset vs. coda), characteristic (stops, affricates, fricatives), and number of consonant. Then, the length of the consonant cluster is measured. To eliminate tempo effect, the measured length is normalized using the length of the word 'say' in the carrier sentence. Measurement of consonant cluster is the relative time period between the initiation of energy (onset I coda) which is acoustically representative of noise (consonant portion) and voicing. bar (vowel portion) in a syllable. Statistical method is used to estimate the differences among 3 groups. For each word, analysis of variance (ANDY A) and Post Hoc tests are carried out.

  • PDF

제품, 서비스, 융합제품서비스의 소비자 니즈 비교 분석 :아마존 온라인 리뷰를 중심으로 (Comparative Analysis of Consumer Needs for Products, Service, and Integrated Product Service : Focusing on Amazon Online Reviews)

  • 김성범
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.316-330
    • /
    • 2020
  • 이 연구는 텍스트 마이닝을 사용하여 하드웨어 제품에 대한 리뷰, 서비스 상품에 대한 리뷰, ICT분야의 하드웨어와 클라우드 서비스가 융합된 형태의 상품을 대상으로 소비자 리뷰를 분석한다. 분석을 위해 각 리뷰의 키워드를 도출하고 토픽 도출에 사용된 단어의 차별성을 찾는다. 마지막으로 전체 리뷰를 대상으로 군집분석을 실시하고 각각의 상품군의 리뷰가 어떤 군집에 속하는지를 검토한다. 이 연구를 통해서 각 상품의 유형별로 특화되어 사용된 핵심어를 도출하였고, 토픽모델링을 사용하여 제품과 서비스의 특성을 표현하는 주제를 도출하였다. 서비스 상품 리뷰에서는 공급자의 우수성을 의미하는 professional, technician과 같은 핵심어를 도출하였고, 융합제품서비스상품으로서 아마존 에코 리뷰에서는 favorite, fine, fun, nice, smart, unlimited, useful 등의 긍정적 의미의 형용사를 도출하였다. 군집분석을 사용하여 전체 리뷰를 분석하였고, 3개의 상품 유형별 리뷰가 배타적으로 서로 다른 각각의 군집에 속하는 결과를 발견하였다. 이 연구는 소비자의 니즈(needs)를 상품의 유형별로 온라인 리뷰를 이용하여 차이점을 분석하였고 실무적으로 상품 유형에 기반한 상품기획과 마케팅 프로모션 차별화의 필요성을 제시하였다.

Application of Urban Computing to Explore Living Environment Characteristics in Seoul : Integration of S-Dot Sensor and Urban Data

  • Daehwan Kim;Woomin Nam;Keon Chul Park
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.65-76
    • /
    • 2023
  • This paper identifies the aspects of living environment elements (PM2.5, PM10, Noise) throughout Seoul and the urban characteristics that affect them by utilizing the big data of the S-Dot sensors in Seoul, which has recently become a hot topic. In other words, it proposes a big data based urban computing research methodology and research direction to confirm the relationship between urban characteristics and living environments that directly affect citizens. The temporal range is from 2020 to 2021, which is the available range of time series data for S-Dot sensors, and the spatial range is throughout Seoul by 500mX500m GRID. First of all, as part of analyzing specific living environment patterns, simple trends through EDA are identified, and cluster analysis is conducted based on the trends. After that, in order to derive specific urban planning factors of each cluster, basic statistical analysis such as ANOVA, OLS and MNL analysis were conducted to confirm more specific characteristics. As a result of this study, cluster patterns of environment elements(PM2.5, PM10, Noise) and urban factors that affect them are identified, and there are areas with relatively high or low long-term living environment values compared to other regions. The results of this study are believed to be a reference for urban planning management measures for vulnerable areas of living environment, and it is expected to be an exploratory study that can provide directions to urban computing field, especially related to environmental data in the future.

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

언어 네트워크 분석을 이용한 과학의 본성에 관한 국내연구 동향 (Research Trends of Studies Related to the Nature of Science in Korea Using Semantic Network Analysis)

  • 이상균
    • 대한지구과학교육학회지
    • /
    • 제9권1호
    • /
    • pp.65-87
    • /
    • 2016
  • The purpose of this study is to examine Korean journals related to science education in order to analyze research trends into Nature of science in Korea. The subject of the study is the level of Korean Citation Index (KCI-listed, KCI listing candidates), that can be searched by the key phrase, "Nature of science" in Korean language through the RISS service. In this study, the Descriptive Statistical Analysis Method is utilized to discover the number of research articles, classifying them by year and by journal. Also, the Sementic Network Analysis was conducted to Word Cloud Analysis the frequency of key words, Centrality Analysis, co-occurrence and Cluster Dendrogram Analysis throughout a variety of research articles. The results show that 91 research papers were published in 25 journals from 1991 to 2015. Specifically, the 2 major journals published more than 50% of the total papers. In relation to research fields., In addition, key phrases, such as 'Analysis', 'recognition', 'lessons', 'science textbook', 'History of Science' and 'influence' are the most frequently used among the research studies. Finally, there are small language networks that appear concurrently as below: [Nature of science - high school student - recognize], [Explicit - lesson - effect], [elementary school - science textbook - analysis]. Research topic have been gradually diversified. However, many studies still put their focus on analysis and research aspects, and there have been little research on the Teaching and learning methods.

영상감시시스템에서 움직임의 비교사학습을 통한 비정상행동탐지 (Unsupervised Motion Learning for Abnormal Behavior Detection in Visual Surveillance)

  • 정하욱;장형진;최진영
    • 전자공학회논문지SC
    • /
    • 제48권5호
    • /
    • pp.45-51
    • /
    • 2011
  • 본 논문에서는 비교사학습법을 통해 영상의 방대한 정보를 효율적으로 모델링 하는 방법을 제안하고자 한다. 여기서 이동궤적들은 자연어 처리에 사용되는 알고리즘인 잠재 디리클레 할당 모형(Latent Dirichlet Allocation)에 의해 직진, 좌회전, 우회전등 각 상황 별로 주제에 따라 그 영역을 효과적으로 분류할 수 있다. LDA를 이용해 주제별로 의미 있는 영역을 분류한 후, 각 주제별로 분류된 궤적을 관측열로 보고 은닉 마르코프 모델(Hidden Markov Model)의 바움-웰치 알고리즘을 사용하여 학습한다. 전향 알고리즘을 사용하여 입력된 행동과 학습된 행동을 비교함으로써 영상내의 행동이 정상인지 비정상인지를 효과적으로 판단할 수 있다. 실험결과 다양한 영상에 대해 의미있는 주제별로 영역이 잘 분류되며 추적에러로 인한 궤적의 노이즈에도 강인하게 물체의 무단횡단, 신호위반과 같은 상황을 효과적으로 탐지하는 것을 확인할 수 있다.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로 (A Study on the Deduction of Social Issues Applying Word Embedding: With an Empasis on News Articles related to the Disables)

  • 최가람;최성필
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.231-250
    • /
    • 2018
  • 본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

개혁신학과 복음주의에 관한 계량서지학적 비교 연구 (A Comparative Study using Bibliometric Analysis Method on the Reformed Theology and Evangelicalism)

  • 유영준;이재윤
    • 한국비블리아학회지
    • /
    • 제29권3호
    • /
    • pp.41-63
    • /
    • 2018
  • 이 연구에서는 개혁신학과 복음주의, 중립적인 신학적 입장을 가지는 학술지와 색인어, 저자를 대상으로 계량서지학적 분석 방법을 적용하였다. 구체적인 분석방법은 평균 연결 군집화, 이웃중심성 척도, 프로파일 코사인 유사도를 활용하여 세 가지 결과를 제시하였다. 특히 저자 간 관계를 분석할 때에는 저자 사이에 핵심 공유 색인어를 파악해서 연구 주제를 해석하는 새로운 시도를 해보았다. 학술지 분석에서는 9개 학술지가 크게 개혁신학과 복음주의의 두 개 군집으로 나뉘어졌지만, 개혁신학을 지향하는 장로교단 학술지인 장신논단만 복음주의 군집에 속하였다. 두 군집의 색인어 분석에서도 개혁신학과 복음주의가 두 군집을 대표하는 주요어로 나타났다. 저자 분석에서는 9개의 군집이 산출되었다. 이중에서 4개의 군집에는 주로 개혁신학을 연구하는 장로교단 신학자들이 포함되었으며, 5개 군집에는 장로교단에 소속되지 않은 신학자들이 주로 포함되었다. 따라서 학술지와 색인어, 저자에 대한 계량서지학적 분석 모두에서 일관되게 개혁신학 군집과 복음주의 군집을 도출하였다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).