• 제목/요약/키워드: word association

검색결과 1,087건 처리시간 0.032초

Word2vec을 이용한 오피니언 마이닝 성과분석 연구 (Performance Analysis of Opinion Mining using Word2vec)

  • 어균선;이건창
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.7-8
    • /
    • 2018
  • 본 연구에서는 Word2vec을 머신러닝 분류기를 이용해 효율적인 오피니언 마이닝 방법을 제안한다. 본 연구의 목적을 위해 BOW(Bag-of-Words) 방법과 Word2vec방법을 이용해 속성 셋을 구성했다. 구성된 속성 셋은 Decision tree, Logistic regression, Support vector machine, Random forest를 이용해 오피니언 마이닝을 수행했다. 연구 결과, Word2vec 방법과 RF분류기가 가장 높은 정확도를 나타냈다. 그리고 Word2vec 방법이 BOW방법 보다 각 분류기에서 높은 성능을 나타냈다.

  • PDF

Ajax기반 공유 word 개발 (Public word development based on Ajax)

  • 신영식;고성택
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.7-12
    • /
    • 2006
  • 한때 word process를 하기 위해 PC를 구매하던 때가 있었다. 그리고 지금도 word process 기능은 PC를 쓰는데 없어서는 안 될 기능중 하나이다. 그리고 최근 들어 web2.0의 추세와 함께 일반 application에서 수행하였던 Application들이 Web에서 수행이 가능한 web application으로 변화하고 진화하는 추세이다. 따라서 본 논문에서는 Ajax(Asynchronous Javascript And XML)기반의 공유 word process인 'Ajax기반 공유 word'를 만들었다. 이는 웹에서 WYSIWYG(what you see is what you get)으로 문서를 편집하면서 문서들을 사용자간 공유하고 문서의 변경내용을 다른 사용자가 실시간으로 확인할 수 있는 web application이다.

  • PDF

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation using Korean Word Space Model)

  • 박용민;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

A Short Test of English Silent Word Reading for English Language Learners

  • Kalindi, Sylvia C.;McBride, Catherine;Chan, Shingfong;Chung, Kien Hoa Kevin;Lee, Chia-Ying;Maurer, Urs;Tong, Xiuhong
    • Child Studies in Asia-Pacific Contexts
    • /
    • 제5권2호
    • /
    • pp.95-105
    • /
    • 2015
  • We developed a test of English silent word reading, following work by Mather, Hammill, Allen and Roberts (2004) and Bell, McCallum, Krik, Fuller, and McCane-Bowling (2007), in order to tap Hong Kong Chinese children's reading of English as a foreign language. We created one subtest of individual word reading and another of word reading contextualized within sentences; together, these tests require no more than 10 minutes for administration. In Study 1, we administered the entire test to 552 second grade Hong Kong Chinese children between the ages of 70 and 121 months old, from five different primary schools. The association between the subtests of English silent word reading and contextual reading was positively correlated (.78). In Study 2, 77 Hong Kong Chinese second graders were tested on our newly developed English silent word reading test, together with non-verbal IQ, an English word reading and a Chinese character recognition test (both read aloud). With age and non-verbal IQ statistically controlled, there was a significant correlation between English silent word reading and the more standard English word reading, read aloud, (.78); the association between English silent word reading and Chinese character recognition was also positively correlated (.49). This newly created test is a quick and reliable measure, suitable for both educators and researchers to use to identify poor readers who learn English as a foreign or second language.

Word Embedding기반 Twitter 해시 태그 클러스터링 (Twitter Hashtags Clustering with Word Embedding)

  • 티엔윙안;양형정
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.179-180
    • /
    • 2019
  • Nowadays, clustering algorithm is considered as a promising solution for lacking human-labeled and massive data of social media sites in numerous machine learning tasks. Many researchers propose disaster event detection systems have ability to determine special local events, such as missing people, public transport damage by clustering similar tweets and hashtags together. In this paper, we try to extend tweet hashtag feature definition by applying word embedding. The experimental results are described that word embedding achieve better performance than the reference method.

  • PDF

단어재인에 미치는 연상과 심상성의 영향 (Effects of Association and Imagery on Word Recognition)

  • 김민정;이승복;정범석
    • 인지과학
    • /
    • 제20권3호
    • /
    • pp.243-274
    • /
    • 2009
  • 단어재인에 영향을 미치는 세 변인으로 연상, 단어 사용빈도, 심상성을 들 수 있다. 본 연구는 심상성이 단어재인에 미치는 영향을 살펴보고 심상성의 효과를 설명하는 두 가지 이론(이중 부호화 이론, 맥락 가용성 모델)을 검증하고자 하였다. 대학생 실험 참가자에게 연상 강도와 심상성을 통제한 단어 쌍을 제시하고 어휘판단 과제를 수행하게 하였다. 세 실험에서 과제의 점화자극 제시시간을 각각 달리하여 점화자극 제시시간에 따라 변화하는 두 변인의 효과 및 상호작용 효과를 관찰하였다. 점화자극 제시시간이 가장 짧은(20ms) 실험 1에서는 심상성의 주효과만 통계적으로 유의미 하였으며, 연상 강도가 영향을 미치지 못한 단어재인의 초기시점부터 심상성의 효과가 나타남을 확인하였다. 실험 2에서는 점화자극 제시시간을 50ms로 하였다. 결과, 연상 강도의 주효과와, 심상성의 주 효과, 두 변인의 상호작용 효과가 모두 관찰되었다. 실험 3에서는 점화자극을 비교적 길게(450ms) 제시하였다. 결과, 연상 강도의 주효과만 유의미하게 나타났다. 세 실험에서 모두 전반적으로 이중 부호화 이론의 설명과 일치하는 결과를 얻었다. 이중 부호화 이론의 경우 독립적으로 나타나는 심상성의 효과(예: 실험 1, 2)만을 설명하고 있으며, 맥락 가용성 모델은 독립적으로 나타나는 의미맥락의 효과(예: 실험 3)만을 설명하고 있다. 따라서 두 변인이 단어재인에 미치는 시간적 맥락과 그 영향의 크기를 적절히 고려한 통합된 이론이 요구된다는 점을 논의하였다.

  • PDF

헤어 샵 이용 소비자의 구전 커뮤니케이션에 관한 연구 (A Study on Word-of-Mouth Communication of Hairshop Customers)

  • 황연순
    • 대한가정학회지
    • /
    • 제41권11호
    • /
    • pp.189-200
    • /
    • 2003
  • The purpose of this study was to investigate that positive and negative word-of-mouth informations getting hairshop customers have influence on visiting intention of potential consumers. Data were collected from 354 university or college women. The results showed as follows; First, positive word-of-mouth informations that consumers have experienced in using hairshop were employee altitude/technique, consideration in customer's situation, kindness, saving of time/additional service, facilities, rational price, gift service/benefit in conditions of location. Second, negative word-of-mouth informations that consumers have experienced in using hairshop were inconsistent service, service focus on non-customers, irrational price/technique insufficiency/ inadequate compensational system, irrelevance of face-to-face management. Third, in getting positive word-of-mouth informations, consideration in customer's situation, rational price and gift service/benefit in conditions of location, consumers had visiting intention, and in getting negative informations, irrational price/technique insufficiency/inadequate compensational system, consumers had no visiting intention.

2020년 EBS 연계교재와 대학수학능력시험의 듣기 및 읽기 어휘 분석 (Vocabulary Analysis of Listening and Reading Texts in 2020 EBS-linked Textbooks and CSAT)

  • 강동호
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.679-687
    • /
    • 2020
  • 본 연구의 목적은 BNC 어휘목록과 2015 교육부 기본 어휘를 중심으로 EBS 연계교재와 대학 수능시험의 어휘를 분석하고자 한다. 어휘점유율과 빈도를 분석하기 위해서 AntWordProfiler 어휘 분석프로그램이 사용되었다. 결과를 보면, 2020 EBS 수능 영어 듣기와 읽기 연계 교재는 각각 BNC 3,000 단어와 4,000 단어를 가지고 약 95%를 이해할 수 있다는 것을 보여준다. 그러나 EBS 듣기와 읽기 교재의 98%의 단어를 이해하기 위해서는 각각 4,000과 8,000 단어가 필요하다는 것을 알 수 있다. 다른 한편으로 2020 수능영어시험 듣기와 읽기의 95%를 이해하기위해서는 각각 2,000과 4,000 단어가 요구되며, 98%의 경우에는 추가적으로 4,000과 7,000의 단어가 필요하다. 결과적으로 EBS 연계교재가 대입수능영어시험보다 더 많은 어휘의 양을 요구한다는 것을 알 수 있다.

음절구조의 어말 자음군에 관한 분석 (An Analysis of the Word-Final Cluster of the Syllable Structure)

  • 오관영
    • 영어어문교육
    • /
    • 제10권2호
    • /
    • pp.67-87
    • /
    • 2004
  • The purpose of this paper is to show how the coda of a syllable and word-final clusters are represented in the English syllable structure. Previous theories on the syllable assume that there is only one segment in the coda position. And, as we know, the theories that license only one segment in the coda make it difficult to syllabicate the word-final cluster appropriately when more than two segments in the word-final cluster are encountered. I considered three approaches: the previous syllable structure (Selkirk, 1982; Borowsky 1989), sonority sequencing (Giegerich, 1992; Roca, 1999) and feature analysis (Goldsmith, 1990), But, all the considered methods don't give us a satisfactory explanation regarding word-final clusters. Finally, I will suggest a modified syllable representation as an alternative by placing two different appendixes under the Phonological Word which forms a constituent above the syllable node. From this it is possible to explain the former problematic word-final clusters including morphological information asan inflectional suffix in the structure.

  • PDF