• 제목/요약/키워드: Issue Word

검색결과 172건 처리시간 0.02초

MS 워드의 RSID 분석을 통한 문서파일 이력 추적 기법 연구 (Study on History Tracking Technique of the Document File through RSID Analysis in MS Word)

  • 전지훈;한재혁;정두원;이상진
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1439-1448
    • /
    • 2018
  • MS 워드를 포함한 다양한 전자 문서파일은 계약서 위조, 영업기밀 유출 등의 각종 법적 분쟁에서 주요 쟁점이 되고 있다. MS 워드 2007 이후부터 사용되는 OOXML(Office Open XML) 포맷의 파일 내부 메타데이터에는 고유의 RSID(Revision Identifier)가 저장되어 있다. RSID는 문서의 내용을 생성/수정/삭제 후 저장할 때마다 해당 단어, 문장, 또는 문단에 부여되는 고유한 값으로, 내용 추가/수정/삭제 이력, 작성 순서, 사용된 문서 어플리케이션 등의 문서 이력을 추정할 수 있다. 본 논문에서는 사용자의 행위에 따른 RSID의 변경 사항으로 원본과 사본 구별, 문서파일 유출 행위 등을 조사하는 방법론을 제시한다.

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구 (Class Language Model based on Word Embedding and POS Tagging)

  • 정의석;박전규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.315-319
    • /
    • 2016
  • 음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드 임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다.

Global Sequence Homology Detection Using Word Conservation Probability

  • Yang, Jae-Seong;Kim, Dae-Kyum;Kim, Jin-Ho;Kim, Sang-Uk
    • Interdisciplinary Bio Central
    • /
    • 제3권4호
    • /
    • pp.14.1-14.9
    • /
    • 2011
  • Protein homology detection is an important issue in comparative genomics. Because of the exponential growth of sequence databases, fast and efficient homology detection tools are urgently needed. Currently, for homology detection, sequence comparison methods using local alignment such as BLAST are generally used as they give a reasonable measure for sequence similarity. However, these methods have drawbacks in offering overall sequence similarity, especially in dealing with eukaryotic genomes that often contain many insertions and duplications on sequences. Also these methods do not provide the explicit models for speciation, thus it is difficult to interpret their similarity measure into homology detection. Here, we present a novel method based on Word Conservation Score (WCS) to address the current limitations of homology detection. Instead of counting each amino acid, we adopted the concept of 'Word' to compare sequences. WCS measures overall sequence similarity by comparing word contents, which is much faster than BLAST comparisons. Furthermore, evolutionary distance between homologous sequences could be measured by WCS. Therefore, we expect that sequence comparison with WCS is useful for the multiple-species-comparisons of large genomes. In the performance comparisons on protein structural classifications, our method showed a considerable improvement over BLAST. Our method found bigger micro-syntenic blocks which consist of orthologs with conserved gene order. By testing on various datasets, we showed that WCS gives faster and better overall similarity measure compared to BLAST.

텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발 (Development of a Fake News Detection Model Using Text Mining and Deep Learning Algorithms)

  • 임동훈;김건우;최근호
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.127-146
    • /
    • 2021
  • 가짜 뉴스는 정보화 시대라는 현대사회의 특성에 의해 진위 여부의 검증과는 상관없이 빠른 속도로 확대, 재생산되어 퍼진다. 전체 뉴스의 1%를 가짜라고 가정했을 경우 우리사회에 미치는 경제적 비용이 30조 원에 달한다고 하니 가짜 뉴스는 사회적, 경제적으로 매우 중요한 문제라고 할 수 있다. 이에 본 연구는 뉴스의 진위 여부를 신속하고 정확하게 확인하고자 자동화된 가짜 뉴스 탐지 모델을 개발하는데 목적을 두고 있다. 이를 위해 본 연구에서는 크롤링(crawling)을 통해 진위 여부가 밝혀진 뉴스 기사를 수집하였고, 워드 임베딩(Word2Vec, Fasttext)과 딥러닝 기법(LSTM, BiLSTM)을 이용하여 가짜 뉴스 예측 모델을 개발하였다. 실험 결과, Word2Vec과 BiLSTM의 조합이 가장 높은 84%의 정확도를 보였다.

고객 가치와 성과의 관계 : 패밀리 레스토랑 웹사이트를 중심으로 (Relationships between Customer Value and Performance : Focusing on Family Restaurant Websites)

  • 임세헌
    • 한국IT서비스학회지
    • /
    • 제12권1호
    • /
    • pp.215-227
    • /
    • 2013
  • Currently, improved quality of life has facilitated consumers' indulgence in a diverse range of cultural cuisines. Consequently, the evolvement of the food service industry has been developing itself according to the diversified needs of the consumers. In particular, a great amount of interest has been expressed in a new form of food service known as family restaurants. Family restaurant service providers have begun to provide information regarding family restaurant usage, including various foods and services, through their websites in order to yield better service to consumers. For family restaurant service providers, comprehending the consumers' purpose of using the company's websites is a crucial managerial issue and it plays an important role in the development of good marketing strategies. There exists a distinction in websites usage purposes according to the different values of consumers; the hedonic value and the utilitarian value. When consumers gain satisfaction through family restaurant websites usage, this satisfaction extends to word of mouth communication effect. In order to develop good Internet marketing strategies, this study is prepared to assist family restaurant service providers understand the relationships among customer value, usage purpose, customer satisfaction, and word of mouth communication with regards to the family restaurant websites. The results of this study provide useful implications to understand consumer behavior and to develop marketing strategies in a family restaurant websites.

모바일 인터넷 서비스 품질 측정 및 마케팅 성과에 미치는 영향 연구 (Measuring the Service Quality of Mobile Internet and Studying the Effects on Marketing Performance)

  • 박윤서;이승인;김삼권;양유
    • 품질경영학회지
    • /
    • 제35권2호
    • /
    • pp.63-83
    • /
    • 2007
  • As the mobile internet service market is rapidly growing, measuring and managing the service quality become a more critical issue to the service providers. Thus the purpose of this study is to compare SERVQUAL, SERVPERF, and non-difference score measures and to determine which one is superior to measure the service quality of the mobile internet service. This study also aims to analyze the structural relationship between the service quality, customer satisfaction and behavioral intentions (repurchase intention and word-of-mouth). For the purpose, survey data were gathered from the respondents who have used the mobile internet services and an empirical test was conducted. As the first research result, it was revealed that the non-difference score measure showed a much better model than other service measuring models (SERVQUAL, SERVPERF). And the second result was that two service quality factors (tangibles and empathy) among the mobile internet service quality factors significantly influenced the customer satisfaction and also the customer satisfaction had a significant effect on the repurchase and word-of-mouth.

A Study of Efficiency Information Filtering System using One-Hot Long Short-Term Memory

  • Kim, Hee sook;Lee, Min Hi
    • International Journal of Advanced Culture Technology
    • /
    • 제5권1호
    • /
    • pp.83-89
    • /
    • 2017
  • In this paper, we propose an extended method of one-hot Long Short-Term Memory (LSTM) and evaluate the performance on spam filtering task. Most of traditional methods proposed for spam filtering task use word occurrences to represent spam or non-spam messages and all syntactic and semantic information are ignored. Major issue appears when both spam and non-spam messages share many common words and noise words. Therefore, it becomes challenging to the system to filter correct labels between spam and non-spam. Unlike previous studies on information filtering task, instead of using only word occurrence and word context as in probabilistic models, we apply a neural network-based approach to train the system filter for a better performance. In addition to one-hot representation, using term weight with attention mechanism allows classifier to focus on potential words which most likely appear in spam and non-spam collection. As a result, we obtained some improvement over the performances of the previous methods. We find out using region embedding and pooling features on the top of LSTM along with attention mechanism allows system to explore a better document representation for filtering task in general.

Lexical Bundles in Computer Science Research Articles: A Corpus-Based Study

  • Lee, Je-Young;Lee, Hye Jin
    • International Journal of Contents
    • /
    • 제14권4호
    • /
    • pp.70-75
    • /
    • 2018
  • The purpose of this corpus-based study was to find 4-word lexical bundles in computer science research articles. As the demand for research articles (RAs) for international publication increases, the need for acquiring field-specific writing conventions for this academic genre has become a burning issue. Particularly, one area of burgeoning interest in the examination of rhetorical structures and linguistic features of RAs is the use of lexical bundles, the indispensable building blocks that make up an academic discourse. To illustrate, different academic discourses rely on distinctive repertoires of lexical bundles. Because lexical bundles are often acquired as a whole, the recurring multi-word sequences can be retrieved automatically to make written discourse more fluent and natural. Therefore, the proper use of rhetorical devices specific to a particular discipline can be a vital indicator of success within the discourse communities. Hence, to identify linguistic features that make up specific registers, this corpus-based study examines the types and usage frequency of lexical bundles in the discipline of CS, one of the most in-demand fields world over. Given that lexical bundles are empirically-derived formulaic multi-word units, identifying core lexical bundles used in RAs, they may provide insights into the specificity of particular CS text types. This will in turn provide empirical evidence of register specificity and technicality within the academic discourse of computer science. As in the results, pedagogical implications and suggestions for future research are discussed.

Focus and Particle Constructions

  • Lee, Wonbin
    • 한국영어학회지:영어학
    • /
    • 제4권2호
    • /
    • pp.195-227
    • /
    • 2004
  • This paper concerns the issue related to the focus phenomena with a particular reference to the two alternating orders (continuous vs. discontinuous orders) in particle constructions in English. To explain the alternation of word order in particle constructions, I will argue that the choice of word order is closely related to the focus property of the object DPs. Following Drubig (2003), I will assume that focus-feature is taken to be a syntactic feature assigned freely to a lexical head in the process of the mapping into Lexical Array (LA) from the lexicon (LEX). I argue that the focus-marked object DP cannot move out of its focus domain and thus the continuous order is derived. In the case of non-focus-marked object DP, however, the object DP moves out of VP in order to receive an appropriate interpretation. As a result, the discontinuous order is derived.

  • PDF