• Title/Summary/Keyword: 작성자분석

Search Result 77, Processing Time 0.024 seconds

Learning Web-Document Characteristics Using Evolutionary Computation (진화연산을 이용한 웹 문서의 특성 학습)

  • Kim, Sun;Jang, Byung-Tak
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.43-46
    • /
    • 2000
  • 대용량의 문서를 대상으로 한 정보 검색은 인터넷과 WWW이 대중화되면서 웹 분서로 확장되었다. 기존의 문서는 주로 텍스트만으로 구성되는데 반해 웹 문서는 HTML을 기반으로 문서가 작성된다. HTML은 문서의 형태를 이루게 하는 여러 종류의 태그들로 구성되어 있고 문서 작성자는 이를 이용, 자기 의도를 홈페이지에 반영한다. 따라서 태그 정보의 학습은 검색 효율을 향상시키는데 도움을 줄 수 있다. 본 논문에서는 이러한 HTML의 태그 특성을 이용해 검색 효율을 향상하는 방법을 제시한다. 제시된 방법은 진화 알고리즘을 사용하여 질의와 검색결과를 담고 있는 데이터를 학습한다. 학습을 통해 얻어지는 결고는 각 태그에 대한 가중치 정보들이며, 이는 검색엔진의 문서 가중치 정보로 사용된다. TREC 데이터를 사용하여 실험 하였으며 태그 정보를 이용함에 따른 검색 성능 변화를 비교 분석하였다.

  • PDF

BIBFRAME Model for the Next Generation Bibliographic Description Format (차세대 서지 기술 형식으로서의 BIBFRAME 모형 연구)

  • Park, Ziyoung
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2013.08a
    • /
    • pp.101-104
    • /
    • 2013
  • 본 연구에서는 웹 환경에 적합한 서지 기술을 위해 LC에서 개발한 BIBFRAME을 분석하고, BIBFRAME이 개방형 서지 데이터의 생성에 적합한지를 검토하였다. 그리고 BIBFRAME의 등장 배경 및 특징을 FRBR 모형과 비교하였다. 그 결과 BIBRAME은 1)서지 객체의 지적 내용과 물리 매체를 구분하고 있었는데, FRBR의 제1그룹보다 단순한 구조를 지니고 있었다. 2) 인명전거와 주제전거를 포함하는 넓은 개념으로 전거를 정의하고 있었으며, 서지데이터 작성자의 관점과 이용자의 관점을 함께 고려하였다. 3) 다양한 외부 데이터와의 연계 및 개별 도서관에 특화된 데이터를 추가할 수 있는 주석 개념을 도입하였다. BIBFRAME은 MARC 레코드에서 변환하거나 직접적으로 서지데이터를 작성하는 방안이 모두 가능하며, 웹 환경에 적합하다고 판단된다.

  • PDF

Emotion Classification System for Chatting Data (채팅 데이터의 기분 분류 시스템)

  • Yoon, Young-Mi;Lee, Young-Ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.5
    • /
    • pp.11-17
    • /
    • 2009
  • It's a trend that the proportion of using an internet messenger among on-line communication methods is getting increased. However, there are not many applications which efficiently utilize these messenger communication data. Messenger communication data have specific characteristics that reflect the user's linguistic habits. The linguistic habits are revealed through frequently used words and emoticons, and user's emotions can be grasped by these. This paper proposes the method that efficiently classifies the emotions of a messenger user using frequently used words or symbols. The emotion classifier from repeated experiments achieves high accuracy of more than 95%.

A Survey on Machine Learning-Based Code Authorship Identification (머신 러닝 기반 코드 작성자 식별 기술에 대한 조망)

  • Kim, Hyun-Jun;Ahn, Sun-woo;Ahn, Seong-gwan;Nam, Kevin;Paek, Yun-Heung
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.128-131
    • /
    • 2021
  • 본 논문에서는 특정 코드를 분석하여 해당 코드를 작성한 저자가 누구인지 식별할 수 있는 머신 러닝 기반 코드 저자 식별 기술에 대해 소개한다. 먼저 소스 코드를 분석하여 저자를 확인하는 기법들에 알아볼 것이다. 또한 저자를 식별할 수 있는 정보가 다소 소실된 바이너리 코드를 분석하여 저자를 확인하는 기법을 살펴본 다음, 저자 식별 기법의 향후 연구 방향에 대해 탐색하고자 한다.

An Evaluation Method for Contents Importance Based on Twitter Characteristics (트위터 특징에 기반한 콘텐츠 중요성 평가 기법)

  • Lee, Euijong;Kim, Jeong-Dong;Baik, Doo-Kwon
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1136-1144
    • /
    • 2014
  • Twitter is a social network service that generates about 140 million contents a day. Contents of Twitter contain a variety of information and many researchers research those in various fields. In this research, we propose a method for evaluating the importance of content based on characteristics of Twitter. We have found that number of follower means user's popularity and Re-tweet that means the popularity of content. We perform experiments about proposed method using real Twitter data for proving effectiveness of proposed method. Also, we found information providers in Twitter are public user who represent a company or a representative of a specific group.

GPU-accelerated Reliability Analysis Method using Dynamic Reliability Block Diagram based on DEVS Formalism (DEVS 형식론 기반의 Dynamic Reliability Block Diagram과 GPU 가속 기술을 이용한 신뢰도 분석 방법)

  • Ha, Sol;Ku, Namkug;Roh, Myung-Il
    • Journal of the Korea Society for Simulation
    • /
    • v.22 no.4
    • /
    • pp.109-118
    • /
    • 2013
  • This paper adopts the system configuration to assess the reliability instead of making a fault tree (FT), which is a traditional method to analyze reliability of a certain system; this is the reliability block diagram (RBD) method. The RBD method is a graphical presentation of a system diagram connecting the subsystems of components according to their functions or reliability relationships. The equipment model for the reliability simulation is modeled based on the discrete event system specification (DEVS) formalism. In order to make various alternatives of target system, this paper also adopts the system entity structure (SES), an ontological framework that hierarchically represents the elements of a system and their relationships. To enhance the calculation time of reliability analysis, GPU-based accelerations are adopted to the reliability simulation.

A Heuristic Method for Extracting True Opinion Targets (의도된 의견 대상의 추출을 위한 경험적 방법)

  • Soh, Yun-Kyu;Kim, Han-Woo;Jung, Sung-Hun;Kim, Dong-Ju
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.9
    • /
    • pp.39-47
    • /
    • 2012
  • The opinion of user on a certain product is expressed in positive/negative sentiments for specific features of it. In some cases, they are expressed for a holistic part of homogeneous specific features, or expressed for product itself. Therefore, in the area of opinion mining, name of opinion features to be extracted are specific feature names, holonyms for theses specific features, and product names. However, when the opinion target is described with product name or holonym, sometimes it may not match feature name of opinion sentence to true opinion target intended by the reviewer. In this paper, we present a method to extract opinion targets from opinion sentences. Most importantly, we propose a method to extract true target from the feature names mismatched to a intended target. First, we extract candidate opinion pairs using dependency relation between words, and then select feature names frequently mismatched to opinion target. Each selected opinion feature name is replaced to a specific feature intended by the reviewer. Finally, in order to extract relevant opinion features from the whole candidate opinion pairs including modified opinion feature names, candidate opinion pairs are rearranged by the order of user's interest.

A study on the negative factors reflected in the will and the factors of well-aging as an alternative (유서에 반영된 부정적 요인과 대안으로서의 웰에이징 요소 연구)

  • Park, Arma;Kwon, On;Ahn, Sang-Yoon;Kim, Kwang-Hwan
    • Journal of Digital Convergence
    • /
    • v.19 no.5
    • /
    • pp.343-352
    • /
    • 2021
  • The purpose of this article is to study the negative factors reflected in the will and the factors of well aging as an alternative. The survey data was 36 wills published in the media such as newspapers and broadcasting between 2008 and 2020. As a result, various aspects of negative factors were found in youth wills between the ages of 13 and 34. In middle-aged wills between the ages of 35 and 49, female was not found. The negative factors in the socio-economic aspects were remarkable in the wills of adulthood between the ages of 50 and 64. All the writers of wills over the age of 65 were women, and their writings were strongly linked to the spiritual side. In view of these results, the will explored in this study can paradoxically become a proposal for a complete life. The will is a record with the potential of well aging. Sources of the suicide note included daily newspaper, broadcasting and local media. This study analyse the age and gender and the negative factors reflected in the will, by using the physical aspect, the mental aspect, and the socio-economic aspect as the methodology. In addition, the frequency of words and expressions exposed in the will were analyzed and keywords were created in word cloud.

A Crowdsourcing-based Emotional Words Tagging Game for Building a Polarity Lexicon in Korean (한국어 극성 사전 구축을 위한 크라우드소싱 기반 감성 단어 극성 태깅 게임)

  • Kim, Jun-Gi;Kang, Shin-Jin;Bae, Byung-Chull
    • Journal of Korea Game Society
    • /
    • v.17 no.2
    • /
    • pp.135-144
    • /
    • 2017
  • Sentiment analysis refers to a way of analyzing the writer's subjective opinions or feelings through text. For effective sentiment analysis, it is essential to build emotional word polarity lexicon. This paper introduces a crowdsourcing-based game that we have developed for efficiently building a polarity lexicon in Korean. First, we collected a corpus from the relating Internet communities using a crawler, and we classified them into words using the Twitter POS analyzer. These POS-tagged words are provided as a form of mobile platform based tagging game in which the players voluntarily tagged the polarities of the words, and then the result was collected into the database. So far we have tagged the polarities of about 1200 words. We expect that our research can contribute to the Korean sentiment analysis research especially in the game domain by collecting more emotional word data in the future.

A method for morphological correction of ambiguous error (한글 문서에서 형태적 중의 오류의 교정)

  • Kim, Min-Ju;Jeong, Jun-Ho;Lee, Hyeon-Ju;Choe, Jae-Hyeok;Kim, Hang-Jun;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF