• 제목/요약/키워드: big idea

검색결과 163건 처리시간 0.025초

프라이버시 보호 상황인식 시스템 개발을 위한 쌍방향 P3P 방법론 (A Mutual P3P Methodology for Privacy Preserving Context-Aware Systems Development)

  • 권오병
    • Asia pacific journal of information systems
    • /
    • 제18권1호
    • /
    • pp.145-162
    • /
    • 2008
  • One of the big concerns in e-society is privacy issue. In special, in developing robust ubiquitous smart space and corresponding services, user profile and preference are collected by the service providers. Privacy issue would be more critical in context-aware services simply because most of the context data themselves are private information: user's current location, current schedule, friends nearby and even her/his health data. To realize the potential of ubiquitous smart space, the systems embedded in the space should corporate personal privacy preferences. When the users invoke a set of services, they are asked to allow the service providers or smart space to make use of personal information which is related to privacy concerns. For this reason, the users unhappily provide the personal information or even deny to get served. On the other side, service provider needs personal information as rich as possible with minimal personal information to discern royal and trustworthy customers and those who are not. It would be desirable to enlarge the allowable personal information complying with the service provider's request, whereas minimizing service provider's requiring personal information which is not allowed to be submitted and user's submitting information which is of no value to the service provider. In special, if any personal information required by the service provider is not allowed, service will not be provided to the user. P3P (Platform for Privacy Preferences) has been regarded as one of the promising alternatives to preserve the personal information in the course of electronic transactions. However, P3P mainly focuses on preserving the buyers' personal information. From time to time, the service provider's business data should be protected from the unintended usage from the buyers. Moreover, even though the user's privacy preference could depend on the context happened to the user, legacy P3P does not handle the contextual change of privacy preferences. Hence, the purpose of this paper is to propose a mutual P3P-based negotiation mechanism. To do so, service provider's privacy concern is considered as well as the users'. User's privacy policy on the service provider's information also should be informed to the service providers before the service begins. Second, privacy policy is contextually designed according to the user's current context because the nomadic user's privacy concern structure may be altered contextually. Hence, the methodology includes mutual privacy policy and personalization. Overall framework of the mechanism and new code of ethics is described in section 2. Pervasive platform for mutual P3P considers user type and context field, which involves current activity, location, social context, objects nearby and physical environments. Our mutual P3P includes the privacy preference not only for the buyers but also the sellers, that is, service providers. Negotiation methodology for mutual P3P is proposed in section 3. Based on the fact that privacy concern occurs when there are needs for information access and at the same time those for information hiding. Our mechanism was implemented based on an actual shopping mall to increase the feasibility of the idea proposed in this paper. A shopping service is assumed as a context-aware service, and data groups for the service are enumerated. The privacy policy for each data group is represented as APPEL format. To examine the performance of the example service, in section 4, simulation approach is adopted in this paper. For the simulation, five data elements are considered: $\cdot$ UserID $\cdot$ User preference $\cdot$ Phone number $\cdot$ Home address $\cdot$ Product information $\cdot$ Service profile. For the negotiation, reputation is selected as a strategic value. Then the following cases are compared: $\cdot$ Legacy P3P is considered $\cdot$ Mutual P3P is considered without strategic value $\cdot$ Mutual P3P is considered with strategic value. The simulation results show that mutual P3P outperforms legacy P3P. Moreover, we could conclude that when mutual P3P is considered with strategic value, performance was better than that of mutual P3P is considered without strategic value in terms of service safety.

국내 휴대폰의 진화패턴 규명을 위한 텍스트 마이닝 방안 제안 및 사례 연구 (A Case Study of a Text Mining Method for Discovering Evolutionary Patterns of Mobile Phone in Korea)

  • 온병원
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.29-45
    • /
    • 2015
  • 생물의 진화패턴과 원리는 지난 200년간 학문적인 영역에서 활발히 연구되어 왔으며 생명의 진화에 대한 체계적인 이론, 개념 및 방법론이 제시되었다. 그리고 진화경제학, 진화심리학, 진화언어학 등 다양한 분야에 적용되어 큰 연구 성과를 거두고 있다. 이와 더불어 진화생물학 논리를 인간이 만든 제품에 적용하려는 시도도 병행되어 왔다. 기존 연구들이 생물진화 논리를 인공물에 그대로 적용하거나 해당 분야 전문가의 직관에 근거하여 진화 모형을 구축하는 것이어서 진화 모형에 대한 일반화를 시키기에는 한계를 가진다. 또한 생물과 달리 인공물은 인간 의지의 상상력이 반영되기 때문에 생물진화 이론을 곧바로 적용할 수 없다고 알려져 왔다. 따라서 본 논문에서는 특정인의 주관에 벗어나 일반 대중들의 생각을 엿보고 이를 바탕으로 진화 모형을 구축하는 것을 목표로 한다. 이를 위해, 인공물을 계통적으로 분류할 수 있는 체계적인 틀을 제시하는 텍스트 마이닝 방안과 그 결과물을 효과적으로 보여줄 수 있는 시각화 방안을 차례로 제안한다. 특히, 제안방안을 바탕으로 최근 혁신의 아이콘으로 떠오르고 있는 휴대폰과 스마트폰에 대한 사례 연구를 집중적으로 수행한다. 지난 10년간 국내에서 출시된 휴대폰과 스마트폰에 대한 리뷰 포스트들을 수집하고 분석하여, 진화패턴을 발견하고 요약해서 보여주며 그 결과에 대해서 자세히 토의한다. 더욱이 이러한 작업은 소수의 전문가들이 방대한 문헌과 자료를 조사 정리하여, 오랜 시간에 걸쳐 진화계통도를 그리게 되는 매우 지난한 작업이다. 하지만 본 논문에서 제안한 방안은 반자동(semi-automatic) 마이닝 알고리즘으로 인간의 노력을 최소화할 수 있어 그 효용 가치가 높다. 이러한 연구를 통해 인간의 창의력과 상상력이 구현되는 방식을 이해하고 휴대폰의 미래 모습을 전망하는데 있어 유관기업들에게 큰 도움을 줄 것이다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

A New Item Recommendation Procedure Using Preference Boundary

  • Kim, Hyea-Kyeong;Jang, Moon-Kyoung;Kim, Jae-Kyeong;Cho, Yoon-Ho
    • Asia pacific journal of information systems
    • /
    • 제20권1호
    • /
    • pp.81-99
    • /
    • 2010
  • Lately, in consumers' markets the number of new items is rapidly increasing at an overwhelming rate while consumers have limited access to information about those new products in making a sensible, well-informed purchase. Therefore, item providers and customers need a system which recommends right items to right customers. Also, whenever new items are released, for instance, the recommender system specializing in new items can help item providers locate and identify potential customers. Currently, new items are being added to an existing system without being specially noted to consumers, making it difficult for consumers to identify and evaluate new products introduced in the markets. Most of previous approaches for recommender systems have to rely on the usage history of customers. For new items, this content-based (CB) approach is simply not available for the system to recommend those new items to potential consumers. Although collaborative filtering (CF) approach is not directly applicable to solve the new item problem, it would be a good idea to use the basic principle of CF which identifies similar customers, i,e. neighbors, and recommend items to those customers who have liked the similar items in the past. This research aims to suggest a hybrid recommendation procedure based on the preference boundary of target customer. We suggest the hybrid recommendation procedure using the preference boundary in the feature space for recommending new items only. The basic principle is that if a new item belongs within the preference boundary of a target customer, then it is evaluated to be preferred by the customer. Customers' preferences and characteristics of items including new items are represented in a feature space, and the scope or boundary of the target customer's preference is extended to those of neighbors'. The new item recommendation procedure consists of three steps. The first step is analyzing the profile of items, which are represented as k-dimensional feature values. The second step is to determine the representative point of the target customer's preference boundary, the centroid, based on a personal information set. To determine the centroid of preference boundary of a target customer, three algorithms are developed in this research: one is using the centroid of a target customer only (TC), the other is using centroid of a (dummy) big target customer that is composed of a target customer and his/her neighbors (BC), and another is using centroids of a target customer and his/her neighbors (NC). The third step is to determine the range of the preference boundary, the radius. The suggested algorithm Is using the average distance (AD) between the centroid and all purchased items. We test whether the CF-based approach to determine the centroid of the preference boundary improves the recommendation quality or not. For this purpose, we develop two hybrid algorithms, BC and NC, which use neighbors when deciding centroid of the preference boundary. To test the validity of hybrid algorithms, BC and NC, we developed CB-algorithm, TC, which uses target customers only. We measured effectiveness scores of suggested algorithms and compared them through a series of experiments with a set of real mobile image transaction data. We spilt the period between 1st June 2004 and 31st July and the period between 1st August and 31st August 2004 as a training set and a test set, respectively. The training set Is used to make the preference boundary, and the test set is used to evaluate the performance of the suggested hybrid recommendation procedure. The main aim of this research Is to compare the hybrid recommendation algorithm with the CB algorithm. To evaluate the performance of each algorithm, we compare the purchased new item list in test period with the recommended item list which is recommended by suggested algorithms. So we employ the evaluation metric to hit the ratio for evaluating our algorithms. The hit ratio is defined as the ratio of the hit set size to the recommended set size. The hit set size means the number of success of recommendations in our experiment, and the test set size means the number of purchased items during the test period. Experimental test result shows the hit ratio of BC and NC is bigger than that of TC. This means using neighbors Is more effective to recommend new items. That is hybrid algorithm using CF is more effective when recommending to consumers new items than the algorithm using only CB. The reason of the smaller hit ratio of BC than that of NC is that BC is defined as a dummy or virtual customer who purchased all items of target customers' and neighbors'. That is centroid of BC often shifts from that of TC, so it tends to reflect skewed characters of target customer. So the recommendation algorithm using NC shows the best hit ratio, because NC has sufficient information about target customers and their neighbors without damaging the information about the target customers.

현전(現傳) 창원 퇴촌농악의 양식적 특징과 전승 의의 (A Study on the Distinguished Characteristics and Transmittion significance of Toichon Nongak in Changwon city)

  • 양옥경
    • 공연문화연구
    • /
    • 제37호
    • /
    • pp.187-221
    • /
    • 2018
  • 본고는 경상남도 창원 지역에 현전하는 퇴촌농악의 공연 양식적 면모와 성격을 규명하고, 나아가 전승 의의에 대해 논구해 보았다. 창원 퇴촌농악은 마을공동체의 종교적 심성을 바탕으로 제의성이 두드러지는 농악으로 출발하여 근현대 시대 새로이 쌓이기 시작한 대한민국의 경제, 사회, 문화적 토대와 적극적으로 상호작용한 전승사를 가지고 있다. 마을농악은 의식농악, 농사풀이 농악, 마을 연예농악의 세 성격이 종합적으로 나타난다. 현전 퇴촌농악 역시도 의식농악과 마을 연예농악의 성격이 하나의 거시적 구조 안에서 병렬적으로 연결되어 있는 마을농악 양식이다. 이 농악의 유래와 배경, 목적, 연행양식 등을 종합해 봤을 때 공동 축원 형태의 동제에서 비롯된 의식농악이 본령(本領)이고, '퇴촌'이라는 특정 마을을 중심으로 현대사회의 변천 궤도 안에서 다양한 영향요인들과의 상호작용으로 세시-놀이 형태의 연예농악 양식이 확대된 변화를 담지한 농악임이 분명하다. 공동 축원 형태의 의식농악에 속하는 근거는 마을의 형성 배경과 공유하고 있는 전설, 신목(神木)과 동제의 유래 및 전개에 관한 토착민 보전 지식이 이를 뚜렷이 뒷받침하고 있다. 또, 크게 확장된 연예농악 양식은 해방이후 급속히 전국적으로 번진 '대회용 농악 공연 양식'의 출현이 이후의 농악 공연-향유 방식, 농악 학습-전승 방식의 변화와 맞물리면서 전문 농악 공연집단 뿐만이 아니라 마을단위 농악대, 일반 시민농악대에 이르기까지 연예성과 전문성을 추구하는 경향과 외부로 부터의 수혈이 맞닿은 변모로 해석이 가능하다. 그 대표적인 예가 퇴촌농악 황일태(보존회장, 설장구)에 의해 연행되는 '지신밟기 고사소리'와 치밀한 의도 하에 구성된 것으로 보이는 음악구조이다. 종합적으로, 현전 퇴촌농악 공연양식은 마을농악의 시대적 변천 맥락을 그대로 투사하고 있는, 다시 말해 전통성과 변천성을 동시에 보전한 농악이라고 할 수 있다.

왕진의 『도덕경』에 대한 병학적 이해 (Military science's understanding on Daodejing of Wangzhen)

  • 김태용
    • 한국철학논집
    • /
    • 제23호
    • /
    • pp.295-316
    • /
    • 2008
  • 이 글은 당말(唐末) 저명 무관(武官)인 왕진이 저술한 "도덕경논병요의술"의 군사사상에 대한 연구이다. 역사적으로 많은 학자들은 "도덕경"을 병서(兵書)로 간주하였다. 그러나 군사적 시각으로 "도덕경"을 계통적으로 해석한 사람은 왕진 한 사람뿐이다. 왕진은 세상에 전쟁이 끊임없이 일어나는 이유는 인간이 본성적으로 분쟁을 좋아하기 때문이라고 생각한다. 그에 따르면 인간은 만물 가운데 가장 뛰어난 영혼을 갖고 태어난다. 그러나 하늘이 인간을 낳을 때 마음 가운데 큰 욕심을 갖게 한다. 따라서 인간은 승리를 추구하며 이익을 쫓고 바른 길을 등지고 사악한 길을 걷는다. 각 욕망 사이의 모순은 크고 작은 분쟁을 일으키게 된다. 인간에게 욕심이 있는 것은 인간에게 정(情)이 있다는 것이다. 인간에게 정이 있기 때문에 전쟁이 없을 수 없다. 이러한 전쟁을 해결하기 위해 인간은 무기(武器)를 사용한다. 왕진은 무기란 매우 흉악하고 위험한 물건이기 때문에 이를 사용하는 전쟁은 세상에서 가장 악한 행위라고 생각한다. 그런데 세상의 많은 일들이 무기를 잘 사용할 수 있는가의 여부에 따라 그 이해(利害)가 결정된다. 따라서 무기의 사용기술은 현실 세계에서 효용성을 가지며 매우 중요한 의미를 지닌다. 그러나 나라를 다스리고 군대를 통솔하는데 있어서 먼저 힘써야 할 것은 도덕적 가치이다. 문무(文武)를 병행할 때 나라의 안녕과 전쟁의 승리를 담보할 수 있다. 왕진은 노자가 분쟁이 전쟁과 혼란의 근원으로 보고 그 근본적 해결책으로 부쟁(不爭)을 강조했다고 생각한다. 따라서 왕진은 "부쟁"이 "도덕경"의 핵심요지고 그 자신의 군사사상의 중심임을 밝힌다. 그에 있어 "부쟁"은 바로 "무위(無爲)"이다. "무위"는 정치적 의미만이 아니라 군사적 의미도 내포하고 있다. 그는 노자의 "무위"사상을 자신의 군사사상에 적용시켜 군사적 "부쟁"사상을 정립한다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

SaaS 기업의 차별화 및 가격전략이 고객획득성과에 미치는 영향: SaaS 기술성숙도 수준의 매개효과 및 조절효과를 중심으로 (Effects of firm strategies on customer acquisition of Software as a Service (SaaS) providers: A mediating and moderating role of SaaS technology maturity)

  • 채성욱;박승범
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.151-171
    • /
    • 2014
  • SaaS는 사용자가 필요한 소프트웨어를 인터넷을 통해 원격으로 서비스 받을 수 있도록 하는 모델로 소프트웨어 시장에서 차지하는 비중이 커짐과 동시에 관련 분야의 비즈니스 요구사항의 증가에 따라 지속적인 성장이 기대되는 분야이다. 이에 본 연구는 SaaS 공급업체들을 대상으로 기업에서 추구하는 차별화 전략 및 낮은 가격전략과 고객획득성과와의 관계를 살펴보고 더 나아가 이들 간의 관계에서 SaaS 기술성숙도 수준의 매개효과와 조절효과를 알아보고자 하였다. 이를 위해 SaaS 제공업체 및 국내 CNK(commerce net Korea) 데이터베이스에 등록된 업체의 어플리케이션을 대상으로, 175개 기업 총 199개 SaaS 전략사업단위의 설문결과를 분석에 활용하였다. SaaS 기술성숙도가 차별화전략 및 낮은가격전략과 고객획득성과와의 관계를 매개하는지 검증하기 위해 Baron and Kenny (1986)가 제안한 절차에 따라 회귀분석을 실시하였고, SaaS 기술성숙도의 조절효과를 살펴보기 위해 위계적 회귀분석(hierarchical regression analysis) 방법을 적용한 상호작용효과를 검증하였다. 분석결과, 첫째, SaaS 제공업체가 추구하는 차별화 전략(업종특화, 파트너활용, 전담인력수) 및 낮은 가격전략(월이용료, 초기설치비)과 같은 기업전략은 고객획득에 긍정적인 영향을 미치는 것으로 나타났다. 또한, SaaS 공급업체의 기술성숙도 수준(어플리케이션 서비스 제공, 웹 기본 어플리케이션, 웹 서비스 어플리케이션)과 고객 획득성과 간에 유의미한 긍정적인 관계가 있는 것으로 확인되었다. 마지막으로, SaaS 기술성숙도 수준의 기업전략과 고객획득성과와의 관계에 대한 조절효과는 주로 차별화 전략에 대해 나타난 반면, 매개효과는 주로 낮은 가격전략에 대해 나타남을 확인하였다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.