• 제목/요약/키워드: source text

검색결과 267건 처리시간 0.026초

Multidimensional Analysis of Consumers' Opinions from Online Product Reviews

  • Taewook Kim;Dong Sung Kim;Donghyun Kim;Jong Woo Kim
    • Asia pacific journal of information systems
    • /
    • 제29권4호
    • /
    • pp.838-855
    • /
    • 2019
  • Online product reviews are a vital source for companies in that they contain consumers' opinions of products. The earlier methods of opinion mining, which involve drawing semantic information from text, have been mostly applied in one dimension. This is not sufficient in itself to elicit reviewers' comprehensive views on products. In this paper, we propose a novel approach in opinion mining by projecting online consumers' reviews in a multidimensional framework to improve review interpretation of products. First of all, we set up a new framework consisting of six dimensions based on a marketing management theory. To calculate the distances of review sentences and each dimension, we embed words in reviews utilizing Google's pre-trained word2vector model. We classified each sentence of the reviews into the respective dimensions of our new framework. After the classification, we measured the sentiment degrees for each sentence. The results were plotted using a radar graph in which the axes are the dimensions of the framework. We tested the strategy on Amazon product reviews of the iPhone and Galaxy smartphone series with a total of around 21,000 sentences. The results showed that the radar graphs visually reflected several issues associated with the products. The proposed method is not for specific product categories. It can be generally applied for opinion mining on reviews of any product category.

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

텍스트마이닝 기반의 효율적인 장소 브랜드 이미지 강도 측정 방법 (An Efficient Estimation of Place Brand Image Power Based on Text Mining Technology)

  • 최석재;전종식;비스워스 수브르더;권오병
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.113-129
    • /
    • 2015
  • 장소 브랜딩은 특정 장소에 대한 의미 부여를 통해 장소성의 정체성 및 공동가치를 생성하며 가치 창출을 하는데 중요한 활동이며, 장소 브랜드에 대한 이미지 파악을 통해 이루어진다. 이에 마케팅, 건축학, 도시건설학 등 여러 분야에서는 인상적인 장소 브랜드의 이미지를 구축하기 위하여 많은 노력을 기울이고 있다. 하지만 설문조사를 포함한 대면조사 방법은 대부분 주관적인 작업이며 측정에 많은 인력 또는 고도의 전문 인력이 소요되어 고비용을 발생시키므로 보다 객관적이면서도 비용효과적인 브랜드 이미지 조사 방법이 필요하다. 이에 본 논문은 텍스트마이닝을 통하여 장소 브랜드의 이미지 강도를 객관적이고 저비용으로 얻는 방법을 찾는 것을 목적으로 한다. 제안하는 방법은 장소 브랜드 이미지를 구성하고 있는 요인과 그 키워드들을 관련 웹문서에서 추출하며, 추출된 정보를 통해 특정 장소의 브랜드 이미지 강도를 측정하는 방법이다. 성능은 안홀트 방법에서 평가에 사용하는 전세계 50개 도시 이미지 인덱스 순위와의 일치도로 검증하였다. 성능 비교를 위해 임의로 순위를 매기는 방법, 안홀트의 설문방식대로 일반인이 평가하는 방법, 본 논문의 방법을 사용하되 안홀트의 방법으로 학습한 것으로 유의한 것으로 추정되는 평가 항목만을 반영하는 방법과 비교하였다. 그 결과 제안된 방법론은 정확성, 비용효율성, 적시성, 확장성, 그리고 신뢰성 측면에서 우수함을 보일 수 있었다. 따라서 본 연구에서 제안한 방법론은 안홀트 방식에 상호 보완적으로 사용될 수 있을 것이다. 향후에는 장소 브랜드 이미지를 형성하는 속성 별로 등장횟수를 계산 한 후에 장소 브랜드에 대한 태도, 연상, 그리고 브랜드 자산과의 인과관계를 자동으로 파악할 수 있는 부분까지 구현하고 실증적 실험을 할 예정이다.

계몽기·근대시조 DB의 개선 및 콘텐츠화 방안 연구 (A study on the improving and constructing the content for the Sijo database in the Period of Modern Enlightenment)

  • 장정수
    • 한국시조학회지:시조학논총
    • /
    • 제44권
    • /
    • pp.105-138
    • /
    • 2016
  • 최근 검색 기능을 갖춘 "계몽기 근대시조의 XML 데이터베이스 문서화"라는 자료가 기초학문자료센터(http://www.krm.or.kr)를 통해 제공되고 있어 근대시조의 문화콘텐츠화를 진행할 수 있는 기반이 마련되었다. 이에 본고에서는 계몽기 근대시조 DB의 특성 및 문제점을 검토해 보고 개선 방향을 탐색함으로써 이 자료의 콘텐츠화 방안을 모색해 보았다. 계몽기 근대시조 DB는 12,500여 수에 이르는 방대한 양의 근대시조를 한자리에서 일별할 수 있도록 집성해 놓았다는 점과 문헌 및 작가명 작품명 검색, 원문 검색, 시기별 검색 등의 검색 기능을 갖춘 최초의 시조 DB라는 점에서 의의를 지닌다. 그러나 이 DB는 현대어 정규화 텍스트가 형성되지 않아 제목이나 원문이 고어나 한자로 표기되어 있는 경우 검색이 되지 않으며, 1945년 이후에 발표된 작품과 개인 시조집에 수록된 작품이 대거 누락되어 있어 계몽기 근대시조의 총체적 모습을 확인하는 데에 한계가 있다는 문제점을 지니고 있다. 또한 작자 표시가 실명, 호, 필명 등으로 다양하게 표기되어 있어 작가별 자료 추출에 불편함이 따르는 문제가 있다. 이러한 문제점을 해결하고 DB 활용을 제고(提高)하는 방안으로 본고에서는 현대어 정규화 텍스트 마련, 작품 별 내용소(內容素) 색인어 부여, 고시조 DB와의 통합, 작품 형식에 대한 정보 제공 등을 제시하였다. 나아가 '시조문화정보시스템'의 성격을 갖춘 복합적인 성격의 계몽기 근대시조 DB가 형성된다면 이를 연구 및 교육콘텐츠로 활용할 수 있음을 피력하였다. 그 구체적인 방안으로는 근대사 학습 및 근대기 국토 인식 등에 대한 보조 자료, 고유의 동식물 캐릭터 학습 및 상업적 캐릭터 생성을 위한 원천 자료, 시조놀이 등의 시조학습 도구로 활용할 수 있음을 제안하였다.

  • PDF

논문 원문을 이용한 동명 저자 자동 군집화 (Automatic Clustering of Same-Name Authors Using Full-text of Articles)

  • 강인수;정한민;이승우;김평;구희관;이미경;구남앙;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.652-656
    • /
    • 2006
  • 대용량 과학 기술 문헌의 탐색 및 검색에 있어서 저자, 저자 소속 기관, 게재지 등에 대해 고유 식별자에 기반한 표현의 필요성이 증가하고 있다. 특히, 과학 기술 문헌의 저자가 단순히 이름으로 표현될 경우, 동일명을 가진 서로 다른 저자들에 대한 구분은 사용자의 검색 부담을 가중시키게 된다. 이러한 동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지 정보에 의존하는 공통점을 지닌다. 그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 된다. 본 연구에서는, 동명저자 문제 해소를 위한 기존의 접근법을 보완하기 위해, 동명저자들의 논문 원문의 내용에 기반한 문서 군집화 방법을 사용한다. 국내 학술대회 발표 논문집을 대상으로 한 실험에서 제안한 방법이 기존의 서지정보에 기반한 해법의 단점을 보완할 수 있다는 가능성을 보였다.

  • PDF

수돗물 이용에 대한 국내 연구동향과 사회적 인식 (The Research Trend and Social Perceptions Related with the Tap Water in South Korea)

  • 김지윤;도윤호;주기재;김은희;박은영;이상협;백명수
    • 생태와환경
    • /
    • 제49권3호
    • /
    • pp.208-214
    • /
    • 2016
  • 본 연구에서는 국내 수돗물 관련 연구 동향을 파악하기 위해 805건의 연구문헌 정보를 수집하여 텍스트 마이닝 기법으로 주제어 관계 분석을 시행하고 수돗물 이용에 대한 설문조사를 진행하여 사회적 인식을 조사하였다. 수돗물에 연관된 연구는 1990년대부터 수가 크게 증가한 것으로 파악되었으나 정확한 수돗물 불신의 원인파악과 대국민 소통에 대한 전문적인 연구는 매우 미흡하였다. 그동안 진행된 주요 연구분야는 크게 상수도 수질, 불소농도조정사업, 수돗물 잔류물 영향, 미생물 관리의 4개 주제군으로 구분할 수 있었다. 수돗물 음용에 대한 대국민 설문조사결과 응답자의 22.4%만이 수돗물을 주 음용수로 이용하고 있었으며 그대로 마시는 비율은 4.5%로 매우 낮게 나타났다. 수돗물의 주 음용수 사용에 미치는 주요한 영향요인으로는 수돗물 품질보고서 인지 여부, 수돗물 관리 정책에 대한 신뢰도 등의 영향력이 큰 것으로 나타났다. 지속적인 수돗물 음용 확대를 위해서는 수돗물 관리 정책 소통의 전환과 연구정보 공유 확산을 통해 이용자의 사회적 관심과 기관의 신뢰를 높여야 한다. 이를 위해 철저하게 관리되고 있는 수돗물 수질에 대한 객관적인 정보전달 체계를 확대하여 사회공공서비스의 모범을 제시해야 할 것으로 생각된다. 또한, 수돗물 불신에 대한 이용자 인식과 행동 원인에 대한 연구와 이를 해결하기 위한 실험적 접근들이 동시에 이루어져야 할 것으로 판단된다.

The Big Data Analytics Regarding the Cadastral Resurvey News Articles

  • Joo, Yong-Jin;Kim, Duck-Ho
    • 한국측량학회지
    • /
    • 제32권6호
    • /
    • pp.651-659
    • /
    • 2014
  • With the popularization of big data environment, big data have been highlighted as a key information strategy to establish national spatial data infrastructure for a scientific land policy and the extension of the creative economy. Especially interesting from our point of view is the cadastral information is a core national information source that forms the basis of spatial information that leads to people's daily life including the production and consumption of information related to real estate. The purpose of our paper is to suggest the scheme of big data analytics with respect to the articles of cadastral resurvey project in order to approach cadastral information in terms of spatial data integration. As specific research method, the TM (Text Mining) package from R was used to read various formats of news reports as texts, and nouns were extracted by using the KoNLP package. That is, we searched the main keywords regarding cadastral resurvey, performing extraction of compound noun and data mining analysis. And visualization of the results was presented. In addition, new reports related to cadastral resurvey between 2012 and 2014 were searched in newspapers, and nouns were extracted from the searched data for the data mining analysis of cadastral information. Furthermore, the approval rating, reliability, and improvement of rules were presented through correlation analyses among the extracted compound nouns. As a result of the correlation analysis among the most frequently used ones of the extracted nouns, five groups of data consisting of 133 keywords were generated. The most frequently appeared words were "cadastral resurvey," "civil complaint," "dispute," "cadastral survey," "lawsuit," "settlement," "mediation," "discrepant land," and "parcel." In Conclusions, the cadastral resurvey performed in some local governments has been proceeding smoothly as positive results. On the other hands, disputes from owner of land have been provoking a stream of complaints from parcel surveying for the cadastral resurvey. Through such keyword analysis, various public opinion and the types of civil complaints related to the cadastral resurvey project can be identified to prevent them through pre-emptive responses for direct call centre on the cadastral surveying, Electronic civil service and customer counseling, and high quality services about cadastral information can be provided. This study, therefore, provides a stepping stones for developing an account of big data analytics which is able to comprehensively examine and visualize a variety of news report and opinions in cadastral resurvey project promotion. Henceforth, this will contribute to establish the foundation for a framework of the information utilization, enabling scientific decision making with speediness and correctness.

현대시조의 진로 모색과 세계화 문제 연구 (A Speculation on the Prospect and Globalization of Modern Sijo)

  • 임종찬
    • 한국시조학회지:시조학논총
    • /
    • 제23집
    • /
    • pp.33-48
    • /
    • 2005
  • 이 논문에서는 시조는 시조의 형식미를 지킴으로서 자유시와의 변별력이 생길뿐더러 시조의 존재의의가 있다는 데에 논의의 초점을 맞추고 여기서 이탈하는 작품들을 경계하였다. 과거 고시조는 창과 조화롭게 만나서 음악으로나 문학으로나 중심장르로서 역할하였는데, 현대시조에 와서는 창과 무관하게 창작되고 있지만 시조가 창을 곁들인다고 해서 무익하다고 할 수 없기 때문에, 창을 현대감각에 맞게 조정하여 시조와 만나는 문제를 생각해야 하고, 이 점은 국악인과 시조시인과의 상호 노력이 요청되는 문제임을 지적하였다. 시조를 영역한 예들을 살펴보니 시조를 영시 형식으로 번역한 경우가 있었다. 이렇게 되면 외국인들이 시조의 형식에 따른 시조의 묘미를 느낄 수 없게 되므로 올바른 번역이 되지 못함을 지적하였다. 그러나 시조의 3장 6구 형식을 영어가 허용하는 범위 내에서 살리려고 노력하는 한 편, 각 구끼리 비슷한 음절수를 가지게 하여 각 구를 읽을 때의 시간적 거리를 비슷하게 만든 경우가 있었다. 시조 영역(英譯)은 이같이 시조다움을 살리는 데에서 출발해야 하고 그렇게 하기 위해서는 먼저 시조시인들이 시조형식을 잘 지켜서 창작해야 거기에 따른 번역 또한 시조답게 번역이 가능해질 것임을 지적하면서, 바람직한 번역을 위해서는 시조학자와 영문학자와의 상호 노력이 요청되는 문제임을 지적하였다.

  • PDF

신문기사에 나타난 장애인스포츠에 대한 인식 -의미연결망을 활용한 빅데이터 분석- (Perceptions of Disabled Sports in Newspapers Using Semantic Networks Analysis)

  • 한민규;김원경;윤지운
    • 재활복지
    • /
    • 제20권4호
    • /
    • pp.157-175
    • /
    • 2016
  • 본 연구의 목적은 텍스트 빅데이터 분석의 일종인 의미연결망을 활용하여 신문기사에서 나타나는 장애인스포츠에 대한 인식을 알아보는 것이 목적이다. 이 목적을 위하여 '장애인스포츠'를 검색어로 네이버 포탈을 이용하여 21개 언론사 745건의 기사를 수집하였으며 Krkwic 소프트웨어 프로그램을 사용하여 자료정제와 공출현 빈도를 산출하였다. 장애인스포츠에 대한 인식은 Netminer 4.0을 활용하여 연결중앙성, 매개중앙성, 위세중앙성을 지표로 분석하였다. 의미연결망 분석을 통하여 얻은 결과는 다음과 같다. 첫째, 신문기사에서 나타난 장애인스포츠를 규정하는 핵심단어는 감동, 도전, 축제, 꿈, 희망이다. 그리고 장애인스포츠의 인식을 나타내는 핵심단어는 장애유형에 따라 차이가 있다. 둘째, 장애인스포츠에 대한 인식을 장애유형별로 구분하여 분석한 결과 크게 경기력관련 인식과 감성관련 인식으로 구분할 수 있다. 구체적으로 지체장애 스포츠 대상의 경기력관련 인식은 패럴림픽, 로봇, 감동 등이며 감성관련 인식은 행복, 희망 등이다. 지적장애 스포츠 대상의 경기력관련 인식은 패럴림픽, 스페셜올림픽, 축제 등이고 감성관련 인식은 사랑, 감동 등이다. 시각장애 스포츠 대상의 경기력관련 인식은 메달, 달리기 등이며 감성관련 인식은 희망, 나눔 등이다. 결론적으로 신문기사에서 나타나는 장애인스포츠에 대한 인식은 패럴림픽, 스페셜올림픽 등의 장애인스포츠 경기대회는 장애인들의 도전과 꿈을 이룰 수 있는 축제의 장이며 경기를 통해 일반대중들에게 감동을 선사한다고 의미화 할 수 있다.

'며느리-단혈형 부자 패가敗家 설화'에 나타난 한국인의 민간신앙의 한 단면 (Koreans' Folk Religions Concealed in a Oral Literary Tradition of "The story of ruining one's family by Daughter-in-law's Cutting-Condemnation(斷血)")

  • 서신혜
    • 동양고전연구
    • /
    • 제71호
    • /
    • pp.205-229
    • /
    • 2018
  • 이 글은 '며느리-단혈형 부자 패가 설화'를 통해서 한국인의 민간신앙을 살핀 것이다. 며느리-단혈 부자 패가 설화는 부잣집에 손님이 많아 괴로워하던 며느리가 시주승에게 물어서 그의 지시대로 어떤 사물을 끊었더니 손님도 끊기고 그 집도 망했다는 이야기이다. 이 이야기는 한 가문이 갑자기 망한 원인을 며느리의 탓으로 돌리는 젠더적 면이 있는 이야기이다. 하지만 며느리의 악행을 부각시키지 않고 그 고생에 대한 이해를 강조하였으므로 비윤리적인 행위와 그에 따른 징치(懲治)로 집안이 망한 것으로만 보기 어렵다. 이 이야기에는 '사물이 끊긴 것-손님이 끊긴 것-집이 망한 것'을 하나로 보는 인식이 드러난다. 인간사와 자연의 연계에 대한 인식은 결국 인간과 신령간의 흐름을 원활하게 해서 서로 잘 교류하고 소통할 때 만사가 잘 된다는 민간의 신앙을 드러낸 것이다. 또 어쩔 수 없는 인간사의 흥망을 천의(天意)로 보고 따르는 의미도 읽힌다. 요컨대 이 글을 통해 필자는 '며느리-단혈형 부자 패가 설화'에 내재되어 있는 인간과 자연, 인간과 천의의 관계망을 살폈고, 그것을 민간신앙의 면에서 풀어낸 것이다.