• 제목/요약/키워드: Web based system

검색결과 5,316건 처리시간 0.037초

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

TV 시청률과 마이크로블로그 내용어와의 시간대별 관계 분석 (Analysis of the Time-dependent Relation between TV Ratings and the Content of Microblogs)

  • 최준연;백혜득;최진호
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.163-176
    • /
    • 2014
  • 소셜미디어 확산으로 많은 사용자들이 SNS를 통해 자신의 생각과 의견을 표출하며 다른 사용자들과 상호작용하고 있다. 특히 트위터와 같은 마이크로블로그는 짧은 문장을 통해 영화, TV, 사회 현상 등과 같은 공통의 주제에 대해 많은 사람이 즉각적으로 의견을 표출하고 교환하는 플랫폼의 역할을 수행하고 있다. TV방송 프로그램에 대해서도 의견과 감정을 마이크로블로그를 통해 표출하고 있는데, 본 연구에서는 마이크로블로그의 내용과 시청률과의 관계를 살펴보기 위해, 지난 공중파 방송 프로그램에 대한 트윗을 수집하고 부적절한 트윗들을 제거한 후 형태소 분석을 수행하였다. 추출된 형태소뿐 아니라 이모티콘, 신조어 등 사용자가 입력한 모든 단어들을 후보 자질로 삼아 시청률과의 상관관계를 분석하였다. 실험을 위해 2013년 1월부터 10개월간의 예능프로그램 트윗의 데이터를 수집하여 전국 시청률 데이터와 비교 분석을 수행하였다. 트윗의 발생량은 일주일 중 방송된 요일에 가장 많았으며, 특히 방송시간 부근에서 급격히 증가하는 모습을 보였다. 이것은 전국에 동시간에 방송되는 공중파 프로그램의 특성상 공통된 관심 주제를 제공하기 때문에 나타나는 현상으로 여겨진다. 횟수 기반 자질로 방송 일의 총 트윗 수와 리트윗 수, 방송시간 중의 트윗 수와 리트윗 수와 시청률과의 상관 관계를 분석하였으나 모두 낮은 상관 계수를 나타냈다. 이것은 단순한 트윗 발생 빈도는 방송 프로그램의 만족도 또는 시청률을 제대로 반영하고 있지 못함을 의미한다. 내용 기반 자질로 추출한 단어들 중에는 높은 상관관계를 보여주는 단어들이 발견되었으며, 표준어가 아닌 이모티콘과 신조어 중에도 높은 상관관계를 보여주는 자질이 나타났다. 또한 방송시작 전과 후에 따라 상관계수가 높은 단어가 상이함을 발견하였다. 매주 같은 시간에 방송되는 TV 프로그램의 특성상, 방송을 기다리고 기대하는 내용의 트윗과 방송 후 소감을 표현하는 트윗의 내용에 차이가 존재하였다. 이러한 분석결과는 단어에 따라 시청률과 연관성이 높은 시간대가 달라짐을 의미하며, 시청률을 측정하고자 할 때 각 단어들의 시간대를 고려해서 사용해야 함을 의미한다. 본 연구에서 제안한 방법은 기존의 표본 추출을 통해 이루어지는 TV 시청률 측정을 보완할 수 있는 방법에 활용할 수 있으리라 기대된다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.

1998, 1999년도 우리나라에서 시행된 유방보존수술 후 방사선치료 현황 조사 (The 1998, 1999 Patterns of Care Study for Breast Irradiation After Breast-Conserving Surgery in Korea)

  • 서창옥;신현수;조재호;박 원;안승도;신경환;정은지;금기창;하성환;안성자;김우철;이명자;안기정
    • Radiation Oncology Journal
    • /
    • 제22권3호
    • /
    • pp.192-199
    • /
    • 2004
  • 목적: 유방암에 대한 방사선치료의 적정성과 안전성을 보장하고 궁극적으로 치료 효과를 향상시키기 위한 방사선치료 기술 표준화를 위하여 우리나라 전국의 병원을 대상으로 하는 치료 형태 조사연구(Patterns of Care Study)를 계획하였다. 그 첫 단계로 유방보존적 수술 후 시행한 방사선치료 방법에 대하여 조사하고 분석 하였다. 대상 및 방법: 조사하고자 하는 입력 문항을 개발하였고 동시에 인터넷을 통하여 조사자가 직접 입력할 수 있도록 Web 기반 입력 프로그램(www.pcs.re.kr)을 개발하였다. 대상 환자들은 1998년도와 1999년도에 유방보 존술 후 방사선치료를 받은 환자로 전수 조사를 하지 않고 표본 추출하여 조사하였다. 입력 문항은 127개로 병력과 이학적 소견, 수술 소견과 병리 소견, 항암화학요법, 호르몬요법, 방사선치료계획, 방사선치료, 치료 중 부작용, 치료 효과, 합병증, 미용 효과 등 10군으로 나누어져 있다. 15개 병원에서 입력된 261명의 데이터를 분석 하였다. 결과: 연령은 24$\~$85세(중앙값 45세)였다. 병리학적 유형은 관상피암종이 88.9$\%$로 대부분을 차지하였으며 수질성암종이 4.2$\%$, 소엽상피암종이 1.5$\%$였다. 병기는 AJCC (American Joint Committee on Cancer) 5판에 따라 분류하였으며 T1이 59.7$\%$,T2가 29.5$\%$,Tis가 8.8$\%$였으며 전체의 42.5$\%$가 Tlc에 해당하였다. 전체 환자의 91.2$\%$에서 액와림프절 곽청술이 시행되었고 69.7$\%$의 환자들에서는 액와림프절 전이가 없었으며 림프절 전이가 3개 이하인 경우가 15.3$\%$, 4$\~$9개가 4.2$\%$, 10개 이상 전이된 경우가 1.9$\%$였다. 따라서 병기 0기가 8.4$\%$, I기, 44.9$\%$, IIA기, 33.3$\%$, IIB기 8.4$\%$였다. 에스트로겐수용체와 프로게스테론수용체 검사는 각각71.6, 70.9 $\%$에서 이루어졌다. 유방보존적 수술 방법은 단순절제술(excision/lumpectomy)이 37.2$\%$, 광범위절제술이 11.5$\%$ 사분원절제술(quadrantectomy)이 23$\%$, 부분절제술(partial mastectomy)이 27.5$\%$에서 시행되었다. 수술 후 10예 (3.8$\%$)에서 절제연이 양성이었고 10예는 절제연이 종양에서 2 mm 이내였다. 항암화학요법은 I기에서 54.7$\%$, IIA기에서 83.9$\%$, IIB에서 100$\%$ 시행되었다. 방사선치료는 1예를 제외한 모든 환자들이 계획된 방사선량의 90$\%$ 이상을 조사 받음으로써 순응도가 매우 높은 치료임을 알 수 있었다. 방사선치료의 범위는 전체의 88$\%$가 유방만 치료받았고 5$\%$는 유방과 쇄골상부림프절을, 4.2$\%$는 유방, 쇄골상부림프절에 액와림프절후방추가 조사를 하였으며, 유방, 쇄골상부림프절과 함께 내유방림프절을 치료하였던 예는 1예(0.4$\%$) 뿐이었다. 유방 치료에 사용된 방사선의 종류는 Co-60가 8명(3.1$\%$), 4 MV X-ray가 115명(44.1$\%$), 6 MV X-ray가 125명(47.8$\%$)이었으며 11명(4.2$\%$)은 10 MV X-ray를 사용하였다. 조사된 방사선량은 유방 전체에 45$\~$59.4 Gy (중앙값 50.4), 원발 병소에 대한 추가 조사가 8$\~$20 Gy (중앙값 10 Gy)로 총 방사선 조사선량은 50.4$\~$70.4 Gy (중앙값 60.4 Gy)였다. 결론: 조기 유방암에 대한 진단과 병기 결정 과정, 유방보존적 수술 후 시행되는 방사선치료는 큰 편향이 없이 권고안대로 잘 시행되고 있었다. 다만 원발 병소에 대한 추가 치료는 비교적 다양하게 적용되고 있는데 이것이 치료 결과에 어떤 영향을 미치는지 추적조사연구가 필요하며 방사선치료 계획상의 세부 사항에 대한 분석과 평가가 향후 이루어져야 할 것이다.

소비자대함유한국전통시상설계원소적편복적소비행위지우생활방식적조절작용(消费者对含有韩国传统时尚设计元素的便服的消费行为之于生活方式的调节作用) (Moderating Effect of Lifestyle on Consumer Behavior of Loungewear with Korean Traditional Fashion Design Elements)

  • Ko, Eun-Ju;Lee, Jee-Hyun;Kim, Angella Ji-Young;Burns, Leslie Davis
    • 마케팅과학연구
    • /
    • 제20권1호
    • /
    • pp.15-26
    • /
    • 2010
  • 由于生产的全球化以及国家之间的文化交流, 东方元素越来越吸引世界的眼球. 在时装界, 一个时装设计师的文化背景往往可以催生新颖的设计理念, 使他卓尔不群. 人们对于东方元素的喜爱, 给传统时装市场带来了巨大的商机, 并且把基于文化的业务拓展到全球时装市场. 然而, 包含韩国传统文化的国际品牌还有待开发. 为了发展有韩国特色的国际品牌, 韩国人首先要在国内服装市场上认同本国文化, 然后才能进军国外市场. 便服非常适合采纳韩国元素, 因为这种衣服有很多用途, 很容易被广泛接受和使用. 而且, 多用途便服和时尚内衣的市场需求越来越大. 尽管便服市场在快速发展, 但是对便服的专门研究尚不多见, 目前在对发展中的现代化传统服装、时尚产品和品牌的研究中, 并不包括对便服的研究. 因此, 本论文调查了韩国的便服市场, 研究了消费者对含有韩国传统时装设计特色的便服的评价. 分析了对于韩国传统时装设计元素有购买意向的先例之间的关系, 并且比较了不同生活群体的消费目标. 产品质量, 零售服务质量, 感受价值以及对拥有韩国传统设计元素的便服的喜好被作为购买意向的先决条件. 同时, 本文设计了一个结构方程模型, 用于探讨它们之间的关系以及它们对购买意图的影响. 产品质量和市场营销中的零售服务质量结合在一起, 成为影响人们对韩国特色便服的偏好和价值感知的因素. 而且, 偏好和价值感知对购买意向的影响可以用同一模型来检验. 通过网上调查系统由女性消费者完成了一共357份的自填式问卷, 并制定了一份调查样本人群的生活方式、对于产品和销售服务的标准、对于韩国特色便服的价值感知、偏好以及购买意向的调查问卷. 此外, 问卷还将调查便服的采购和使用行为, 以便检验韩国便服的市场地位. 并且使用描述性分析, 因素分析, 聚类分析来分析数据, 以及使用AMOS 7.0.来进行方差分析和建立结构方程模型. 对于韩国便服市场地位的调查结果显示, 在我们的样本人群中大多数消费者都购买了便服. 便服在目前被认为是在家里穿的衣服, 是消费者比较而言投入较低的衣服. 在调查中显示, 大多数消费者每年仅仅购买2到3次便服, 花费在10美元以下. 购买便服的消费者们的生活方式共有四类: 传统价值导向的生活方式, 品牌影响的生活方式, 追求休闲的生活方式以及健康导向的生活方式, 这四类共计有12个项目. 基于这些生活方式要素, 便服消费者们又可以分为两类: 安乐派和保守派. 文章估量了对含有韩国传统时尚设计元素的便服的购买行为各组成部分之间的关系, 产品质量和零售服务质量都会影响到购买便服的偏好和价值感知. 这个研究结论证明, 高质量的产品和零售服务会对便服形成积极的优先效应. 价值感知和对便服的偏好会对购买意图产生积极的影响. 这个结果表明, 对便服所含有的韩国传统时尚设计因素的强烈偏好和价值感知能增强购买意图. 在两种不同生活方式的群体(即安乐派和保守派)的模型比较中, 结果显示产品质量和零售服务质量对安乐派群体的偏好和感知价值都有积极影响. 然而, 对保守派来说, 只有零售服务质量对偏好和购买意图有积极的影响. 由于安乐派对购买意图显示出更重大的影响, 包含韩国传统时尚设计因素的便服品牌应该关注安乐派的这些特征. 然而, 保守派对包含韩国传统时尚设计因素的便服在偏好和购买意图的关系中显得更强. 因此对包含韩国传统时尚设计因素的便服品牌来说, 它应该把重点放在如何激发保守群体消费者对便服的积极偏爱上. 这些结果提供了关于韩国便服消费者生活方式的信息, 也对那些计划进入韩国便服市场的时尚品牌, 尤其是那些与现行研究样本相似的, 目标为女性消费者的时尚品牌提供了有用的信息. 这一研究也为便服品牌和那些打算创造含有韩国传统时尚因素的高价值品牌提供了策略和市场洞察力. 考虑到不同生活方式群体的类型和便服或传统时尚商品之间的关系, 品牌设计者和市场策划人员可以运用这一研究成果作为市场定位, 目标设定, 以及市场销售策略的一个参考.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.