• 제목/요약/키워드: News contents analysis

검색결과 246건 처리시간 0.02초

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

기업의 빅데이터 투자가 기업가치에 미치는 영향 연구 (The effect of Big-data investment on the Market value of Firm)

  • 권영진;정우진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.99-122
    • /
    • 2019
  • IDC(International Data Corporation) 사(社)의 최근 보고서에 따르면, 2025년에는 2016년에 생성된 데이터의 10배에 달하는 163제타바이트의 데이터가 생성될 것이고 그 주체의 비중은 소비자에서 기업으로 이동하고 있다고 한다. 이러한 소위 '빅데이터의 물결'은 도래하고 있고 그 파장은 산업 전반적으로 영향을 미칠 것이다. 따라서, 방대한 데이터를 효과적으로 관리하는 것은 기업의 관점에서 그 어느 때보다 더 중요하다. 하지만, IT 투자에 대한 효과를 측정한 선행 연구는 다수 존재함에도 불구하고 빅데이터 투자 효과를 측정한 선행 연구는 거의 전무한 실정이다. 따라서, 해당 투자 효과를 정량적으로 분석한다면 기업의 의사 결정을 도울 수 있을 것이다. 본 연구는 효율적 시장 가설을 이론적 바탕으로 둔 사건연구방법론(Event Study Methodology)을 적용하여, 기업의 빅데이터 투자가 시장 투자자들의 반응에 미치는 영향을 측정하였다. 또한, 보다 심층적으로 이 효과를 분석하기 위해서 5가지 하위 변수를 설정했고 그 내용은 기업 크기 구분, 산업 구분(Finance와 ICT), 투자 구축 완료 구분, 벤더 유무 구분이다. 분석 결과, 91개 기업은 빅데이터 투자 공시 이후 시장 가치가 평균 0.92% 상승한다는 사실을 확인하였다. 특히 Finance 기업, non-ICT 기업, 시가 총액이 작은 기업, 빅데이터 전문 벤더 기업을 통해 투자한 기업, 그리고 빅데이터 시스템이 구축 완료됐다는 공시에 해당하는 기업의 시장 가치가 두드러지게 상승한다는 사실을 알 수 있었다. 본 연구는 빅데이터 투자 효과를 측정한 선행 연구가 거의 전무하다는 점에서 학문적인 의의를 지니고, 빅데이터 투자를 고려 중인 기업 의사 결정자들에게 실질적인 참고 자료가 될 수 있다는 점에서 실무적인 시사점을 갖는다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

대중음악 흥행 요인에 대한 연구: 인터넷 밈(Internet Meme)의 매개효과를 중심으로 (Success Factor in the K-Pop Music Industry: focusing on the mediated effect of Internet Memes)

  • 심유정;신민수
    • 서비스연구
    • /
    • 제13권1호
    • /
    • pp.48-62
    • /
    • 2023
  • 최근 K-POP 열풍에서 볼 수 있듯이 한국 음악 산업의 규모와 영향력은 더욱더 커지고 있다. 한국의 음원 시장에는 1년에 최소 6천 개의 음원이 공개되고 있지만 흥행했다고 말할 수 있는 음원은 많지 않다. 이에 흥행작을 만드는 요인이 무엇인지 밝히기 위한 많은 연구 및 시도가 이루어지고 있다. 음악의 상업적인 성공에는 음악의 질뿐만 아니라 미디어 노출이나 홍보와 같은 상업적인 요소 또한 중요한 역할을 담당한다. 최근 대중음악 산업에서는 인터넷 밈을 활용한 마케팅이 많이 나타나는데, 인터넷 밈이란 사람들 사이에서 확산되는 문화적 단위로 이미지나 동영상 등 다양한 형태로 확산되는 활동이나 트렌드라고 할 수 있다. 인터넷 환경과 디지털 커뮤니케이션 특성에 따라 다양한 밈의 형태로 콘텐츠들이 확대 재생산되고 있으며, 이는 소비자들에게 더 큰 반응을 일으킨다. 기존에 인터넷 밈현상은 자연적으로 발생해왔으나, 최근 마케팅 효과를 인지한 아티스트 측에서 마케팅의 요소로 활용하고 있다. 본 논문에서는 대중음악의 흥행 요인과 흥행의 관계에서 인터넷 밈의 매개효과를 분석하고, 이를 반영한 예측모델을 제안하였다. 분석 결과, '커버효과'와 '챌린지효과'의 매개효과가 있는 요인은 동일하게 나타났다. 내부 흥행요인 중에서는 '가수의 인지도', 'POP, 댄스, 발라드, 성인가요, 일렉트로니카' 장르에서 매개효과가 존재하였으며, 외부 흥행 요인 중에서는 '기획사 역량','음악 방송 프로그램 출연 횟수', '뉴스 기사 수'에서 매개효과가 나타났다. 커버효과와 챌린지효과를 반영한 예측 모형은 각각 F1-score가 0.6889, 0.7692로 나타났다. 본 연구는 실제 차트 데이터를 수집·분석하여 실무적으로 활용 가능한 상업적인 방향성을 제시하였으며, 대중음악의 여러 흥행 요인과 인터넷 밈의 매개효과가 존재한다는 것을 발견하였다는 점에서 의의를 갖는다.

인터넷 사이트를 통해 살펴본 의료사고 및 의료분쟁의 현황에 관한 분석 (The Analysis of the Current Status of Medical Accidents and Disputes Researched in the Korean Web Sites)

  • 차유림;권정승;최종훈;김종열
    • Journal of Oral Medicine and Pain
    • /
    • 제31권4호
    • /
    • pp.297-316
    • /
    • 2006
  • 의료분쟁 증가는 하나의 사회현상으로 특히, 인터넷을 통한 의료사고와 관련된 정보의 생산과 유통이 급속도로 증가되고 있는 현상을 간과해서는 안 된다. 본 연구는 2006년 3월 기준으로 인터넷 야후 포털 사이트에서 '의료사고'를 검색어로 하여 검색된 의료사고 관련 정보를 제공하는 웹사이트 28개를 사이트 개설자별로 분류하고 사이트 구성내용을 분석하여 의료사고 관련 사이트들의 현황과 개선되어야 할 문제점들을 비교 점검한 후 올바른 의료분쟁 해결을 위한 발전 방향을 모색하는 것을 연구목적으로 하여 분류항목별 전체 개수에 대한 비율을 조사한 결과 다음과 같은 결과를 얻었다. 1. 용어의 선호도에서 의료인, 일반인, 법조인 모두 '의료사고'라는 용어에 가장 익숙하거나 이를 선호하는 것으로 나타났다. 2. '의료사고' 검색어로 검색된 개설자별 사이트 개수를 비교한 결과 28개 사이트 중 의료인 4개, 일반인 7개, 법조인 17개였다. 의료인 중 치과의사가 개설한 사이트는 단지 1개였다. 3. 진료기록부 분석원을 따로 둔 일반인과 법조인 개설 사이트의 비율은 높았으며 치과관련 부분은 전무하였다. 4. 일반인은 의료사고 예방법에, 법조인은 의료사고 발생 이후 처리 과정에 주된 관심을 갖고 있는 것으로 보였으며, 이에 반해 의료사고 대책에 관해서 의료인 개설 사이트는 비중이 적은 것을 관찰할 수 있었다. 5. 일반인은 의료사고 발생시 대책으로 정부가 주도하는 공정한 제3자의 개입을 희망하는 것으로 조사되었다. 6. 개설자별 비교에서 의료인 개설 사이트는 의료사고에 대한 실례를 다른 개설 사이트에 비해 적게 다루는 것으로 나타났다. 7. 의료사고 상담글에서 치과 관련 내용이 많은 것에 비해 실제 판례 소개는 미미한 것으로 나타났다. 8. 국내 치과 판례 중 관혈적인 치과 치료에 대한 판례글이 많았던 반면 국내 공개 상담글은 비보험관련 치과 치료에 대한 상담글이 많았다. 9. 개설자별 의료사고 관련 정보 제공 게시판 글의 비교에서 일반인은 관련 용어, 의료인은 관련 의학지식, 법조인은 관련 법률에 대한 내용이 많았다. 10. 의료인, 일반인, 법조인 개설 사이트 모두 국내 의료사고 현황을 제공하는 형태로 언론보도 자료를 주로 사용하였으며, 일반인 개설 사이트 중 특히, 시민단체에서는 의료사고 관련 통계자료를 비중있게 다루고 있었다. 11. 적기는 하지만 의료사고 관련 사건을 수집하는 배너가 존재하는 사이트도 있었다. 이상의 결과를 볼 때 범람하는 정보들 속에서 제3자의 그릇된 정보로 의료분쟁 발생률이 증가될 소지가 크지만 의료인은 의료사고에 대해 가장 소극적인 것으로 나타나 이에 대해 향후 법조인-의료인, 환자-의료인, 일반인-의료인간의 상호대화와 정보교류를 통한 올바른 이해를 바탕으로 의료분쟁을 보다 적극적이고 능동적으로 조정, 해결하려는 노력을 보여야 할 것으로 사료된다.