• 제목/요약/키워드: Topic Extraction

검색결과 123건 처리시간 0.025초

Detection of Depression Trends in Literary Cyber Writers Using Sentiment Analysis and Machine Learning

  • Faiza Nasir;Haseeb Ahmad;CM Nadeem Faisal;Qaisar Abbas;Mubarak Albathan;Ayyaz Hussain
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.67-80
    • /
    • 2023
  • Rice is an important food crop for most of the population in Nowadays, psychologists consider social media an important tool to examine mental disorders. Among these disorders, depression is one of the most common yet least cured disease Since abundant of writers having extensive followers express their feelings on social media and depression is significantly increasing, thus, exploring the literary text shared on social media may provide multidimensional features of depressive behaviors: (1) Background: Several studies observed that depressive data contains certain language styles and self-expressing pronouns, but current study provides the evidence that posts appearing with self-expressing pronouns and depressive language styles contain high emotional temperatures. Therefore, the main objective of this study is to examine the literary cyber writers' posts for discovering the symptomatic signs of depression. For this purpose, our research emphases on extracting the data from writers' public social media pages, blogs, and communities; (3) Results: To examine the emotional temperatures and sentences usage between depressive and not depressive groups, we employed the SentiStrength algorithm as a psycholinguistic method, TF-IDF and N-Gram for ranked phrases extraction, and Latent Dirichlet Allocation for topic modelling of the extracted phrases. The results unearth the strong connection between depression and negative emotional temperatures in writer's posts. Moreover, we used Naïve Bayes, Support Vector Machines, Random Forest, and Decision Tree algorithms to validate the classification of depressive and not depressive in terms of sentences, phrases and topics. The results reveal that comparing with others, Support Vectors Machines algorithm validates the classification while attaining highest 79% f-score; (4) Conclusions: Experimental results show that the proposed system outperformed for detection of depression trends in literary cyber writers using sentiment analysis.

Clinical-pathologic profile of head and neck rhabdomyosarcoma in children: a systematic review

  • Ludimila Lemes Moura;Beatriz Della Terra Mouco Garrido;Nelson Leonel Del Hierro Polanco;Mattheus Augusto Siscotto Tobias;Viviane da Silva Siqueira;Cassia Maria Fischer Rubira;Paulo Sergio da Silva Santos
    • Journal of the Korean Association of Oral and Maxillofacial Surgeons
    • /
    • 제49권2호
    • /
    • pp.61-67
    • /
    • 2023
  • This systematic review aimed to analyze the clinicopathological profile and relevant prognostic factors of head and neck rhabdomyosarcoma in pediatric patients. The search was carried out in the electronic search portals PubMed, Lilacs, Embase, Scopus, and Web of Science. The search yielded studies that were then analyzed regarding study topic, data extraction, and risk of bias using the STROBE (Strengthening the Reporting of Observational Studies) guidelines. Finally, three studies were included for qualitative analysis. Most of the cases involved embryonic and alveolar rhabdomyosarcoma. Expression of MYOD1 was highly correlated with diagnosis of spindle cell/sclerosing rhabdomyosarcoma, which appears to have a poor prognosis in children. Furthermore, tumor size <5 cm and absence of metastasis accompanied by complete resection and administration of adjuvant therapies such as chemotherapy and radiotherapy favored a better prognosis.

항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for the Aviation Industry)

  • 김현정;조남옥;신경식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.65-82
    • /
    • 2015
  • 최근 경제적 사회적 부가가치를 창출할 수 있는 유망분야를 선정하여 국가 전략 및 정책 수립 시 반영하기 위해 미래 핵심 이슈를 발견하고 트렌드를 분석하는 것에 대한 관심이 급증하고 있다. 기존에는 미래의 핵심 기술이나 이슈를 발견하고 트렌드 분석을 통해 미래유망분야를 선정하는 연구를 위해 문헌 조사 또는 전문가 평가와 같은 정성적 연구방법이 사용되어 왔다. 그러나 이 연구방법은 대량의 정보로부터 결과를 도출하는데 많은 시간과 비용이 소요될 뿐만 아니라 전문가의 주관적인 가치가 반영될 가능성이 존재한다. 이와 같은 한계점을 보완하고자 최근 국토교통, 안전, 정보통신기술 등 다양한 분야에서 미래유망분야를 선정하기 위하여 정성적 연구방법에 텍스트 마이닝과 같은 정량적 연구방법을 상호 보완적으로 활용하는 방식으로 트렌드 분석을 수행하는 연구 방법론의 패러다임 변화가 시도되고 있다. 본 연구는 항공산업 전반적인 분야에 빅데이터 분석 방법인 텍스트 마이닝 기법을 적용하여 항공 분야의 연구동향을 파악하고 미래유망분야를 전망하였다. 텍스트 마이닝 기법 중하나인 토픽 분석을 이용하여 항공산업 전반적인 분야의 문서 집합 내 잠재된 토픽을 추출하고, 연도별로 핵심 토픽의 추이를 분석하였다. 분석 결과 항공산업의 미래유망분야로 항공안전정책, 항공운임(저가항공), 그리고 친환경 고연비 연료가 도출되었다. 본 연구결과는 분석 대상을 논문에 한정하여 수행하였다는 한계점이 존재하나, 항공산업 분야의 핵심 이슈를 도출하기 위하여 텍스트 마이닝 기반의 트렌드 분석에 대한 활용가능성을 제시하고, 미래유망분야를 선정하기 위한 정량적인 분석 방법론의 전형을 마련하였다는 점에서 의의가 있다.

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

소셜 분석을 통한 사전제작 드라마의 가능성과 한계에 관한 연구 -jtbc <맨투맨>을 중심으로- (A Study on the Potential and Limitation of Pre-producing Dramas through Social Analysis -focusing on a jtbc drama -)

  • 김경애;구진희
    • 한국산학기술학회논문지
    • /
    • 제19권2호
    • /
    • pp.164-172
    • /
    • 2018
  • 본 논문은 드라마 사전제작과 스토리텔링의 관련성을 소셜 분석을 통해 살펴보고, 드라마의 스토리텔링이 어떤 점에 주안점을 두고 구조화되어야 할지를 jtbc의 <맨투맨>을 중심으로 살폈다. 사전제작 드라마에 대한 시청자들의 생각을 읽어내기 위해 뉴스를 배제하고 한 가지 주제에 집중하여 글을 올리는 블로그를 대상으로 하였으며, 사전제작과 드라마라는 단어를 포함한 2016. 12. 15~2017. 12. 15 사이의 블로그 67개를 선정하여 텍스트 마이닝을 수행하였다. 또한 사전제작 드라마이면서 작품의 스토리텔링에 문제를 지닌 것으로 판단되는 드라마 <맨투맨>에 대한 감성분석을 수행하였다. 블로그 텍스트 추출과 텍스트 마이닝은 OutWit Hub와 R을 이용하여 분석하였고, 좀 더 방대한 데이터를 대상으로 감성 분석을 하기 위해 소셜 메트릭스에서 제공하는 도구를 활용하였다. 감성분석 결과, <맨투맨>에서 시청자들은 김설우와 차도하의 로맨스에 공감하지 못했고 그것이 여성인물의 개연성 부족에서 비롯되었다는 해석이 도출되었다. 따라서 드라마의 성패는 사전제작 여부에 달려있는 것이라기보다 기획부터 제작에 이르는 스토리텔링의 과정이 얼마나 치밀하고 시청자의 공감을 얻도록 구조화되어 있느냐에 달려있다는 결론을 얻었다. 이러한 연구는 디지털 중심 스토리텔링 연구의 기반을 조성하고 문화 콘텐츠 산업의 전망과 이에 대한 교육을 수행하는 데 중요한 자료가 될 수 있으므로 앞으로도 지속적인 연구가 필요할 것이다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

클릭 구조를 이용한 지문 인식 알고리즘 (Fingerprint Recognition Algorithm using Clique)

  • 안도성;김학일
    • 전자공학회논문지S
    • /
    • 제36S권2호
    • /
    • pp.69-80
    • /
    • 1999
  • 정보화 시대에 있어 개인 인증 기술에 대한 요구는 날로 증가되고 있으며 그 중에서도 지문 인식 기술은 정확도, 수행 속도, 구현 비용 등 모든 평가 항목에 있어 가장 현실성 있는 수단으로 주목 받고 있다. 본 논문에서는 전산 환경에 적합하도록 무 잉크 방식의 압착 날인을 통하여 획득된 지문 영상을 이용한 온라인 지문 인식 시스템의 설계와 구현을 목표로 한다. 지문 인식은 크게 두 가지 과정으로 이루어 지며 이를 특징점 추출과 특징점 정합이라 한다. 본 논문에서는 이러한 과정 중에서 특징점 정합의 정합의 성능과 속도의 개선을 위한 새로운 알고리즘을 제안 한다. 특징점 정합 과정은 다시 정렬 기준점 선정 과정과 정렬 후 대응점 확인과정이 있으며 정렬 과정의 최적화 여부가 전체 수행 속도에 미치는 영향이 가장 크게 된다. 제안된 정렬 기준점 선정 알고리즘은 탐색 공간의 최소화와 등록 지문과 입력 지문간의 비선형 왜곡에도 강인함을 보였다. 전체 시스템의 성능 검증을 위하여 체계적인 샘플링을 통하여 채취된 데이터 베이스을 이용하였다. 팬티엄시스템에서 평균 정합 속도 1.55초를 기록하였으며, 0.05%의 FAR(False Acceptance Rate)에서 8.83%의 FRR(False Rejection Rate)의 오 인식율을 얻을 수 있었다.

  • PDF

국내 핀테크 동향 및 모바일 결제 서비스 분석: 텍스트 마이닝 기법 활용 (Fintech Trends and Mobile Payment Service Anlaysis in Korea: Application of Text Mining Techniques)

  • 안정국;이소현;안은희;김희웅
    • 정보화정책
    • /
    • 제23권3호
    • /
    • pp.26-42
    • /
    • 2016
  • 최근 O2O 시장의 급성장과 더불어 금융과 ICT 기술이 융합된 핀테크가 "금융의 O2O"화를 이끌 혁신으로 주목 받고 있으며, 핀테크 기반의 결제, 인증, 보안 기술 및 관련 서비스가 주목 받고 있다. 핀테크와 같은 신기술 산업에는 기술적인 원천과 더불어 관련 제도 및 규제가 중요한데, 아직은 국내 핀테크 산업의 제도와 기술동향에 관한 심층적인 연구가 부족한 실정이다. 따라서 본 연구에서는 국내 핀테크 동향을 분석하고, 더 나아가 국내 대표적 모바일 결제서비스인 카카오페이와 삼성페이를 비교하여, 향후 국내 핀테크 산업의 기술과 제도의 방향성에 대한 시사점을 찾고자 한다. 본 연구는 핀테크가 언급된 트윗들을 2014년 8월부터 2016년 6월까지 전수 조사하여, 토픽 추출, 감성 분석, 키워드 네트워크 분석들을 시각화 하였다. 분석한 결과, 2014년에서 2016년 사이에 기술과 제도에서 다양한 주제들이 생성되어 왔음을 확인할 수 있었으며, 카카오톡과 같은 "서비스" 기반의 카카오페이와 갤럭시와 같은 "기기" 기반의 삼성페이의 토픽들 간에도 서로 다른 키워드들과 반응들이 추출되었다. 본 연구는 소셜미디어 마이닝을 이용하여 소셜미디어의 비정형 데이터를 기간 별로 분석하고, 감성분석을 통해 서비스에 대한 소비자들의 기대와 반응을 정량화한 것에 의의가 있다. 이를 통하여 핀테크 관련 실무자들에게 전략적 방향을 제시함으로써 핀테크 산업발전의 기반이 될 수 있을 것으로 기대한다.