• 제목/요약/키워드: source text

검색결과 267건 처리시간 0.025초

Investigating Predictive Features for Authorship Verification of Arabic Tweets

  • Alqahtani, Fatimah;Dohler, Mischa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권6호
    • /
    • pp.115-126
    • /
    • 2022
  • The goal of this research is to look into different techniques to solve the problem of authorship verification for Arabic short writings. Despite the widespread usage of Twitter among Arabs, short text research has so far focused on authorship verification in languages other than Arabic, such as English, Spanish, and Greek. To the best of the researcher's knowledge, no study has looked into the task of verifying Arabic-language Twitter texts. The impact of Stylometric and TF-IDF features of very brief texts (Arabic Twitter postings) on user verification was explored in this study. In addition, an analytical analysis was done to see how meta-data from Twitter tweets, such as time and source, can help to verify users perform better. This research is significant on the subject of cyber security in Arabic countries.

Analysis of Impact Between Data Analysis Performance and Database

  • Kyoungju Min;Jeongyun Cho;Manho Jung;Hyangbae Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권3호
    • /
    • pp.244-251
    • /
    • 2023
  • Engineering or humanities data are stored in databases and are often used for search services. While the latest deep-learning technologies, such like BART and BERT, are utilized for data analysis, humanities data still rely on traditional databases. Representative analysis methods include n-gram and lexical statistical extraction. However, when using a database, performance limitation is often imposed on the result calculations. This study presents an experimental process using MariaDB on a PC, which is easily accessible in a laboratory, to analyze the impact of the database on data analysis performance. The findings highlight the fact that the database becomes a bottleneck when analyzing large-scale text data, particularly over hundreds of thousands of records. To address this issue, a method was proposed to provide real-time humanities data analysis web services by leveraging the open source database, with a focus on the Seungjeongwon-Ilgy, one of the largest datasets in the humanities fields.

가족 공동 관리형 사진 공유 모바일 앱 UI 개발 (A Co-family Managerial Photo Share Mobile App UI Development)

  • 정유미;최종훈
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.29-36
    • /
    • 2014
  • 최근 소규모화 된 가족 형태는 자녀의 사진을 가족들과 공유하는 행태에도 많은 영향을 미치고 있다. 주로 스마트폰을 이용하여 촬영하고, SNS나 문자 메시지를 통해 가족들 사이에 아이 사진을 공유하거나 모바일 커뮤니티 개념의 공간에 자녀 사진을 올려 공유하는 행태가 두드러지고 있다. 이렇듯 스마트폰을 이용한 사진 촬영과 공유가 급격히 늘어나고 있지만 문자 메시지나 SNS를 통해 사진을 주고받을 경우 백일이나 돌잔치처럼 가족 구성원들이 각각 사진을 찍는 이벤트 발생 시, 다양한 아이의 사진을 일일이 서로 전달하기가 어렵기 때문에 사진을 한데 모아서 보는 것이 어렵게 된다. 또한 출처가 제각각이므로 사진 관리가 어렵다는 문제점이 발생하게 된다. 본 연구에서는 이러한 문제점을 해결하고자 스마트폰을 이용하여 가족 구성원이 각각 찍은 사진들을 특정한 공간에 모아 간편하게 정리하고, 가족구성원이 직접 참여하여 모바일 앨범을 제작하는데 최적화된 UI를 제안하였다.

특허 문서 텍스트로부터의 기술 트렌드 탐지를 위한 언어 모델 및 단서 기반 기계학습 방법 (A Language Model and Clue based Machine Learning Method for Discovering Technology Trends from Patent Text)

  • 전영실;김영호;정윤재;류지희;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권5호
    • /
    • pp.420-429
    • /
    • 2009
  • 특허 문서는 과학기술 발전을 탐지하고 기존 트렌드를 이해함으로써 미래의 트렌드를 예측하는데 유용한 자원이다. 본 연구에서는 단위 기술을 "문제점"과 "해결방법"으로 구성되어 있다고 보고, 언어적 단서(linguistic clue)와 언어 모델(1anguage model)을 결합한 혼합 모델을 사용하여 이들에 해당하는 의미 핵심문구(semantic keyphrase)를 찾고, 의미 핵심문구로 표현되는 단위 기술을 추출하였다. 추출된 결과에 근거하여 비지도 학습(unsupervised learning) 방법으로 과학기술들의 트렌드를 발견하는 새로운 접근방법(Technological Trend Discovery, TTD)을 제안한다. 실험 결과에 따르면 본 연구에서 제안한 방법으로 과학 기술을 나타내는 의미적 핵심 문구를 추출하는데 77%의 R-정확률을 달성하였고 결과적으로 의미있는 과학기술 트렌드를 발견할 수 있었다.

PC-SAN: Pretraining-Based Contextual Self-Attention Model for Topic Essay Generation

  • Lin, Fuqiang;Ma, Xingkong;Chen, Yaofeng;Zhou, Jiajun;Liu, Bo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3168-3186
    • /
    • 2020
  • Automatic topic essay generation (TEG) is a controllable text generation task that aims to generate informative, diverse, and topic-consistent essays based on multiple topics. To make the generated essays of high quality, a reasonable method should consider both diversity and topic-consistency. Another essential issue is the intrinsic link of the topics, which contributes to making the essays closely surround the semantics of provided topics. However, it remains challenging for TEG to fill the semantic gap between source topic words and target output, and a more powerful model is needed to capture the semantics of given topics. To this end, we propose a pretraining-based contextual self-attention (PC-SAN) model that is built upon the seq2seq framework. For the encoder of our model, we employ a dynamic weight sum of layers from BERT to fully utilize the semantics of topics, which is of great help to fill the gap and improve the quality of the generated essays. In the decoding phase, we also transform the target-side contextual history information into the query layers to alleviate the lack of context in typical self-attention networks (SANs). Experimental results on large-scale paragraph-level Chinese corpora verify that our model is capable of generating diverse, topic-consistent text and essentially makes improvements as compare to strong baselines. Furthermore, extensive analysis validates the effectiveness of contextual embeddings from BERT and contextual history information in SANs.

모바일 기기와 가상 스토리지 기술을 적용한 자동적 및 편재적 음성형 지식 획득 (Mobile Device and Virtual Storage-Based Approach to Automatically and Pervasively Acquire Knowledge in Dialogues)

  • 유기동
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.1-17
    • /
    • 2012
  • 최근에 들어 많은 관심과 인기 속에 사용되고 있는 스마트폰은 클라우드 컴퓨팅의 편재적 기능성을 접목하여 즉각적인 지식의 획득에 효과적으로 활용될 수 있다. 또한 지식의 주제어 또는 명칭을 자동으로 파악하여 해당 지식을 저장할 수 있다면 전반적인 지식 획득 과정이 자동화될 수 있다. 본 논문은 텍스트마이닝 기반 주제어 추출 기술과 클라우드 스토리지 기반 스마트폰을 접목하여 지식이 발생되는 지점 및 시점에 즉각적으로 해당 지식을 획득할 수 있는 학제적 방안을 제시한다. 이를 위해 스마트폰은 지식이 포함된, 지식소유자의 대화를 녹음하는 역할을 함과 동시에 지식소유자의 대화의 내용을 부가적으로 특성화 할 수 있는 상황정보를 채취할 수 있는 센서의 역할을 수행한다. 또한 기계학습 알고리듬 중 텍스트마이닝분야에서 우수한 성능을 나타내는 것으로 알려진 Support Vector Machine 알고리듬을 사용하여 해당 대화의 주제어를 추출한다. 파악된 주제어와 상황정보를 연관시켜 일종의 비즈니스 규칙을 생성할 수 있으며, 최종적으로 규칙, 주제어, 상황정보, 그리고 문서화된 대화를 종합하여 하나의 지식을 자동으로 획득할 수 있다.

뉴스와 소셜 데이터를 활용한 텍스트 기반 가짜 뉴스 탐지 방법론 (Text Mining-based Fake News Detection Using News And Social Media Data)

  • 현윤진;김남규
    • 한국전자거래학회지
    • /
    • 제23권4호
    • /
    • pp.19-39
    • /
    • 2018
  • 최근 가짜 뉴스가 분야를 막론하고 전 세계에서 주목을 받고 있으며, 현대경제연구원에서는 이러한 가짜 뉴스로 인한 피해 규모가 연간 약 30조 900억원에 달하는 것으로 추산하였다. 정부에서는 "가짜 뉴스 찾기"를 주제로 "인공지능 R&D 챌린지" 대회를 개최하여 가짜 뉴스를 가려낼 인공지능 원천기술 개발에 대한 첫 걸음을 내딛고 있으며, 민간 차원에서도 다양한 분야에서 팩트 체크 서비스가 제공되고 있다. 학계에서도 가짜 뉴스를 탐지하기 위한 시도가 전문가 기반, 집단지성 기반, 인공지능 기반, 시맨틱 기반 등으로 활발하게 이루어지고 있다. 하지만 이러한 시도는 조작의 정밀도가 높을수록 뉴스 자체에 대한 분석만으로 진위 여부를 식별하기가 더욱 어렵다는 한계를 경험하고 있으며, 가짜 뉴스 탐지 모델의 정확도가 과평가된 경향을 보이고 있다. 따라서 본 연구에서는 가짜 뉴스 탐지 모델 정확도의 공정성을 확보하고, 뉴스의 내용뿐만 아니라 해당 뉴스에 대한 반응으로 자연적으로 발생한 광범위한 소셜 데이터를 활용하여 뉴스의 진위 여부를 판정하는 방안을 제안하고자 한다.

뉴스 데이터 마이닝을 통한 배달 플랫폼 참여자의 사회적 이슈 분석 (Exploring Social Issues of On-demand Delivery Platform Participants)

  • 박수경;이현준;이봉규
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.79-85
    • /
    • 2021
  • 코로나19 이후 배달 플랫폼에 참여하는 개인이 증가하고 있다. 이러한 현상은 좀 더 나은 미래 설계를 위하여 한 개 이상의 소득원을 확보한다는 엔(n)잡러 세태와 맞물려, 더욱 관심이 고조되고 있다. 그러나 아직 해당 현상에 관한 학술적 논의는 매우 부족하다. 이에, 본 연구는 코로나 19가 시작된 2019년 1월부터 현시점까지의 기간을 연구대상으로, 관련 뉴스 데이터에 대한 텍스트 마이닝을 통한 사회적 논의주제를 발굴하고자 하였다. 결과는 현상에 대한 소개, 참여자 속성에 대한 논의, 그들의 수익에 관한 관심, 좋은 일자리인지에 대한 담론, 그리고 그들을 둘러싼 우려라는 주제로 함축·제시하였다. 본 연구는 배달 플랫폼 비즈니스와 관련된 논의의 관점을 개인 참여자로 확대하여 현상을 체계적으로 조망하였다는데 의의가 존재한다. 본 연구를 기반으로, 향후 감성분석 결합을 통하여 특정 주제에 관한 긍정·부정 감성조망 등 해당 현상을 둘러싼 더욱 세밀한 사회적 담론 분석이 형성되길 기대한다.

데이터마이닝과 학습기법을 이용한 부동산가격지수 예측 (Prediction of Housing Price Index using Data Mining and Learning Techniques)

  • 이지영;유재필
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.47-53
    • /
    • 2021
  • 4차 산업에 대한 관심이 증폭되면서 데이터를 활용한 과학적 방법론이 발전하고 있지만 부동산 분야에 대한 연구는 데이터 수집의 한계점을 내포하고 있다. 더불어 일반 시장 참여자들의 지식이 확장되면서 정성적인 심리가 부동산 시장에 미치는 영향이 커지고 있다. 때문에 본 연구에서는 기존의 원천 데이터가 아닌 심리적 부분을 반영한 정량 데이터를 텍스트마이닝과 k-meas 알고리즘을 통해 수집하는 방안을 제안하고 수집된 데이터를 바탕으로 인공신경망 학습을 통해 주택 지수의 방향성을 예측하고자 한다. 2012년부터 2019년까지의 데이터를 학습 기간으로 하고 2020년도를 예측 기간으로 설정하여 실험을 진행한 결과, 두 가지 CASE에서 예측 능력이 약 80% 이상으로 우수하였고 주택지수의 상승 구간에서의 예측 강도 또한 우수한 결과를 보였다. 본 연구를 통해서 의사결정에 있어서 부동산 시장 참여자들에게 인공신경망과 같은 과학적 방식의 활용도 증가 및 고전적 방식에서 벗어난 원천 데이터의 대체 데이터 확보 등에 대한 노력이 증진되기를 기대한다.

네이버 영화 리뷰 데이터를 이용한 의미 분석(semantic analysis) (Semantic analysis via application of deep learning using Naver movie review data)

  • 김소진;송종우
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.19-33
    • /
    • 2022
  • SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.