• 제목/요약/키워드: textual analysis

검색결과 203건 처리시간 0.033초

소설 등장인물의 텍스트 거리를 이용한 사회 구성망 분석 (Analysis of Social Network According to The Distance of Characters Statements)

  • 박경미;김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제13권4호
    • /
    • pp.427-439
    • /
    • 2013
  • 복잡계 과학의 발달에 따라 많은 사회 네트워크들이 분석되고 있다. 사회 네트워크는 현재 인문, 경제, 웹 사이언스 등 다양한 분야에 응용되고 있다. 최근, 소설의 등장인물을 이용한 네트워크와 실제 사회 네트워크의 특성을 비교하는 다양한 연구가 진행되고 있다. 그러나 기존의 등장인물 네트워크는 대부분 미리 정리된 인명사전을 이용하므로 주요한 몇몇 인물들 사이의 연관성은 밝힐 수 있으나, 한번 이상 등장한 모든 인물의 전체적인 사회적 구조는 설명하지 못하고 있다. 본 연구에서는 소설로부터 등장인물을 직접 추출하고, 등장인물 사이의 거리를 사용하여 상관관계를 설정하여 네트워크를 구축한다. 제안방법은 소설 텍스트로부터 등장인물의 출현빈도와 등장인물들 사이의 연관성의 발생 빈도를 이용하여 연관성 가중치를 구할 수 있으며, 이 연관성 가중치를 사용하여 노드의 수를 조절하여 K-critical 네트워크를 구성한다. 제시한 K-critical 네트워크는 분석대상 소설에 등장하는 인물들끼리 얼마나 긴밀하게 연관되어 있는지를 정량적으로 파악하는 매우 중요한 정보를 줄 수 있음을 실험을 통하여 제시할 수 있었다.

An XPDL-Based Workflow Control-Structure and Data-Sequence Analyzer

  • Kim, Kwanghoon Pio
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1702-1721
    • /
    • 2019
  • A workflow process (or business process) management system helps to define, execute, monitor and manage workflow models deployed on a workflow-supported enterprise, and the system is compartmentalized into a modeling subsystem and an enacting subsystem, in general. The modeling subsystem's functionality is to discover and analyze workflow models via a theoretical modeling methodology like ICN, to graphically define them via a graphical representation notation like BPMN, and to systematically deploy those graphically defined models onto the enacting subsystem by transforming into their textual models represented by a standardized workflow process definition language like XPDL. Before deploying those defined workflow models, it is very important to inspect its syntactical correctness as well as its structural properness to minimize the loss of effectiveness and the depreciation of efficiency in managing the corresponding workflow models. In this paper, we are particularly interested in verifying very large-scale and massively parallel workflow models, and so we need a sophisticated analyzer to automatically analyze those specialized and complex styles of workflow models. One of the sophisticated analyzers devised in this paper is able to analyze not only the structural complexity but also the data-sequence complexity, especially. The structural complexity is based upon combinational usages of those control-structure constructs such as subprocesses, exclusive-OR, parallel-AND and iterative-LOOP primitives with preserving matched pairing and proper nesting properties, whereas the data-sequence complexity is based upon combinational usages of those relevant data repositories such as data definition sequences and data use sequences. Through the devised and implemented analyzer in this paper, we are able eventually to achieve the systematic verifications of the syntactical correctness as well as the effective validation of the structural properness on those complicate and large-scale styles of workflow models. As an experimental study, we apply the implemented analyzer to an exemplary large-scale and massively parallel workflow process model, the Large Bank Transaction Workflow Process Model, and show the structural complexity analysis results via a series of operational screens captured from the implemented analyzer.

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

Analysis of Forwarding Schemes to Mitigate Data Broadcast Storm in Connected Vehicles over VNDN

  • Hur, Daewon;Lim, Huhnkuk
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.69-75
    • /
    • 2021
  • 차량 통신 코어 네트워크 기술로 TCP/IP의 한계는 차량의 잦은 이동성, 간헐적 통신 연결 요구의 증가, 차량 해킹 가능성의 상시적 존재에 기인한다. VNDN 기술은 IP/ID와 같은 차량 식별자 없이도 컨텐트 이름 정보를 이용해 찾고자 하는 컨텐트 전송을 가능하게 한다. 또한 단대단 연결 통신이 아닌 간헐적 연결 기반 통신이 가능하며 Interest 패킷과 Data 패킷 두 종류의 패킷을 이용해 컨텐트 이름 기반의 포워딩에 기반하여 데이터 자체가 통신의 주체가 되어 네트워킹의 실현이 가능하다. VNDN 환경하에서 인포테인먼트 서비스 실현을 위해 해결해야 할 이슈 중 하나는 데이터 브로드캐스트에 기인한 데이터 트래픽 폭증 현상이다. 본 논문에서는 이러한 데이터 브로드캐스트 폭증 현상을 경감시켜 주기 위한 기존 포워딩 기법들을 분석하고 비교한다. 이를 통해 VNDN 환경하에서 데이터 폭증 현상 해결을 위한 최선의 데이터 경감 기법 제시를 위한 요구사항을 도출하여 분석한다. 이를 기반으로 향후 컨넥티드 차량을 위한 VNDN 에서 데이터 브로드캐스트 폭증을 해결하기 위한 보다 향상된 포워딩 기법 연구를 위한 사전 지식으로 활용되어질 수 있기를 기대한다.

Digital Marketing Tools for Managing the Development of Park and Recreation Complexes

  • Chaikovska, Maryna;Mashika, Hanna;Mankovska, Ruslana;Liulchak, Zoreslava;Haida, Pavlo;Diakova, Yana
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.154-162
    • /
    • 2022
  • Digital marketing tools are actively used in managing the development of park and recreation complexes to familiarize the population with the objects of natural heritage. This article aims to empirically evaluate digital marketing tools for popularizing the park and recreational complexes. The methodology was based on the concept of ecosystem value of park and recreation complexes as a natural heritage site. These methods included: identifying and selecting websites with information about park and recreation complexes in Slovakia and Ukraine. structural analysis of the main channels of online details about natural parks. Assessing the current state of online identity of the studied sites from the perspective of Internet users. The results indicate that to manage the development of park and recreational complexes developed their driven official websites in the Internet space, on which sections structure the information with the allocation of data on tourism and recreational potential. The article identifies additional digital marketing tools for managing the development of park and recreation complexes, particularly social networks and tourist websites. There is a sufficient amount of information about tourist recreation sites within these natural parks and tourist routes. Among the main problems of the websites: the information on the websites is entirely textual, there is a lack of sufficient data on social networks, despite the created official pages, there is no video content, which was more attracted tourists and visitors, allowing a visual assessment of the tourist potential; there is a problem of many communication channels to present the natural heritage of the countries. The research proves that the website is the primary and most common digital marketing tool for natural heritage, structuring information about tourism potential and recreation.

한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석 (Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations)

  • 유영현;이규민;전민진;차지이;김강산;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

English Predicate Inversion: Towards Data-driven Learning

  • Kim, Jong-Bok;Kim, Jin-Young
    • 영어영문학
    • /
    • 제56권6호
    • /
    • pp.1047-1065
    • /
    • 2010
  • English inversion constructions are not only hard for non-native speakers to learn but also difficult to teach mainly because of their intriguing grammatical and discourse properties. This paper addresses grammatical issues in learning or teaching the so-called 'predicate inversion (PI)' construction (e.g., Equally important in terms of forest depletion is the continuous logging of the forests). In particular, we chart the grammatical (distributional, syntactic, semantic, pragmatic) properties of the PI construction, and argue for adata-driven teaching for English grammar. To depart from the arm-chaired style of grammar teaching (relying on author-made simple sentences), our teaching method introduces a datadriven teaching. With total 25 university students in a grammar-related class, students together have analyzed the British Component of the International Corpus of English (ICE-GB), containing about one million words distributed across a variety of textual categories. We have identified total 290 PI sentences (206 from spoken and 87 from written texts). The preposed syntactic categories of the PI involve five main types: AdvP, PP, VP(ed/ing), NP, AP, and so, all of which function as the complement of the copula. In terms of discourse, we have observed, supporting Birner and Ward's (1998) observation that these preposed phrases represent more familiar information than the postposed subject. The corpus examples gave us the three possible types: The preposed element is discourse-old whereas the postposed one is discourse-new as in Putting wire mesh over a few bricks is a good idea. Both preposed and postposed elements can also be discourse new as in But a fly in the ointment is inflation. These two elements can also be discourse old as in Racing with him on the near-side is Rinus. The dominant occurrence of the PI in the spoken texts also supports the view that the balance (or scene-setting) in information structure is the main trigger for the use of the PI construction. After being exposed to the real data and in-depth syntactic as well as informationstructure analysis of the PI construction, it is proved that the class students have had a farmore clear understanding of the construction in question and have realized that grammar does not mean to live on by itself but tightly interacts with other important grammatical components such as information structure. The study directs us toward both a datadriven and interactive grammar teaching.

역사적 소통 공간으로써 미디어 재현의 가능성과 한계 -2000년대 한국 영화 속 광주 민주화 운동을 중심으로- (Possibilities and Limitations of Media Representation as the Historical Communication -Focusing on Korea Films of Gwangju Democratization Movement in 2000s-)

  • 김미선;김유례
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.157-169
    • /
    • 2015
  • 본 연구는 역사적 소통 공간으로써 역사 영화에 주목하여 광주 민주화 운동을 주요 주제로 다룬 2000년대 영화 <오래된 정원>, <화려한 휴가>, <26년> 세 편을 중심으로 미디어가 재현하는 역사적 담론이 무엇인지 서사분석을 실시하였다. 분석결과, 스토리의 통합체 분석은 '균형-불균형-균형'의 시퀀스를 공통적으로 나타내면서 사회적 불균형을 개인과 가족이라는 개인적 측면으로 안정화 하여 사회구조적 문제를 감추는 정치성을 파악할 수 있었다. 또한 인물 관계의 계열체 분석은 여성 주인공의 적극적인 현실 참여 전략, 극중 살아남은 자들을 통한 역사의 연속성 강조 전략 등을 통해 광주 민주화 운동의 역사적 진실과 의미를 공론화시키는 것을 발견할 수 있었다. 결국 광주 민주화 운동의 재현은 사회구조적 문제의 해결 부재나 러브 스토리 배치를 통해 역사적 의미의 약화라는 한계에도 불구하고, 광주 민주화 운동을 과거의 역사로 남기지 않고 현재적 차원으로 끌어올려 공적 영역으로 소환시키는 가능성을 나타냈다. 따라서 역사 영화가 우리의 역사를 끊임없이 현재화하고 우리 사회에 여전히 남아있는 사회구조적 문제를 환기시킨다는 측면에서 역사적 소통 공간으로써 의의가 존재한다.

청년주체들의 '자기소개서' 작성을 중심으로 한 구직 경험의 문화적인 분석 (A Cultural Analysis of Self-introduction Letters by Young Job Seekers)

  • 이기형;송동욱;구승우;정준;김지수;이단비;박주화
    • 한국언론정보학보
    • /
    • 제72권
    • /
    • pp.7-51
    • /
    • 2015
  • 주지하다시피 현재 한국사회 내 대다수의 청년주체들은 취업과 관련하여 '개미지옥'이라는 표현이 단순한 은유를 넘어 구직의 특성을 체화하는 현실 속에서 절박하고 불안한 삶을 영위하고 있다. 이 연구는 '자기소개서' 작성과 구직에 관한 청년세대의 구체적인 체험과 판단을, 특히 이 과정을 복합적으로 담아내는 자기기술지 자료를 매개로 한 상세한 문화적인 해독을 통해서 접근한다. 이 탐구는 현재 한국사회에서 불안정한 노동시장과 취업이라는 심각한 압박에 직면하고 있는 청년주체들의 인식과 경험 그리고 감정구조의 함의를 다면적으로 '읽어내려는' 작업을 시도한다. 이러한 지적-비판적인 관심은 자기소개서의 복합적인 '사회적인 텍스트'로서의 위상과 쓰임새에 주목함과 동시에, 자기소개서를 쓰는 '불안의 주체'들에 관한 재귀적인 사유를 통해서, 자신의 모습과 기업에 의해 구성된 또 다른 '나'와의 균열과 간극을 마주하는 청년주체들의 현실인식과 고민을 '근접해서' 포착하고자 하는 목적을 지닌다.

  • PDF

텍스트 마이닝을 활용한 노인장기요양보험에서의 작업치료: 2007-2018년 (Occupational Therapy in Long-Term Care Insurance For the Elderly Using Text Mining)

  • 조민석;백순형;박엄지;박수희
    • 고령자・치매작업치료학회지
    • /
    • 제12권2호
    • /
    • pp.67-74
    • /
    • 2018
  • 목적 본 연구의 목적은 텍스트 마이닝이라는 빅데이터 분석 기법 중 하나를 활용하여 노인장기요양보험에서 작업치료의 역할을 정량적으로 분석하는 것이다. 연구방법 신문기사 분석을 위해 2007~208년까지 기간 설정 후 "노인장기요양보험+작업치료"를 주제어로 수집하였다. Textom이라는 웹 크롤링(Web Crawling)을 활용해 국내 검색엔진 네이버에서 <네이버뉴스>의 데이터베이스를 활용하였다. 수집결과 노인장기요양보험+작업치료 검색에서 510편의 뉴스 데이터의 기사제목과 원문을 수집한 후 연도별 기사 빈도, 핵심어분석을 시행하였다. 연구결과 연도별 기사 발행 빈도를 살펴보면 2015년과 2017년 발행한 기사 수가 70편(13.7%)으로 가장 많았고, 핵심어 분석 상위 10개의 용어는 '치매'(344)가 가장 많았으며, 작업과 핵심어의 관례를 알아보면, 치매, 치료, 병원, 건강, 서비스, 재활, 시설, 제도, 등급, 어르신, 전문, 급여, 공단, 국민이 관련이 있는 것으로 나타났다. 결론 본 연구에서는 텍스트 마이닝 기법을 통해 11년간의 노인장기요양보험의 언론 보도 동향을 토대로 관련 핵심 키워드에서 치매와 재활에 대해 사회적 요구와 작업치료사의 역할을 보다 객관적으로 확인하였다는 점에서 의의가 있다. 이 결과를 바탕으로 다음 연구에서는 연도에 따른 다양한 분석방법을 통해 연구방법론을 보완하여야 할 것이다.