• Title/Summary/Keyword: 단어 식별

Search Result 69, Processing Time 0.193 seconds

Digital Evidence Identification/Classification Study Using Causal Information Organization System (인과관계 정보 구성 체계를 활용한 디지털 증거 식별/분류 연구)

  • 정종진;박종빈;김경원;이지현
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.236-239
    • /
    • 2023
  • 본 논문에서는 디지털증거 분석을 위해 확보한 증거파일 들로부터 범죄 정황에 해당하는 단어 및 어휘를 추출하여 해당 범죄를 인과관계 분석을 하기 위해 핵심 단서와 원인을 효과적으로 파악하기 위해 필요한 인과정보를 제안한다. 이 정보들은 개체명 인식 및 분류를 할 수 있도록 구성되어 범죄 관계인, 관계인간 관계, 범죄 수법과 범죄관련 정보를 추출하고 유형화하여, 향후 해당 범죄에 대한 인과 분석 기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있도록 도움을 준다.

Development of a Korean Font Classification System for Images Based on Syllable-Level Text Recognition (글자 단위 텍스트 인식 기반의 이미지 내 한글 글꼴 분류 시스템 개발)

  • Sara Yu;Kim Yoon-Ju;Song Ji-Hyo;Ki Yong Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.718-721
    • /
    • 2023
  • 이미지 내 글꼴을 파악하는 것은 디자인 자료 제작, 저작권 확인 등 다양한 곳에서 중요한 문제이다. 하지만 이미지 내 한글 글꼴을 자동으로 식별하는 시스템은 아직 존재하지 않으며, 수동으로 한글 글꼴을 파악하는 것은 시간과 정확도 측면에서 매우 비효율적이다. 따라서 본 논문에서는 이미지 내 한글 글꼴을 자동으로 인식하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 크게 두 가지 기법을 사용한다: (1) 한글의 기하학적인 특성을 활용하여 글자 단위로 텍스트를 인식하며, (2) 단어가 아닌 글자 단위로 글꼴을 분류하고 각 글자에 대한 글꼴 분류 결과를 종합하여 최종적인 글꼴 분류 결과를 얻는다. 10가지 한글 글꼴이 나타나는 직접 제작한 이미지를 사용하여 시스템의 성능을 평가한 결과 제안 방법은 비교 방법에 비해 더욱 정확히 한글 글꼴을 분류함을 확인하였다.

An Effective User-Profile Generation Method based on Identification of Informative Blocks in Web Document (웹 문서의 정보블럭 식별을 통한 효과적인 사용자 프로파일 생성방법)

  • Ryu, Sang-Hyun;Lee, Seung-Hwa;Jung, Min-Chul;Lee, Eun-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.253-257
    • /
    • 2007
  • 최근 웹 상에 정보가 폭발적으로 증가함에 따라, 사용자의 취향에 맞는 정보를 선별하여 제공하는 추천 시스템에 대한 연구가 활발히 진행되고 있다. 추천시스템은 사용자의 관심정보를 기술한 사용자 프로파일을 기반으로 동작하기 때문에 정확한 사용자 프로파일의 생성은 매우 중요하다. 사용자의 암시적인 행동정보를 기반으로 취향을 분석하는 대표적인 연구로 사용자가 이용한 웹 문서를 분석하는 방법이 있다. 이는 사용자가 이용하는 웹 문서에 빈번하게 등장하는 단어를 기반으로 사용자의 프로파일을 생성하는 것이다. 그러나 최근 웹 문서는 사용자 취향과 관련 없는 많은 구성요소들(로고, 저작권정보 등)을 포함하고 있다. 따라서 이러한 내용들을 모두 포함하여 웹 문서를 분석한다면 생성되는 프로파일의 정확도는 낮아질 것이다. 따라서 본 논문에서는 사용자 기기에서 사용자의 웹 문서 이용내역을 분석하고, 동일한 사이트로부터 얻어진 문서들에서 반복적으로 등장하는 블록을 제거한 후, 정보블럭을 식별하여 사용자의 관심단어를 추출하는 새로운 프로파일 생성방법을 제안한다. 이를 통해 보다 정확하고 빠른 프로파일 생성이 가능해진다. 본 논문에서는 제안방법의 평가를 위해, 최근 구매활동이 있었던 사용자들이 이용한 웹 문서 데이터를 수집하였으며, TF-IDF 방법과 제안방법을 이용하여 사용자 프로파일을 각각 추출하였다. 그리고 생성된 사용자 프로파일과 구매데이터와의 연관성을 비교하였으며, 보다 정확한 프로파일이 추출되는 결과와 프로파일 분석시간이 단축되는 결과를 통해 제안방법의 유효성을 입증하였다.)으로 높은 점수를 보였으며 내장첨가량에 따른 관능특성에서는 온쌀죽은 내장 $2{\sim}5%$ 첨가, 반쌀죽은 내장 $3{\sim}5%$ 첨가구에서 유의적(p<0.05)으로 높은 점수를 보였으나 쌀가루죽은 내장 $1{\sim}2%$ 첨가구에서 유의적(p<0.05)으로 낮은 점수를 보였다. 이상의 연구 결과를 통해 온쌀은 2%, 반쌀은 3%, 쌀가루는 4%의 내장을 첨가하여 제조한 전복죽이 이화학적, 물성적 및 관능적으로 우수한 것으로 나타났다.n)방법의 결과와 비교하였다.다. 유비스크립트에서는 모바일 코드의 개념을 통해서 앞서 언급한 유비쿼터스 컴퓨팅 환경에서의 문제점을 해결하고자 하였다. 모바일 코드에서는 프로그램 코드가 네트워크를 통해서 컴퓨터를 이동하면서 수행되는 개념인데, 이는 물리적으로 떨어져있으면서 네트워크로 연결되어 있는 다양한 컴퓨팅 장치가 서로 연동하기 위한 모델에 가장 적합하다. 이는 기본적으로 배포(deploy)라는 단계가 필요 없게 되고, 새로운 버전의 프로그램이 작성될지라도 런타임에 코드가 직접 이동하게 되므로 버전 관리의 문제도 해결된다. 게다가 원격 함수를 매번 호출하지 않고 한번 이동된 코드가 원격지에서 모두 수행을 하게 되므로 성능향상에도 도움이 된다. 장소 객체(Place Object)와 원격 스코프(Remote Scope)는 앞서 설명한 특징을 직접적으로 지원하는 언어 요소이다. 장소 객체는 모바일 코드가 이동해서 수행될 계산 환경(computational environment

  • PDF

A Classification Model for Attack Mail Detection based on the Authorship Analysis (작성자 분석 기반의 공격 메일 탐지를 위한 분류 모델)

  • Hong, Sung-Sam;Shin, Gun-Yoon;Han, Myung-Mook
    • Journal of Internet Computing and Services
    • /
    • v.18 no.6
    • /
    • pp.35-46
    • /
    • 2017
  • Recently, attackers using malicious code in cyber security have been increased by attaching malicious code to a mail and inducing the user to execute it. Especially, it is dangerous because it is easy to execute by attaching a document type file. The author analysis is a research area that is being studied in NLP (Neutral Language Process) and text mining, and it studies methods of analyzing authors by analyzing text sentences, texts, and documents in a specific language. In case of attack mail, it is created by the attacker. Therefore, by analyzing the contents of the mail and the attached document file and identifying the corresponding author, it is possible to discover more distinctive features from the normal mail and improve the detection accuracy. In this pager, we proposed IADA2(Intelligent Attack mail Detection based on Authorship Analysis) model for attack mail detection. The feature vector that can classify and detect attack mail from the features used in the existing machine learning based spam detection model and the features used in the author analysis of the document and the IADA2 detection model. We have improved the detection models of attack mails by simply detecting term features and extracted features that reflect the sequence characteristics of words by applying n-grams. Result of experiment show that the proposed method improves performance according to feature combinations, feature selection techniques, and appropriate models.

Knowledge Structure of Cognitive Behavioral Therapy Studies in Korea: Co-word Analysis (국내 인지행동치료 연구의 지식구조: 동시출현단어 분석)

  • Kim, Do-Hee;Kim, Hyeon-Jin;An, Da-Hye
    • Journal of Digital Convergence
    • /
    • v.17 no.12
    • /
    • pp.509-521
    • /
    • 2019
  • The purpose of this study is to examine the patterns of the keywords in journals in the field of Cognitive Behavioral Therapy (CBT) to identify the knowledge structure of CBT studies in Korea. To compare CBT studies from Korea and abroad, 234 articles (2008-2019) published on "Cognitive Behavior Therapy in Korea" and 2,316 articles (1977-2019) published on "Cognitive Therapy and Research" were collected. The data were analyzed using NetMiner 4.3. The co-word analysis was done by calculating the cosine similarity matrix of major keywords, followed by visualizing the network. The results of this study identified the main interests of Korean CBT scholars, and categorized the knowledge structure of CBT in Korea into 9 research areas: "scale validation"; "perfectionism and entrapment"; "cognitive, emotional, and relationship characteristics of schizophrenic patients"; "cognitive characteristics and treatment of borderline personality disorder and depression/bipolar disorder patients"; "adaptation and psychological health"; "cognitive characteristics and treatment of patients with social anxiety disorder"; "causes and co-morbidities of depression"; "acceptance and commitment therapy"; and "understanding and the treatment of binge eating disorder patients." This study is meaningful in that it has reviewed the accumulated knowledge in the CBT field in Korea for the past 11 years, and suggests future tasks for development to improve the standards of CBT practice.

An Enhanced Text-Prompt Speaker Recognition Using DTW (DTW를 이용한 향상된 문맥 제시형 화자인식)

  • 신유식;서광석;김종교
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.1
    • /
    • pp.86-91
    • /
    • 1999
  • This paper presents the text-prompt method to overcome the weakness of text-dependent and text-independent speaker recognition. Enhanced dynamic time warping for speaker recognition algorithm is applied. For the real-time processing, we use a simple algorithm for end-point detection without increasing computational complexity. The test shows that the weighted-cepstrum is most proper for speaker recognition among various speech parameters. As the experimental results of the proposed algorithm for three prompt words, the speaker identification error rate is 0.02%, and when the threshold is set properly, false rejection rate is 1.89%, false acceptance rate is 0.77% and verification total error rate is 0.97% for speaker verification.

  • PDF

Technology Keyword Network and Cognitive Map Analysis: to prospect promising technology of UAV(Unmanned Aerial Vehicle) airframe industry (기술 키워드 네트워크와 인지지도 분석을 통한 무인항공기 비행체산업의 유망기술 도출 연구)

  • Joo, Seong-Hyeon;Ha, Sung-Ho;Park, Sang-Hyeon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.21 no.5
    • /
    • pp.55-72
    • /
    • 2016
  • This study aims at providing a methodology for retaining international technology competitiveness, marketable industry, and sustainable promising technology in a field of new growth engine industry such as national unmanned aerial vehicle industry. We draw a result by analysing with tools such as KrKwic, Excel, NetMiner, presenting methods of a Social Network Analysis, sub-group analysis, and cognitive map analysis based on patent data in a field of unmanned aerial vehicle industry. As a result, some future promising technologies are prospected as what worths concentrated investment, such as 'pilot control tech', 'identification of friend or foe tech'.

Improved Multidimensional Scaling Techniques Considering Cluster Analysis: Cluster-oriented Scaling (클러스터링을 고려한 다차원척도법의 개선: 군집 지향 척도법)

  • Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.2
    • /
    • pp.45-70
    • /
    • 2012
  • There have been many methods and algorithms proposed for multidimensional scaling to mapping the relationships between data objects into low dimensional space. But traditional techniques, such as PROXSCAL or ALSCAL, were found not effective for visualizing the proximities between objects and the structure of clusters of large data sets have more than 50 objects. The CLUSCAL(CLUster-oriented SCALing) technique introduced in this paper differs from them especially in that it uses cluster structure of input data set. The CLUSCAL procedure was tested and evaluated on two data sets, one is 50 authors co-citation data and the other is 85 words co-occurrence data. The results can be regarded as promising the usefulness of CLUSCAL method especially in identifying clusters on MDS maps.

Domain adaptation of Korean coreference resolution using continual learning (Continual learning을 이용한 한국어 상호참조해결의 도메인 적응)

  • Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

Generation Paraphrase using Pointer Generation Network (포인터 생성 네트워크를 이용한 패러프레이즈 생성)

  • Park, Da-Sol;Kim, Young-kil;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.535-539
    • /
    • 2020
  • 다양한 발화를 모델링하는 요구는 자연어 처리 분야에서 꾸준히 있었으며 단어, 구 또는 문장과 동등한 의미 콘텐츠를 자동으로 식별하고 생성하는 것은 자연어 처리의 중요한 부분이다. 본 논문에서는 포인터 생성 네트워크(Pointer Generate Nework)를 이용하여 패러프레이즈 생성 모델을 제안한다. 제안한 모델의 성능을 측정하기 위해 사람이 직접 구축한 유사 문장 코퍼스를 이용하였으며, 토큰 단위의 BLEU-4 0.250, ROUGE_L 0.455, CIDEr 2.190의 성능을 보였다. 하지만 입력 문장과 동일한 문장을 출력하는 문제점이 존재하여 빔서치(beam search)를 적용하여 입력 문장과 비교하여 생성 문장을 선택하는 방식을 적용하였다. 입력 문장과 동일한 문장을 제외한 문장으로 평가를 진행했으며, 토큰 단위의 BLEU-4 0.234, ROUGE_L 0.459, CIDEr 2.041의 성능을 보였으나, 패러프레이즈 생성 데이터 양이 크게 증가하였다. 본 연구는 문장 간의 의미적으로 동일한 정보를 정확하게 추출할 수 있게 됨으로써 정보 추출, 온톨로지 생성에 도움이 될 것이다. 또한 이러한 기법이 챗봇에서 사용자의 의도 탐지 및 MRC와 같은 자연어 처리의 여러 분야에 유용한 자원으로 사용될 것이다.

  • PDF