• Title/Summary/Keyword: 문서은닉

Search Result 29, Processing Time 0.022 seconds

Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model (은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델)

  • Oh, Jong-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

Two-Phase Hidden Markov Models for Call-for-Paper Information Extraction (논문 모집 공고에서의 정보 추출을 위한 2단계 은닉 마코프 모델)

  • Kim, Jeong-Hyun;Park, Seong-Bae;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.7-12
    • /
    • 2005
  • 본 논문은 은닉 마코프 모델(hidden Markov Model: HMM)을 2 단계로 적용하여 논문 모집공고(Call-for-Paper: CFP)에서 필요한 정보를 추출하는 방법을 제안한다. HMM은 순차적인 흐름의 정보를 담고 있는 데이터를 잘 설명할 수 있으며 CFP가 담고 있는 정보에는 순서가 있기 때문에, CFP를 HMM으로 설명할 수 있다. 하지만, 문서를 전체적으로(global) 파악하는 HMM만으로는 정보의 정확한 경계를 파악할 수 없다. 따라서 첫 번째 단계로 CFP문서에서 구(phrase) 단위를 구성하는 단어의 열에 대한 HMMs을 통해 국부적으로(local) 정보의 경계와 대강의 종류를 파악한다. 그리고 두 번째 단계에서 전체적인 문서의 내용 흐름에 근거하여 구축된 HMM을 이용하여 그 정보가 세부적으로 어떤 종류의 정보인지 정한다. PASCAL challenge에서 제공받은 Cff 말뭉치에 대한 첫 번째 단계의 실험 결과, 0.60의 재현률과 0.61의 정확률을 보였으며, 정확률과 재현률을 바탕으로 F-measure를 측정한 결과 0.60이었다.

  • PDF

A Learning Model for Recommendation of Humor Documents (유머문서 추천을 위한 기계학습 기법)

  • 이종우;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.253-255
    • /
    • 2001
  • 인터넷을 통한 사용자의 선호도를 분석하고 협력적 여과 및 내용기반 여과 기술을 결합 이용하여 유머문서를 추천하는 MrHumor 시스템을 구축하였다. 유머문서 추천 기술은 다양한 아이템에 대한 여과 및 추천 기술로 확장되어 인터넷을 통한 과다 정보 시대에 필요한 소프트봇 혹은 지능형 에이전트 기술에 적용될 수 있다. MrHumor 추천시스템은 적응형 학습 시스템으로서 새로운 사용자의 선호도에 대한 학습량과 추천시기에 따라 이용할 추천방식이 다른 성능을 보이는데 여러 가지 상황에서도 적절한 동작을 보이기 위하여 MrHumor에서는 은닉변수 모델을 이용하여 사용자의 인구통계적 정보와 문서의 내용적 특징간의 관계를 학습하여 초기 추천을 행하고 SVM을 이용하여 개인의 선호도를 학습한 내용 기반의 여과와 적응형 k-NN모델을 이용한 협력적 여과를 결합하여 추천을 수행한다. 제안된 방식에 의한 추천 성능은 3방식이 각각 이용된 경우에 비해 안정적이고 높은 예측 정확도를 보인다.

  • PDF

XML Signature Model Design using Signature Value Hide (서명값 은닉을 이용한 XML 전자서명 모델 설계)

  • Ko, Hoon;Kim, Dae-Won;Shin, Yong-Tae
    • Annual Conference of KIPS
    • /
    • 2003.11c
    • /
    • pp.1873-1876
    • /
    • 2003
  • 최근 전자상거래 확산에 따라 전자서명, 키관리 및 인증서비스가 새롭게 부상하고 있으며, 여기에 적용하기 위한 정보보호 기반기술로는 암호화 기술, 인증기술, 전자서명, PKI(Pulbic Key Infrastructure) 및 WPKI(Wireless PKI)등이 있다. 암호화 기술은 합법적 참여자들 간에 메시지 변/복조 규칙에 대한 약속을 정하고, 이 규칙에 따라 송신하려는 메시지를 암호화시켜 전달 혹은 보관하며, 메시지 수신시 또는 접근 권한이 있는 사람이 필요에 따라 이를 복호화 하도록 하는 기술을 말한다. 전자서명은 종래의 종이 문서에 표기하던 수기 서명이나 인장 효과를 전자적 매체내에 저장 또는 전송되는 전자 문서상에 효과적으로 부여하는 전자적 서명 방식이다. e-business 활성화를 위한 정부의 적극적인 참여와 지원을 바탕으로 받은 전자상거래 관련 사업들이 등장하고 있다. 이러한 전자상거래에 사용되는 기반 기술로서 XML(extensible Markup Language)기술이 사용되고 있다. 본 연구에서는 서명값을 XML 문서 안에 포함해서 전송 하는 방법으로 문서의 무결성과 비밀성을 보장하고자 한다.

  • PDF

Design and Analysis of the Web Stegodata Detection Systems using the Intrusion Detection Systems (침입탐지 시스템을 이용한 웹 스테고데이터 검출 시스템 설계 및 분석)

  • Do, Kyoung-Hwa;Jun, Moon-Seog
    • The KIPS Transactions:PartC
    • /
    • v.11C no.1
    • /
    • pp.39-46
    • /
    • 2004
  • It has been happening to transfer not only the general information but also the valuable information through the universal Internet. So security accidents as the expose of secret data and document increase. But we don't have stable structure for transmitting important data. Accordingly, in this paper we intend to use network based Intrusion Detection System modules and detect the extrusion of important data through the network, and propose and design the method for investigating concealment data to protect important data and investigate the secret document against the terrorism. We analyze the method for investigating concealment data, especially we use existing steganalysis techniques, so we propose and design the module emphasizing on the method for investigating stego-data in E-mail of attach files or Web-data of JPG, WAVE etc. Besides, we analyze the outcome through the experiment of the proposed stego-data detection system.

Vulnerability analysis for privacy security Android apps (개인정보보호 안드로이드 앱에 대한 취약점 분석)

  • Lee, Jung-Woo;Hong, Pyo-Gil;Kim, Dohyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.184-186
    • /
    • 2022
  • Recently, as interest in personal information protection has increased, various apps for personal information protection have emerged. These apps protect data in various formats, such as photos, videos, and documents containing personal information, using encryption and hide functions. These apps can have a positive effect on personal information protection, but in digital forensics, they act as anti-forensic because they can be difficult to analyze data during the investigation process. In this paper, finds out PIN, an access control function, through reverse engineering on Calculator - photo vault, one of the personal information protection apps, and files such as photos and documents to which encryption and hide were applied. In addition, the vulnerability to this app was analyzed by research decryption for database files where logs for encrypted and hide files are stored.

  • PDF

Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model (은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법)

  • 오종훈;최기선
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.3
    • /
    • pp.19-28
    • /
    • 2001
  • In this paper, we describe an algorithm for transliterated foreign word extraction in Korean language. In the proposed method we reformulate the transliterated foreign word extraction problem as a syllable-tagging problem such that each syllable is tagged with a transliterated foreign syllable tag or a pure Korean syllable tag. Syllable sequences of Korean strings ale modeled by Hidden Markov Model whose state represents a character with binary marking to indicate whether the character forms a Korean word or not. The proposed method extracts a transliterated foreign word with high recall rate and precision rate. Moreover, our method shows good performance even with small-sized training corpora.

  • PDF

A Research of Anomaly Detection Method in MS Office Document (MS 오피스 문서 파일 내 비정상 요소 탐지 기법 연구)

  • Cho, Sung Hye;Lee, Sang Jin
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.6 no.2
    • /
    • pp.87-94
    • /
    • 2017
  • Microsoft Office is an office suite of applications developed by Microsoft. Recently users with malicious intent customize Office files as a container of the Malware because MS Office is most commonly used word processing program. To attack target system, many of malicious office files using a variety of skills and techniques like macro function, hiding shell code inside unused area, etc. And, people usually use two techniques to detect these kinds of malware. These are Signature-based detection and Sandbox. However, there is some limits to what it can afford because of the increasing complexity of malwares. Therefore, this paper propose methods to detect malicious MS office files in Computer forensics' way. We checked Macros and potential problem area with structural analysis of the MS Office file for this purpose.

An Email Vaccine Cloud System for Detecting Malcode-Bearing Documents (악성코드 은닉 문서파일 탐지를 위한 이메일 백신 클라우드 시스템)

  • Park, Choon-Sik
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.5
    • /
    • pp.754-762
    • /
    • 2010
  • Nowadays, email-based targeted attacks using malcode-bearing documents have been steadily increased. To improve the success rate of the attack and avoid anti-viruses, attackers mainly employ zero-day exploits and relevant social engineering techniques. In this paper, we propose an architecture of the email vaccine cloud system to prevent targeted attacks using malcode-bearing documents. The system extracts attached document files from email messages, performs behavior analysis as well as signature-based detection in the virtual machine environment, and completely removes malicious documents from the messages. In the process of behavior analysis, the documents are regarded as malicious ones in cases of creating executable files, launching new processes, accessing critical registry entries, connecting to the Internet. The email vaccine cloud system will help prevent various cyber terrors such as information leakages by preventing email based targeted attacks.

A Study on Edit Order of Text Cells on the MS Excel Files (MS 엑셀 파일의 텍스트 셀 입력 순서에 관한 연구)

  • Lee, Yoonmi;Chung, Hyunji;Lee, Sangjin
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.24 no.2
    • /
    • pp.319-325
    • /
    • 2014
  • Since smart phones or tablet PCs have been widely used recently, the users can create and edit documents anywhere in real time. If the input and edit flows of documents can be traced, it can be used as evidence in digital forensic investigation. The typical document application is the MS(Microsoft) Office. As the MS Office applications consist of two file formats that Compound Document File Format which had been used from version 97 to 2003 and OOXML(Office Open XML) File Format which has been used from version 2007 to now. The studies on MS Office files were for making a decision whether the file has been tampered or not through detection of concealed items or analysis of documents properties so far. This paper analyzed the input order of text cells on MS Excel files and shows how to figure out what cell is the last edited in digital forensic perspective.