• Title/Summary/Keyword: 단어 식별

Search Result 69, Processing Time 0.025 seconds

A Study on the Reduction of Common Words to Classify Causes of Marine Accidents (해양사고 원인을 분류하기 위한 공통단어의 축소에 관한 연구)

  • Yim, Jeong-Bin
    • Journal of Navigation and Port Research
    • /
    • v.41 no.3
    • /
    • pp.109-118
    • /
    • 2017
  • The key word (KW) is a set of words to clearly express the important causations of marine accidents; they are determined by a judge in a Korean maritime safety tribunal. The selection of KW currently has two main issues: one is maintaining consistency due to the different subjective opinion of each judge, and the second is the large number of KW currently in use. To overcome the issues, the systematic framework used to construct KW's needs to be optimized with a minimal number of KW's being derived from a set of Common Words (CW). The purpose of this study is to identify a set of CW to develop the systematic KW construction frame. To fulfill the purpose, the word reduction method to find minimum number of CW is proposed using P areto distribution function and Pareto index. A total of 2,642 KW were compiled and 56 baseline CW were identified in the data sets. These CW, along with their frequency of use across all KW, are reported. Through the word reduction experiments, an average reduction rate of 58.5% was obtained. The estimated CW according to the reduction rates was verified using the Pareto chart. Through this analysis, the development of a systematic KW construction frame is expected to be possible.

Author Identification Using Artificial Neural Network (Artificial Neural Network를 이용한 논문 저자 식별)

  • Jung, Jisoo;Yoon, Ji Won
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.26 no.5
    • /
    • pp.1191-1199
    • /
    • 2016
  • To ensure the fairness, journal reviewers use blind-review system which hides the author information of the journal. Even though the author information is blinded, we could identify the author by looking at the field of the journal or containing words and phrases in the text. In this paper, we collected 315 journals of 20 authors and extracted text data. Bag-of-words were generated after preprocessing and used as an input of artificial neural network. The experiment shows the possibility of circumventing the blind review through identifying the author of the journal. By the experiment, we demonstrate the limitation of the current blind-review system and emphasize the necessity of robust blind-review system.

Korean Coreference Resolution at the Morpheme Level (형태소 수준의 한국어 상호참조해결 )

  • Kyeongbin Jo;Yohan Choi;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.329-333
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

  • PDF

Methodology for semi-autonomous rule extraction based on Restricted Language Set and ontology (제한된 언어집합과 온톨로지를 활용한 반자동적인 규칙생성 방법 연구)

  • Son, Mi-Ae;Choe, Yun-Gyu
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.05a
    • /
    • pp.297-306
    • /
    • 2007
  • 지능정보시스템 구축에 있어서 자동화가 어려운 단계중의 하나인 규칙 습득을 위해 활용되는 방법중의 하나가 제한된 언어집합 기법을 이용하는 것이다. 그러나 제한된 언어집합 기법을 이용해 규칙을 생성하기 위해서는 규칙을 구성하는 변수와 그 값들에 대한 정보가 사전에 정의되어 있어야 하는데, 유동성이 큰 웹 환경에서 예상 가능한 모든 변수와 그 값을 사전에 정의하는 것이 매우 어렵다. 이에 본 연구에서는 이러한 한계를 극복하기 위해 제한된 언어집합 기법과 온톨로지를 이용한 규칙 생성 방법론을 제시하였다. 이를 위해 지식의 습득 대상이 되는 특정 문장은 문법구조 분석기를 이용해 파싱을 수행하며, 파싱된 단어들을 이용해 규칙의 구성 요소인 변수와 그 값을 식별한다. 그러나 규칙을 내포한 자연어 문장의 불완전성으로 인해 변수가 명확하지 않거나 완전히 빠져 있는 경우가 흔히 발생하며, 이로 인해 온전한 형식의 규칙 생성이 어렵게 된다. 이 문제는 도메인 온톨로지의 생성을 통해 해결하였다. 이 온톨로지는 특정 도메인을 구성하고 있는 개념들간의 관계를 포함하고 있다는 점에서는 기존의 온톨로지와 유사하지만, 규칙을 완성하는 과정에서 사용된 개념들의 사용빈도를 기반으로 온톨로지의 구조를 변경하고, 결과적으로 더 정확한 규칙의 생성을 지원한다는 점에서 기존의 온톨로지와 차별화된다. 이상의 과정을 통해 식별된 규칙의 구성요소들은 제한된 언어집합 기법을 이용해 구체화된다. 본 연구에서 제안하는 방법론을 설명하기 위해 임의의 인터넷 쇼핑몰에서 수행되는 배송관련 웹 페이지를 선정하였다. 본 방법론은 XRML에서의 지식 습득 과정의 효율성 제고에 기여할 수 있을 것으로 기대된다.

  • PDF

An Analysis of News Media Coverage of the QRcode: Based on 2008-2023 News Big Data (QR코드에 대한 언론 보도 경향: 2008-2023년 뉴스 빅데이터 분석)

  • Sunjeong Kim;Jisu Lee
    • Journal of the Korean Society for information Management
    • /
    • v.41 no.2
    • /
    • pp.269-294
    • /
    • 2024
  • This study analyzed the news media coverage of QRcodes in Korea over a 16-year period (2008 to 2023). A total of 13,335 articles were extracted from the Korea Press Foundation's BigKinds. A quantitative and content analysis was conducted on the news frames. The results indicated that the quantity of news coverage has increased. The greatest quantity of news coverage was observed in 2020, and the most frequently discussed topic in the news was 'IT_Science'. The results of the keyword analysis indicated that the primary words were 'QRcode', 'smartphone', 'service', 'application', and 'payment'. The news media primarily focused on the QRcode's ability to provide instant access and recognition technology. This study demonstrates that advanced information and communication technologies and the increased prevalence of mobile devices have led to a rise in the utilization of QRcodes. Furthermore, QRcodes have become a significant information media in contemporary society.

A study on automation of AV(Atomic Vulnerability) ID assignment (단위 취약점 식별자 부여 자동화에 대한 연구)

  • Kim, Hyung-Jong
    • Journal of Internet Computing and Services
    • /
    • v.9 no.6
    • /
    • pp.49-62
    • /
    • 2008
  • AV (Atomic Vulnerability) is a conceptual definition representing a vulnerability in a systematic way, AVs are defined with respect to its type, location, and result. It is important information for meaning based vulnerability analysis method. Therefore the existing vulnerability can be expressed using multiple AVs, CVE (common vulnerability exposures) which is the most well-known vulnerability information describes the vulnerability exploiting mechanism using natural language. Therefore, for the AV-based analysis, it is necessary to search specific keyword from CVE's description and classify it using keyword and determination method. This paper introduces software design and implementation result, which can be used for atomic vulnerability analysis. The contribution of this work is in design and implementation of software which converts informal vulnerability description into formal AV based vulnerability definition.

  • PDF

Sentence Recommendation Using Beam Search in a Military Intelligent Image Analysis System (군사용 지능형 영상 판독 시스템에서의 빔서치를 활용한 문장 추천)

  • Na, Hyung-Sun;Jeon, Tae-Hyeon;Kang, Hyung-Seok;Ahn, Jinhyun;Im, Dong-Hyuk
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.521-528
    • /
    • 2021
  • Existing image analysis systems in use in the military field are carried out by readers analyzing and identifying images themselves, writing and disseminating related content, and in this process, repetitive tasks are frequent, resulting in workload. In this paper, to solve the previous problem, we proposed an algorithm that can operate the Seq2Seq model on a word basis, which operates on a sentence basis, and applied the Attention technique to improve accuracy. In addition, by applying the Beam Search technique, we would like to recommend various current identification sentences based on the past identification contents of a specific area. It was confirmed through experiments that the Beam Search technique recommends sentences more effectively than the existing greedy Search technique, and confirmed that the accuracy of recommendation increases when the size of Beam is large.

Neural Network Model for Named Entitiy Linking using Wikipedia Link Data (위키피디아 링크 데이터를 이용한 Neural Network Model 기반 한국어 개체명 연결)

  • Lee, Young-Hoon;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.163-166
    • /
    • 2018
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체와 연결하여 특정 개체가 무엇인지 식별하여 모호성을 해결하는 작업이다. 본 연구에서는 위키피디아의 링크를 이용하여 개체 표현(Entity mention)과 학습 데이터, 지식 기반을 구축한다. 또한, Mention/Context 쌍의 표현과 Entity 표현의 코사인 유사도를 이용하여 Score를 구하고, 이를 통해 개체명 연결 문제를 랭킹 문제로 변환한다. 개체의 이름과 분류뿐만 아니라 개체의 설명, 개체 임베딩 등의 자질을 이용하여 모델을 확장하고 결과를 비교한다. 확장된 모델의 개체 링킹 성능은 89.63%의 정확도를 보였다.

  • PDF

A Study on The Speech/Nonspeech Identification for Isolated Word Speech Recognition System (고립단어 인식시스템에서 음성/비음성 식별에 관한 연구)

  • 김치수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.242-245
    • /
    • 1998
  • 음성인식 시스템의 입력인 음성은 실제의 음성부분 외에도 주변잡음을 포함한 기침 소리, 문닫는 소리, 책장 넘기는 소리등과 같은 사용자에 의해서 발생될 수 있는 다양한 종류의 비음성을 포함할 수 있다. 특히 에너지가 큰 비음성을 포함하는 경우 기존의 끝점검출 알고리듬만으로는 음성부분만의 정확한 검출이 어렵게 되고 이는 음성인식 시스템의 성능을 저하시키는 주요 원인이 된다. 본 논문에서는 음성 발생시 일어날 수 있는 비음성들에 대해서 조사하고 이러한 비음성이 포함될 때 음성부분만의 정확한 검출을 가능하게 하는 알고리듬을 제시하였다. 사용된 파라미터로는 자기상관법에 의해 얻어지는 피치정보와 웨이브렛 영역에서의 에너지로써 비교적 낮은 신호대 잡음비에서도 음성부 검출을 가능하게 하였다.

  • PDF

A Survey or The Korean Learner's Problems in Mastering English Pronunciation (한국인의 영어 발음 학습상 문제점 개관)

  • Youe Hansa MahnGunn
    • MALSORI
    • /
    • no.42
    • /
    • pp.47-56
    • /
    • 2001
  • 이 글은 제2회 서울 국제 음성학 학술대회(SICOPS 2000) 기조강연 내용을 조금 손질한 것인데, 한국인 영어 학습자가 저지르기 쉬운 발음상 잘못을 모음, 자음별로 관찰하고 그 대책을 논의한다. 모음에서는 주로 i:l, u:$-\sigma$, (equation omitted) 흔동이 문제이며, 또한 90종이 넘는 여러 철자로 나타나는 쭉정모음(schwa) 식별과 정복한 발음도 큰 문제다. 자음에서는 음소 연결방식에서 생기는 자음접변 둥 한 국어 특유 현상을 영어에까지 연장하는 바람에 많은 오류가 생긴다는 것과 영어 sp-, st-, sk-에서 /p t k/는 연한소리(lenis)로 [(equation omitted)]인데, 된소리로 잘못알고 있는 수가 많다는 것도 지적된다. 무룻 영어학습자는 철자만 보고 발음을 속단하지 말고 단어마다 반드시 발음을 사전에서 확인할 것과 아울러 거기에 음성학적 훈련이 수반되어야 함을 역설하며, 정확한 발음을 아는 것은 실제 영어 청취i구사에 뿐 아니라 또한 언어연구 기초확립에 필수적이라는 말로 글을 맺는다.

  • PDF