• 제목/요약/키워드: 단어 유사도 분석

검색결과 231건 처리시간 0.023초

연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석 (Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis)

  • 전익진;이학연
    • 기술혁신연구
    • /
    • 제24권4호
    • /
    • pp.101-126
    • /
    • 2016
  • 본 연구는 동시출현단어(co-word) 분석을 이용하여 기술경영 분야의 연구 주제 네트워크를 구축하고, 핵심 연구 주제 및 연구 주제 간 상호연관관계를 도출한다. 동시출현 빈도수의 정규화를 통해 키워드 간 유사성을 도출하여 무방향 네트워크를 분석하는 기존 연구들과는 달리 본 연구는 연관규칙분석(association rule)을 통해 키워드 간 신뢰도(confidence)를 도출하여 유방향 네트워크 분석을 수행한다. 2011~2014년 기술경영 분야 9개 국제 학술지에 게재된 2,456개의 논문의 저자키워드를 대상으로 빈도수 상위 200개 키워드를 추출하고, 주제(THEME), 방법(METHOD), 분야(FIELD)의 세 가지 유형으로 키워드를 분류한다. 각 유형별 일원(one-mode) 네트워크를 구축하여, 함께 많이 연구가 이루어진 키워드들을 찾아내고, 핵심 키워드를 도출한다. 또한 두 가지 유형의 키워드 간의 이원(two-mode) 네트워크를 구축하여, 연구 주제별로 함께 많이 활용된 방법 및 대상 분야를 탐색한다. 본 연구 결과는 최근 성숙기에 접어든 기술경영 분야의 연구 흐름 및 지식 구조를 키워드 수준에서 구체적으로 제시함으로써, 기술경영 분야 연구자들의 연구 주제 탐색 및 연구방향 설계에 활용될 수 있을 것으로 기대된다.

문서 유사도를 통한 관련 문서 분류 시스템 연구 (Related Documents Classification System by Similarity between Documents)

  • 정지수;지민규;고명현;김학동;임헌영;이유림;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.77-86
    • /
    • 2019
  • 본 논문은 머신 러닝 기술을 이용하여 과거의 수집된 문서를 분석하고 이를 바탕으로 문서를 분류하는 방법을 제안한다. 특정 도메인과 관련된 키워드를 기반으로 데이터를 수집하고, 특수문자와 같은 불용어를 제거한다. 그리고 한글 형태소 분석기를 사용하여 수집한 문서의 각 단어에 명사, 동사, 형용사와 같은 품사를 태깅한다. 문서를 벡터로 변환하는 Doc2Vec 모델을 이용해 문서를 임베딩한다. 임베딩 모델을 통하여 문서 간 유사도를 측정하고 머신 러닝 기술을 이용하여 문서 분류기를 학습한다. 학습한 분류 모델 간 성능을 비교하였다. 실험 결과, 서포트 벡터 머신의 성능이 가장 우수했으며 F1 점수는 0.83이 도출되었다.

머신러닝을 활용한 행위 및 스크립트 유사도 기반 크립토재킹 탐지 프레임워크 (Behavior and Script Similarity-Based Cryptojacking Detection Framework Using Machine Learning)

  • 임은지;이은영;이일구
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1105-1114
    • /
    • 2021
  • 최근 급상승한 암호 화폐의 인기로 인해 암호 화폐 채굴 악성코드인 크립토재킹 위협이 증가하고 있다. 특히 웹 기반 크립토재킹은 피해자가 웹 사이트에 접속만 하여도 피해자의 PC 자원을 사용해 암호 화폐를 채굴할 수 있으며 간단하게 채굴 스크립트만 추가하면 되기 때문에 공격이 쉽고 성능 열화와 고장의 원인이 된다. 크립토재킹은 피해자가 피해 상황을 인지하기 어렵기 때문에 크립토재킹을 효율적으로 탐지하고 차단할 수 있는 연구가 필요하다. 본 연구에서는 크립토재킹의 대표적인 감염 증상과 스크립트를 지표로 활용하여 효과적으로 크립토재킹을 탐지하는 프레임워크를 제안하고 평가한다. 제안한 크립토재킹 탐지 프레임워크에서 행위 기반 동적 분석 기법으로 컴퓨터 성능 지표를 학습한 K-Nearest Neighbors(KNN) 모델을 활용했고, 스크립트 유사도 기반 정적 분석 기법은 악성 스크립트 단어 빈도수를 학습한 K-means 모델을 크립토재킹 탐지에 활용했다. 실험 결과에 따르면 KNN 모델은 99.6%의 정확도를 보였고, K-means 모델은 정상 군집의 실루엣 계수가 0.61인 것을 확인하였다.

비정형 Security Intelligence Report의 정형 정보 자동 추출 (An Automatically Extracting Formal Information from Unstructured Security Intelligence Report)

  • 허윤아;이찬희;김경민;조재춘;임희석
    • 디지털융복합연구
    • /
    • 제17권11호
    • /
    • pp.233-240
    • /
    • 2019
  • 사이버 공격을 예측하고 대응하기 위해서 수많은 보안 기업 회사에서는 공격기법의 특성, 수법 유형을 빠르게 파악하고, 이에 대한 Security Intelligence Report(SIR)들을 배포한다. 하지만 각 기업에서 배포하는 SIR들은 방대하며, 형식이 맞춰져 있지 않다. 본 논문은 대량의 비정형한 SIR들에서 정보를 추출하는데 소요되는 시간을 줄이고 효율적으로 파악하기 위해 SIR들에 대해 정형화하고 주요 정보를 추출하기 위해 5가지 분석기술이 적용된 프레임워크를 제안한다. SIR들의 데이터는 정답 라벨이 없기 때문에 비지도 학습방식을 통해 키워드 추출, 토픽 모델링, 문서 요약, 유사문서 검색 총 4가지 분석기술을 제안한다. 마지막으로 SIR들에서 위협 정보 추출하기 위해 데이터를 구축하였으며, 개체명 인식 기술에 적용하여 IP, Domain/URL, Hash, Malware에 속하는 단어를 인식하고 그 단어가 어떤 유형에 속하는지 판단하는 분석기술을 포함한 총 5가지 분석기술이 적용된 프레임워크를 제안한다.

피춰 추출 관점에서 기준 화자 수 증가에 따른 음성 인식 성능 분석 (Performance Analysis of Speech Recognition by Increasing the Number of Reference Speaker)

  • 이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.111-114
    • /
    • 1998
  • 음성을 인식하기 위해서는 주어진 음성을 미리 정한 기준 음성과 비교하여 가장 유사한 것을 갖는 과정을 거치게 된다. 같은 단어라도 화자에 따라서 발음 속도, 음의 강약이 틀리므로 화자 독립 음성 인식을 위해서는 여러 화자가 발음한 음성을 기준 음성으로 사용하여 인식 성능을 향상시킬 수 있다. 그러나 화자 수를 증가시켜도 인식 성능의 향상에는 한계를 보이고 있다. 이러한 문제점은 현재 음성에서 추출되는 피춰가 인식에 필요한 정보를 충분히 포함하지 않는 것과 인식 알고리즘의 효율성 등에서 원인을 찾을 수 있다. 본 논문에서는 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 멜켑스트럼을 추출하고 DTW에 의해 인식을 수행하여 피춰 추출의 관점에서 화자 수 증가에 따른 인식률의 변화와 그 한계에 대해서 분석한다.

  • PDF

관광 정보 검색을 위한 자연언어 질의 해석 시스템 구현 (A design and implementation of query processor for travel information retrieval system)

  • 김명철;서광준;전경헌;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.449-458
    • /
    • 1992
  • 본 논문은 관광정보검색용 한국어 자연언어 질의 해석 시스템의 모델 정립 및 구현에 대한 것이다. 본 자연언어 질의 해석 시스템은 질의로 부터 정보 검색 시스템의 검색어들을 추출한다. 이를 위하여 1만 단어 수준의 중형사전을 구축하였으며, 불용어 사전, 전거어 사전, 유사어 사전, 복합명사 사전을 구축하였다. 사전의 어휘를 추출하기 위해서 한국어 대화체 문장에 대한 자료수집과 분석을 하였으며, 관광 정보 검색 시스템의 텍스트를 분석하였다. 200여 자연언어 질의 문장으로 실험한 결과는 비교적 좋았다.

  • PDF

2015 개정 교육과정에 따른 초등 과학 검정 교과서 내용 다양성 분석 - '물체의 무게' 단원을 중심으로 - (Content Diversity Analysis of Elementary Science Authorized Textbooks according to the 2015 Revised Curriculum: Focusing on the "Weight of an Object" Unit)

  • 신정윤;박상우;정현지;홍미나;김현재
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.307-324
    • /
    • 2022
  • 이 연구에서는 2015 개정 교육과정에 따른 초등 과학 국정 교과서와 동 교육과정에 따라 2022년에 출판된 초등 과학과 검정 교과서 7종의 '물체의 무게' 단원에 진술된 과학 개념의 서술과 탐구활동 내용의 특징을 비교하여 초등 과학 검정 교과서의 내용 다양성을 분석해 보았다. 이를 위해 각 교과서의 설명텍스트에서 개념 서술 내용의 흐름, 개념 서술 과정에서의 특이점을 분석하였고, 언어네트워크 분석 방법으로 노드와 링크 수, 연결중심성이 높은 중심 단어를 분석 하였다. 또한 교과서에 제시된 탐구활동에서 탐구활동 유형, 탐구과정기능 및 탐구 활동 내용을 분석하였다. 연구 결과, 검정 교과서에서는 과학 개념의 서술이나 탐구활동 내용 구성에서 다양성이 잘 드러나지 않았다. 하위 개념의 포함 여부, 중심 단어 등이 교과서별로 유사하였다. 탐구활동을 비교하였을 때에도 탐구활동 내용과 탐구 유형, 탐구과정기능이 유사하였다. 특히 이전 교과서에서 제시되지 않았던 새로운 탐구활동 주제나 실험 방법을 도입한 경우는 없었다. 하지만 동일한 교육과정을 바탕으로 개발되었음에도 불구하고 검정 교과서 체제의 장점을 살릴 수 있는 노력들이 일부 시도되고 있었다. 핵심 내용을 설명하기 위한 하위 개념의 배치 순서가 교과서마다 달라 개념을 설명하는 과정이 몇 가지 유형으로 구분되었고, 탐구활동의 내용은 동일하였지만 기존 실험에서의 어려움을 개선하고 보완하기 위해 탐구 활동 준비물이 교과서별로 서로 다르게 나타나기도 하였다. 이를 바탕으로 검정 교과서의 장점을 살릴 수 있는 시도가 계속되어야 할 것이다.

네트워크 텍스트 분석을 이용한 한국가정과교육학회지 논문의 연구 동향 분석 (Research Trend Analysis of Publications in the Journal of Home Economics Education Association Using Network Text Analysis)

  • 이윤정;김은정;김지선
    • 한국가정과교육학회지
    • /
    • 제31권4호
    • /
    • pp.1-18
    • /
    • 2019
  • 이 연구는 네트워크 텍스트 분석을 이용하여 가정과교육 분야의 연구동향을 분석하였다. 2003년 7월부터 2018년 12월 사이에 한국가정과교육학회지에 게재된 586편의 논문의 주제를 소셜 네트워크 분석프로그램인 Netminer 4의 텍스트분석 도구를 이용하여 주제어들의 출현빈도와 중심성 분석(연결중심성, 근접중심성, 매개중심성), 시기별 LDA 분석 등을 실시하였다. 그 결과는 다음과 같다. 첫째, 전반적으로 출현 빈도가 높은 단어들은 부모, 문화, 단원, 건강, 진로, 소비, 실천성 등이었다. 주제어 네트워크 분석 결과, 연결중심성은 부모, 관리가 가장 높았고, 근접중심성은 부모, 남학생, 매개중심성은 남학생, 단원 등이 가장 높게 나타났다. 둘째, 2003년부터 2018년까지의 연구를 4개 시기로 나누어 중심성 분석을 실시한 결과, 네 시기 모두 교육, 가정, 목적, 수업, 중학교, 학교 등 출현 빈도수가 높은 단어들은 유사하였으나, 시기별로는 제3, 제4시기에는 '목적'이라는 단어가, 제4시기에는 '과정' 이라는 단어가 두드러지게 나타났다. 셋째, 시기별 중심성 분석 결과 중심성의 종류와 무관하게 각 시기에 중요한 역할을 하는 단어들은 일정한 것으로 나타났다. 넷째, LDA 분석을 통한 토픽 변화를 분석하였을 때 교육과정, 교과서, 가족건강성, 교수학습, 평가, 식생활, 외모관리, 소비 등은 모든 시기에 지속적으로 등장하였다. 4개 시기의 토픽은 점차 다양화되고, 세분화되며, 심화되는 경향을 보였다. 연구를 통해 교육과정의 변화와 국가정책이 반영되어 새롭게 등장한 토픽인 교사연수와 안전이 주제어로 도출되었으며, 상대적으로 연구의 관심이 낮았던 토픽은 주거임이 드러나 학자들의 관심과 연구 활성화가 요구된다고 할 것이다. 이 연구는 2000년대 이후 한국가정과교육학계에서 이루어진 연구들의 주요 관심사를 파악할 수 있었다는 점과 관심사들의 순위를 제시하였다는 점에서 의미가 있다.

이용자 태그를 활용한 비디오 스피치 요약의 자동 생성 연구 (Investigating an Automatic Method in Summarizing a Video Speech Using User-Assigned Tags)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제46권1호
    • /
    • pp.163-181
    • /
    • 2012
  • 본 연구는 스피치 요약의 알고리즘을 구성하기 위해서 방대한 스피치 본문의 복잡한 분석 없이 적용될 수 있는 이용자 태그 기법, 문장 위치 및 문장 중복도 제거 기법의 효율성을 분석해 보았다. 그런 다음, 이러한 분석 결과를 기초로 하여 스피치 요약 방법을 구성, 평가하여 효율적인 스피치 요약 방안을 제안하는 것을 연구 목적으로 하고 있다. 제안된 스피치 요약 방법은 태그 및 표제 키워드 정보를 활용하고 중복도를 최소화하면서 문장 위치에 대한 가중치를 적용할 수 있는 수정된 Maximum Marginal Relevance 모형을 사용하여 구성하였다. 제안된 요약 방법의 성능은 스피치 본문의 단어 빈도 및 단어 위치 정보를 적용하여 상대적으로 복잡한 어휘 처리를 한 Extractor 시스템의 성능과 비교되었다. 비교 결과, 제안된 요약 방법을 사용한 경우가 Extractor 시스템의 경우 보다 평균 정확률은 통계적으로 유의미한 차이를 보이며 더 높았고, 평균 재현율은 더 높았지만 통계적으로 유의미한 차이를 보이지는 못했다.

영어 모음사이 자음의 인지와 발화에서 철자의 영향: 파일럿 연구 (Orthographic Influence in the Perception and Production of English Intervocalic Consonants: A Pilot Study)

  • 초미희;정주연
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.459-466
    • /
    • 2009
  • 한국어에서는 모음사이에서 겹자음이 나타날 수 있으나 영어에서는 이것이 불가능하므로 영어를 배우는 한국 학생들이 $su\underline{mm}er$와 같이 겹자음 철자를 포함하는 단어들을 발음할 때 철자의 겹자음을 모두 발음하는 오류를 흔히 범한다. 따라서 본 파일럿 연구에서는 한국 학생들이 영어 겹자음 철자를 어떻게 발음하고 인지하는지 살펴보기 위해서 영어 겹자음과 단자음의 (유사) 최소변별쌍으로 구성된 36개의 실제어를 20명의 대학생이 듣고 발음하는 인지와 발화 실험을 실행하였다. 실험 결과 한국 학생들은 철자의 영향으로 영어 단자음 철자 단어를 발음할 때보다 겹자음 철자 단어를 발음할 때 이중으로 길게 발음하는 오류를 더 흔히 범해서 겹자음 철자 단어의 정확율보다 단자음의 정확율이 크게 높았으며, 인지의 경우에도 마찬가지로 단자음 철자 단어의 인지 정확율이 겹자음 철자보다 확연하게 높았다. 덧붙여, 한국 학생들의 영어 유성 파열음의 발화 오류율이 낮은 이유를 한국어 음운 체계의 전이로 설명하였다. 끝으로, 한국학생들의 발화를 스펙트로그램을 통해서 분석함으로써 영어 단자음 철자보다는 겹자음 철자에서 더 많은 발화오류를 일으키는 것도 보여주었고 또한 교육적인 함축점도 제안하였다.