• 제목/요약/키워드: 단어 유사도 분석

검색결과 231건 처리시간 0.026초

한국어 음성 인식 시스템을 위한 MEL-LPC 분석 방법과 LPC-MEL 분석 방법의 비교 (Comparison of MEL-LPC and LPC-MEL Analysis Method for the Korean Speech Recognition Systems.)

  • 김주곤;김범국;정호열;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.833-836
    • /
    • 2001
  • 본 논문에서는 한국어 음성인식 시스템의 성능 향상을 위해 청각 주파수 분해능을 가진 MEL-LPC Cepstrum을 음소단위의 HMM(Hidden Markov Model)을 기반으로 하는 인식 시스템에 적용하여 그 결과를 비교 검토하였다. 선형예측(LP) 분석 후에 후처리로서 주파수를 왜곡시킨 LPC-MEL 분석이 계산량이 적고 효과적이라 일반적으로 많이 사용되고 있으나 주파수 분해능은 많이 개선되지 않는다. 따라서 본 논문에서는 주파수 분해능을 개선하기 위해, 원 음성신호로부터 직접적으로 멜주파수로 왜곡시킨 후 선형 예측 분석을 수행하는 MEL-LPC 분석방법을 이용한 음소기반의 화자 독립 음성인식 시스템을 구성하여 기존의 LPC-MEL 분석방법과 비교실험을 통하여 MEL-LPC 분석방법의 유효성을 검토하였다. 실험에 사용한 음성 데이터베이스는 음소 및 단어 인식실험에서는 ETRI 445단어 DB, 연속 숫자음인식 실험에서는 KLE 4연속 숫자음 DB를 사용하였다. 화자 독립 음소인식 실험의 경우, 묵음을 제외한 47개의 유사 음소에 대하여 4상태 3출력의 Left-to-Right 모델을이용하였다. 단어 및 연속 숫자음 인식 실험의 경우, 유한상태 네트워크에 의한 OPDP법을 이용하였다. 화자 독립 음소, 단어 및 4연속 숫자음 인식 실험결과, 기존의 LPC-MEL Cepstrum을 사용한 경우보다 MEL-LPC Cepstum을 사용한 경우가 더 높은 인식률을 나타내어 한국어 음성인식 시스템에서 MEL-LPC 분석방법의 유효성을 확인할 수 있었다.

  • PDF

코사인 유사도 기법을 이용한 뉴스 추천 시스템 (SNS news Recommendation by Using Cosine Similarity)

  • 김상모;김형준;한인규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2013
  • 사용자별로 SNS/RSS 구독 뉴스 분석을 통해 사용자가 관심이 있는 새로운 뉴스를 추천해 주는 시스템을 설계하고 구현한다. 뉴스 추천 시스템의 설계를 위해 전체 시스템에서 사용자와 서버에서의 작업을 명세하고, 이중에 주요 기능을 담당하는 부분을 구현한다. 구현된 주요 기능은 선호 문서가 들어왔을 때 특징을 추출하고 이를 저장하는 것과 새로운 문서가 들어왔을 때 선호 문서군과 얼마나 유사한지 판별하여 문서에 대한 추천 여부를 결정하는 것이다. 선호 문서의 특징 추출에 대해서는 형태소 분석을 통해 단어와 빈도를 추출하고 이를 누적하여 저장한다. 또한, 새로운 문서가 들어왔을 때 코사인 유사도를 계산하여 사용자가 선호하는 학습문서와의 유사도 비교를 통해 문서 추천 여부를 결정한다. 구현된 시스템에서 실제로 연관된 선호 문서군을 학습시키고, 연관된 새로운 문서 혹은 연관되지 않은 새로운 문서에 대한 추천 여부를 비교하는 것으로 시스템 정확도를 파악한다.

  • PDF

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

요구 사항 문장 범주화를 이용한 웹 기반의 요구 사항 추출 지원 시스템 (Web-based Requirements Elicitation Supporting System using Requirements Sentences Categorization)

  • 고영중;강기선;김재선;박수용;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.384-392
    • /
    • 2000
  • 시스템이 사용되는 분야가 점점 복잡해지고 대형화됨에 따라 시스템 개발에 있어 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 인터넷(internet)의 발전으로 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 자연어로 표현되는 요구 사항 문장을 유사도 측정 기법을 이용하여 주제별로 범주화(categorization)함으로써 분산 환경에서 수집된 요구 사항 문장을 분석하기 위한 기초를 제공할 수 있는 요구 사항 추출 지원 시스템을 제안한다. 제안된 시스템은 단어간, 문장간의 유사도 측정 기법을 이용하여 수집된 요구 사항 문장들을 주제별로 자동으로 분류함으로써 요구 사항 분석 시 초기 작업의 어려움을 줄이고 신속하고 정확하게 분석 작업을 수행하도록 지원할 것이다. 본 논문에서는 단어간, 문장간 유사도 측정 기법을 이용한 범주화 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 추출, 처리되는 과정을 보여주고 있다.

  • PDF

프로파일링 분석과 동시출현단어 분석을 이용한 한국어교육학의 정체성 분석 (Profiling and Co-word Analysis of Teaching Korean as a Foreign Language Domain)

  • 강범일;박지홍
    • 정보관리학회지
    • /
    • 제30권4호
    • /
    • pp.195-213
    • /
    • 2013
  • 이 연구에서는 프로파일링 분석과 동시출현단어 분석을 이용해 인접 학문과의 연관성을 바탕으로 한국어교육학의 정체성을 분석하고자 하였다. 먼저, 한국어교육학, 국어교육학, 국어학 학술지의 논문에서 추출한 주제어를 기반으로 저널 프로파일링 분석을 수행하였고 그 결과 한국어교육학 분야의 학술지들이 하나의 독립된 군집을 형성하는 것으로 나타났다. 그리고 학문 분야 프로파일링 분석과 동시출현단어 분석을 이용해 학문 분야 간 관계를 분석한 결과 한국어교육학이 국어학보다 국어교육학과 더 큰 유사성을 가지는 것으로 나타났다. 마지막으로, 동시출현단어 분석을 통해 세 학문 분야의 지적 구조를 비교 분석하였다. 이를 통해 한국어교육학에서만 출현한 주제들을 확인함으로써 인접학문들과의 관계 속에서 한국어교육학이 드러내는 정체성을 파악할 수 있었다.

유의어 사전 기반 환경기술 검색 시스템 설계 (Design of environmental technology search system using synonym dictionary)

  • ;;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.582-586
    • /
    • 2020
  • 국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.

  • PDF

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

워드임베딩을 활용한 복압성 요실금 관련 연구 동향에 관한 융합 연구 (A Convergence Study of the Research Trends on Stress Urinary Incontinence using Word Embedding)

  • 김준희;안선희;곽경태;원영수;유화익
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 연구의 목적은 '복압성 요실금'을 키워드로 검색된 연구들의 경향과 특성을 단어 빈도를 통해 분석하고, 워드 임베딩을 사용하여 그 관계를 모델링 하고자 하였다. 의학 서지 데이터베이스인 MEDLINE에 등록되어 있는 복압성 요실금 연구 9,868개 논문들의 초록 문자 데이터를 Python 프로그램을 이용하여 추출하였다. 그런 다음 빈도 분석을 통해 10개의 키워드를 선택하였다. 키워드 관련 단어들의 유사도는 Word2Vec 머신러닝 알고리즘으로 분석하였다. 그리고, t-SNE 기법을 사용하여 단어의 위치와 거리가 시각화하였고, 이에 따라 그룹을 분류하여 이를 분석하였다. 복압성 요실금과 관련된 연구는 1980년대 이후 빠르게 증가했다. 키워드 분석을 통해 논문 초록에서 가장 많이 사용된 키워드는 '여성', '요도', '수술'로 나타났다. Word2Vec 모델링을 통해 복압성 요실금 관련 연구에서 주요 키워드들과 가장 높은 연관성을 나타내는 단어들에는 '여성', '절박', '증상' 등이 있었다. 그리고, t-SNE 기법을 통해 키워드와 관련 단어들은 복압성 요실금의 증상, 신체 기관의 해부학적 특성, 그리고 수술적 중재를 중심으로 하는 3개의 그룹으로 분류될 수 있었다. 본 연구는 초록을 구성하는 단어들의 키워드 빈도 분석 및 워드임베딩 방식을 이용하여 복압성 요실금 관련 연구들의 동향을 살펴본 최초의 연구이다. 본 연구의 결과는 향후 연구자들이 복압성 요실금 관련 연구 분야의 주제와 방향성을 선택하는 데 있어 기초자료로 활용될 수 있을 것이다.

과학기술 정책기조 변화 분석과 국가 연구개발 투자방향 연구 (The Analysis of S&T Policy Changes and Investment Direction of National R&D)

  • 최종일;김정언
    • 디지털융복합연구
    • /
    • 제10권2호
    • /
    • pp.11-23
    • /
    • 2012
  • 본 연구는 우리나라 과학기술정책 기조 변화에 관한 중장기적 비교 분석을 통해 정책기조의 변화를 파악하고 있다. 과학계량학(scientometrics)적 접근 방법을 이용하여 국가연구개발투자 효율성 관련 정책의 기조변화 및 이슈를 유형화하고, 시기별 과학기술투자 효율화 정책 기조의 방향을 분석한다. 정책기조의 변화 분석은 과학기술혁신5개년계획(1999-2002)부터 MB정부 과학기술기본계획(2008-현재)의 과학기술기본계획 문서를 이용하여, 과학기술투자 효율화 정책기조 변화에 관해서 공통단어분석을 수행하고 있다. 구체적으로 한 단락 안에 연구개발투자 효율성과 관련된 공통출현단어들을 추출하여 단어별로 빈도수, 상대빈도, 시기별 관련성 등을 분석한다. 연구개발투자 효율성과 공통으로 출현하는 공통출현단어의 순위유사성 분석과 중복률 분석을 종합하면, 연구개발투자 효율성 관련 정책기조의 변화는 Regime 1(과학기술혁신 5개년 계획과 참여정부 과학기술기본계획), Regime 2(과학기술기본계획과 참여정부 과학기술기본계획), Regime 3(MB 정부의 과학기술기본계획)로 구분할 수 있었다.

한국어 워드넷에서의 개념 유사도를 활용한 선택형 문항 생성 시스템 (A Question Example Generation System for Multiple Choice Tests by utilizing Concept Similarity in Korean WordNet)

  • 김용범;김유섭
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.125-134
    • /
    • 2008
  • 본 논문에서는 난이도를 고려하여 선택형 문항을 자동으로 생성하는 방법을 고안하였으며, 학습자 수준에 적합하도록 동적인 형태로 다양한 문항 제시를 할 수 있는 시스템을 구현하였다. 선택형 문제를 통한 평가에서는 적절한 규모의 문제 은행이 필요하다. 이와 같은 요구를 만족시키기 위해서는 보다 쉽고 빠른 방식으로 다양하고 많은 문제 및 문항을 생성할 수 있는 시스템이 필요한데, 본 논문에서는 문제 및 문항의 생성을 위하여 워드넷이라는 언어 자원을 이용한 자동 생성 방법을 고안하였다. 자동 생성을 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드마다 워드넷의 계층적 특성에 따라 유사한 의미를 가진 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 기존의 한국어 워드넷의 스키마를 개념간 의미 유사도 행렬을 구할 수 있는 형태의 스키마로 변경한다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도가 없다고 볼 수 있는 수준 9까지 다양하게 제시될 수 있으며, 생성될 문항에 어느 정도의 유사도를 가진 어휘를 포함시키느냐에 따라서 출제자의 의도에 따른 난이도의 조정이 가능하다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 포함되어 있는 트리 구조의 크기까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 더 다양한 내용과 난이도를 가진 문제 또는 문항을 더 쉽게 출제할 수 있는 시스템을 개발할 수 있었다.