• 제목/요약/키워드: 최소단어

검색결과 56건 처리시간 0.026초

워드임베딩을 이용한 온라인 비디오 강의의 고빈도 단어와 키워드 간의 유사도 비교 연구 (A Study on Comparative Analysis with High-Frequency Word and Keyword using Word Embedding)

  • 조재춘;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.385-386
    • /
    • 2017
  • 무료 온라인 교육환경은 교육의 기회를 제공함으로써, 지속적으로 관심이 높아지고 있으며 배움에 대한 노력에 중시하고 있다. 따라서 본 연구는 배움에 대한 노력을 온라인에서 자동으로 판단할 수 있는 최소학습 판단 시스템을 제안해 왔다. 최소학습을 판단하기 위해 온라인 비디오 강의에서 고빈도 단어를 추출하여 단어게임을 통해 판단하는데, 이때 고빈도 단어가 최소학습을 판단하기 위한 키워드로 사용할 수 있는지에 대한 검증 실험이 요구되었다. 따라서 본 논문은 워드임베딩을 이용하여 고빈도 단어와 키워드간의 유사도를 비교하여 고빈도 단어에 대한 검증 실험을 실시하였다. 실험 결과, 고빈도 단어가 온라인 비디오 강의를 대표할 수 있는 키워드로 사용될 수 있는 긍정적인 결과를 보였고 최소 학습을 판단하기 위한 요소(Feature)로 충분히 사용가능함을 보였다.

단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측 (Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity)

  • 이상아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측 (Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity)

  • 이상아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

CM 알고리즘을 이용한 핵심어 검출 시스템의 인식률 향상에 관한 연구 (A Study on the Recognition-Rate Improvement by the Keyword Spotting System using CM Algorithm)

  • 원종문;이정숙;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.81-84
    • /
    • 2001
  • 본 논문은 중규모 단어급의 핵심어 검출 시스템에서 인식률 향상을 위해 미등록어 거절(Out-of-Vocabulary rejection) 기능을 제어하기 위한 연구이다. 이것은 핵심어 검출기에서 인식된 결과를 확인하는 과정으로 검증시스템이 구현되기 위해서는 매 음소마다 검증 기능이 필요하고, 이를 위해서 반음소(anti-phoneme model) 모델을 사용하였다. 검증의 역할은 인식기에서 인식된 단어가 등록어인지 미등록어인지 판별하는 것이다. 단어인식기는 비터비 탐색을 하므로, 기본적으로 단어단위로 인식을 하지만 그 인식된 단어는 내부적으로 음소단위로 인식된다. 따라서, 최소 검증 오류를 갖는 반음소 모델을 사용하고, 이를 이용하여 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 통계적인 방법에 의해 신뢰도를 구한다 이 음소단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소단위를 평균 내는 방식 을 취한다. 이렇게 함으로서, 등록어와 미등록어 사이의 분별력을 크게 하여 향상된 인식 성능을 얻었다.

  • PDF

한국어최적상호명코퍼스설계에관한연구 (A Study on the optimal text corpus for company names)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권7호
    • /
    • pp.747-754
    • /
    • 2004
  • 본 논문에서는 114 안내시스템에 저장되어있는 서로 중복되어 있지 않는 1,566,943개의 상호명 코퍼스에서 이 코퍼스의 특징을 가장 잘 표현 해 줄 수 있는 최적 코퍼스를 설계하였다. 최적 코퍼스를 구하기 위해 두 단계의 방식을 택한다. 일 단계는 기본코퍼스에 존재하는 트라이폰이 모두 나타내는 최소의 단어 셋을 구하는 최적 음소균형 코퍼스 셋이고 다음 단계는 기본코퍼스에 존재하는 트라이폰의 빈번도를 고려하는 최소의 단어 셋을 구하는 음소 분포코퍼스 셋을 설계하였다. 실험 결과 최적 음소 균형 셋으로 8,699단어가 선정되었으며 최적 음소 분포 균형 셋으로 16,783 단어가 선정되었다. 이러한 최적 코퍼스는 음성 및 합성 시스템을 위한 음성데이터베이스를 구축 할 때 이용된다.

  • PDF

어떤 정규언어와 Prefix Coding (Some Regular Languages and Prefix Coding)

  • ;나현숙
    • 한국통신학회논문지
    • /
    • 제30권2C호
    • /
    • pp.1-9
    • /
    • 2005
  • 코드는 단어들의 집합이다. 어떤 단어도 다른 것의 Prefix가 아닌 단어들의 집합을 Prefix(-Free) Code라 부르고, 여기서 Prefix Coding이란, 주어진 수 n에 대하여, n개의 단어로 이루어진 Prefix 코드들 중에서 단어길이의 총합이 최소인 최적 Prefix 코드를 찾는 것을 말한다. 이 논문에서는 이의 특수한 경우로서, 특정 정규언어군에 속하는 임의의 정규언어 L에 대하여, L에 속하는 Prefix 코드들 중 최적의 코드를 찾는 방법을 제시한다. 또, 수 n이 변함에 따라 최적 Prefix 코드의 구조가 어떻게 변하는지, 그 성질을 트리구조를 이용해 밝힌다.

평균점에 대한 불일치의 합을 이용한 자동 단어 군집화 (Automatic word clustering using total divergence to the average)

  • 이호;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.419-424
    • /
    • 1998
  • 본 논문에서는 단어들의 분포적 특성을 이용하여 자동으로 단어를 군집화(clustering) 하는 기법을 제시한다. 제안된 군집화 기법에서는 단어들 사이의 거리(distance)를 가상 공간상에 있는 두 단어의 평균점에 대한 불일치의 합(total divergence to the average)으로 측정하며 군집화 알고리즘으로는 최소 신장 트리(minimal spanning tree)를 이용한다. 본 논문에서는 이 기법에 대해 두 가지 실험을 수행한다. 첫 번째 실험은 코퍼스에서 상위 출현 빈도를 가지는 약 1,200 개의 명사들을 의미에 따라 군집화 하는 것이며 두 번째 실험은 이 논문에서 제시한 자동 군집화 방법의 성능을 객관적으로 평가하기 위한 것으로 가상 단어(pseudo word)에 대한 군집화이다. 실험 결과 이 방법은 가상 단어에 대해 약 91%의 군집화 정확도와(clustering precision)와 약 81%의 군집 순수도(cluster purity)를 나타내었다. 한편 두 번째 실험에서는 평균점에 대한 불일치의 합을 이용한 거리 측정에서 나타나는 문제점을 보완한 거리 측정 방법을 제시하였으며 이를 이용하여 가상 단어 군집화를 수행한 결과 군집화 정확도와 군집 순수도가 각각 약 96% 및 95%로 향상되었다.

  • PDF

독일어 운율구조에서 최소단어의 역할 (Die Rolle des minimalen Wortes $f\"{u}r$ die prosodische Struktur des Deutschen)

  • 유시택
    • 한국독어학회지:독어학
    • /
    • 제5집
    • /
    • pp.67-89
    • /
    • 2002
  • Die meisten $W\"{o}rter$ im Deutschen, die zur lexikalichen Hauptkategorie $geh\"{o}ren,\;erf\"{u}llen$ die prosodischen Bedingungen, class sie ein phonologisches Wort bilden und class ein phonologisches Wort zumindest aus zwei Moren besteht. In dieser Arbeit wird gezeigt, welche Konsequenzen diese Constraints $f\"{u}r$ die prosodische Gestalt der deutschen $W\"{o}rter$ haben. Eine davon bezieht sich auf das $Ph\"{a}nomen$, das in der Literatur als 'minimales Wort' bekannt ist. Die distributionellen $Beschr\"{a}nkungen$ eines ungespannten kurzen Vokals im Deutschen sind darauf $Zur\"{u}ckzuf\"{u}hren$, class ein prosodisches Wort mindestens zwei Moren enthalten muss. Die Forderung nach einem minimalen Wort wirft aber die Frage, warum ein Stamm wie feige eine zweisilbige Struktur CVCV mit einer finalen Schwasilbe aufweisen, ein Stamm wie reif dagegen eine einsilbige Struktur eve. Allein die Forderung nach einem zweimorigen prosodischen Wort wurde auch eine ungrammatische Form wie feig $erf\"{u}llen$. Bei Formen wie feige ist festzustellen, dass das Constraint IDENT-IO [voiced] wichtiger als das Constraint ist, das einen einsilbigen Stamm verlangt. Eine Analyse, in der die finale Schwa-Silbe in einem CVCV-Stamm als ein stammbildendes Element oder Pseudosuffix aufgefasst wird, kann diese Interaktion zwischen Constraint nicht erfassen. Im Vergleich dazu zeigen die zweisilben Flexionsformen, bei denen Schwa-Silben als ein echtes Suffix fungieren, dass das Constraint 'Realisiere Morphem' nur dann verletzt werden kann, wenn es zur $Erf\"{u}llung\;des\;h\"{o}her$ rangierten Constraints OCP(nucleus) dient. Dieses Constraint ist seinerseits nur dann verletzbar, wenn damit das $h\"{o}here$ Constraint Coda-Cond erfullt werden kann.

  • PDF

블록화된 $2^{n-k}$ 부분실시법의 최적 디자인 선택에 관한 연구

  • 김공순;배종성
    • Communications for Statistical Applications and Methods
    • /
    • 제4권2호
    • /
    • pp.393-401
    • /
    • 1997
  • 블록화한 $2^{n-k}$부분실시법에서 총 실헙횟수를 32회로 고정할때, 요인수가 ${6\leqq}n{\leqq10}$인 경우 가능한 모든 요인들간의 조합에 대해서 독립 생성자와 블록생성자를 구하고 이들 각 요인과 블록생성자로 구성된 디자인의 단어길이구조를 구하였다. 그리고 최소길이 방법으로 구한 최적의 부분실디자인을 Soren(1994a)의 방법에 따라 블록화하였다. Brownlee등(1948)의 최소길이 성질을 블록화한 부분실디자인에 확장시키고, 블록화한 부분실디자인은 확장된 최소길이 성질을 만족하는 최적의 디자인임을 보였다.

  • PDF

구문 분석과 Level Building을 이용한 한국어 연속음 인식 (The Recognition of Korean Continuous Speech using Syntactic Analysis and Level Building)

  • 안태옥;변용규;김순협
    • 한국음향학회지
    • /
    • 제5권4호
    • /
    • pp.27-36
    • /
    • 1986
  • 본 논문은 특정 화자에 대한 하국어 연속음의 효율적인 인식을 위하여, 구문분석과 OGS기법으 로 변형시킨 Level Building을 이용한 인식시스템에 대해서 제안하고 있다. 본 시스템에서 사용하는 template는 연속음을 분할시킨 단독음이며 소구간 경로 및 본 논문에서 제안한 전체 경로 제약에 의해 거리 계산값이 최소인 super reference를 구함으로써 인식된다. 본 연구에서 사용한 연속음은 단독음 11 자로 구성된 13개의 전철역명으로서 2인의 남성과 1인의 여성화자에 의해 10번씩 발음한 130단어를 테 스트하였는데 97.7%의 단어인식을 보였다.

  • PDF