• 제목/요약/키워드: 중요어

검색결과 870건 처리시간 0.033초

인기 검색어의 순위 변화 예측 ('Hot Search Keyword' Rank-Change Prediction)

  • 김도형;강병호;이승룡
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.782-790
    • /
    • 2017
  • 인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.

영-한 기계번역에서 문형에 의한 조사 및 대역어 선택 (Selection of Postpositions and Translated Words by Sentence Pattern in the English-Korean Machine Translation)

  • 박영진;김남수;이지선;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-109
    • /
    • 1999
  • 영-한 기계번역 중 변환 단계에서 한국어 문장을 생성하기 위해서는 구구조 변환 후 조사 및 대역어 선택으로 이루어진다. 그러나 하나의 영어 단어는 여러 개의 한국어 의미들을 가지고 있기 때문에 문장에서 사용된 영어의 정확한 의미에 해당하는 한국어 대역어를 선택하는 것은 번역의 질을 높이고 시스템의 성능에 매우 중요한 역할을 한다. 특히 용언 및 체언의 대역어 선택은 문장에서 서로 간의 의미적인 관계를 고려하여야 올바른 대역어를 선택할 수 있다. 기존에는 전자 사전에 용언과 체언간의 연어 정보(collocation information)를 구축하여 대역어 선택의 문제를 해결하려고 하였으나 연어 정보가 사전에 존재하지 않을 때 올바른 대역어를 선택할 수 없었다. 또한 용언과 체언의 관계를 나타내는 조사를 선택하기 위하여 격(case)을 세분화하여 사전을 구축하였으나 격의 분류 및 사전을 구축할 경우 격을 선택하는 어려움이 있었다. 이에 따라 본 논문에서는 문형(sentence pattern)에 의한 방법으로 용언의 대역어 및 용언이 갖는 필수격 체언의 조사와 대역어 선택방법을 제안한다. 문형의 구조적인 정보에는 용언과 체언의 의미적 역할(thematic role)을 하는 조사 및 용언이 갖는 필수격 체언의 의미 자질(semantic feature)을 갖고 있다. 이러한 의미 자질을 wordnet과 한/영 및 영/한 사전을 이용하여 의미 지표(semantic marker)를 갖는 문형 사전을 구축한다. 또한 의미 지표를 갖는 문형 사전을 기반으로 조사 및 대역어 선택 알고리즘을 개발한다.

  • PDF

조어론에 있어서의 어휘연습과 교수법 제언 (Wortschatzarbeit in der Wortbildung und ihre didaktische $Vorschl\"{a}ge$)

  • 장기성;정현숙
    • 한국독어학회지:독어학
    • /
    • 제3집
    • /
    • pp.233-252
    • /
    • 2001
  • 1970년이래 외국어학습 및 교수법에 있어서 어휘에 관련된 문제들에 많은 관심과 그 중요성이 인식되고있다. 특히 Fleischer/Buz (1992)등에 의한 당해 영역의 연구물 뿐 아니라, 전문서적 및 어학 자료(교재)등에서도 이러한 중요성이 강조되어 왔음을 알 수 있다. Fleischer등은 조어규칙의 개념과 조어모델을 규정하는 근거들로 생산성 Produktivitat, 용인성 Akzeptabilitat, 조어참여성 Aktivitat등 중요한 매개요인으로 간주하고 있으며 $G\"{o}tze/ Hess-Luttich$ (1999)등의 학자들은 어휘체계에서 두 개 이상의 구성성분들이 결합하여 당해 시대의 시대정신이나 시대상에 부합되는 신조 어휘들을 생성하며, 또한 그 사회의 정보화와 기술화에 이바지하며, 이를 통해서 전문어의 생산력을 한층 높혀 주는 통로로 작용함을 주장한바 있다. 본고에서는 조어론의 이러한 기본원리나 개념들에 입각하여 독일어 수업에서 목표어의 습득에 관여적인 역할을 수행하는 조어모델, 즉 합성어와 파생어를 형용사와 명사의 층위에서 구체적으로 분석하고 기술했다. 예컨데, 합성어에 있어서 접두사와 접미사, 조어의 유형 가운데 축약어, 그리고 외래어 기저와 고유어 접미사 및 접두사, 고유어기저와 외래어접미사(접두사) 뿐만 아니라, 의미론적 관점에서 본 합성어의 형태, 합성 연결소의 형태와 기호의 사용, 명사적 파생어에서 고유어접미사(접두사), 축약조어와 축약어 단어형성, 형용사조어의 특성, 명시적파생 가운데 고유어(외래어) 접미사(접두사) 등이 어휘생성과 어휘신장의 관점에서 교수법의 적용가능성이 논의되었다. 결론부에서는 외국어를 습득하고자하는 학습자에게 일방적이고 획일적인 암기식 위주의 어휘학습방법에서 벗어나, 목표어가 요구하는 새로운 어휘를 획득하는데 비교적 용이하며 또한 체계적으로 습득 할 수 있도록 인지론에 기대어 텍스트, 문장, 어휘영역 등이 투입되어 적용되었으며, 이에 상응되게 구체적인 몇몇 방안들이 제시되었다. 학습자들이 텍스트를 읽고 중심내용을 찾아내며, 단락을 구획하고 또한 체계를 파악하는데 있어서 어휘연습은 외국어 교수법 측면에서도 매우 관여적이며 시의적절한 과제라 생각된다.

  • PDF

잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련 (Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments)

  • 임형준;정명훈;김회린
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.468-475
    • /
    • 2020
  • 단어의 특성을 잘 표현하는 음성 단어 임베딩은 기동어 인식에서 중요한 역할을 한다. 하지만 기동어 인식이 수행되는 환경에서 필연적으로 발생하는 다양한 종류의 잡음으로 인해 음성 단어 임베딩의 표현 능력이 손상될 수 있으며, 인식 성능의 저하를 초래할 수 있다. 본 논문에서는 음성 단어 임베딩에 영향을 줄 수 있는 환경적인 요인을 완화시키는 삼중항 손실 기반의 도메인 적대적 훈련 방식을 제안한다. 잡음 환경에서의 기동어 검출 실험을 통해 제안하는 방식이 기존의 도메인 적대적 훈련 방식을 효과적으로 개선하는 모습을 확인할 수 있었고, 잡음 환경에서의 기동어 검출을 위해 기존에 제안된 다른 방법과의 결합을 통해 제안하는 방식의 확장성을 확인할 수 있었다.

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

데이터의 카테고리 연관성을 이용한 색인어 자동 추출 (Automated Keyword Extraction using Category Correlation of Data)

  • 우영호;허태성;허웅;박영배;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.242-245
    • /
    • 2005
  • 본 논문에서는 특정 영역에서 나타날 수 있는 데이터를 카테고리별로 저장한 시소러스를 이용하여 색인어 후보를 추출한다. 그리고 각 데이터의 카테고리 간의 상호 연관성을 고려하여 검출되는 색인어의 정확도를 향상시킬 수 있는 연관 중요도를 적용한 색인어 자동 추출 시스템을 제안하였다. 제안된 시스템은 출현빈도를 고려한 방법보다 47% 시소러스를 이용한 방법보다 18% 향상된 성능을 보였다.

  • PDF

TGQL : Tachyon ODBMS를 위한 그래픽 질의어의 설계 및 구현 (A Design and Implementation of GQL for Tachyon ODBMS)

  • 안명상;이충세;경원현;조완섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.257-259
    • /
    • 2000
  • 데이터베이스 전문 사용자가 아닌 일반 유저들도 쉽게 데이터베이스에 접근하고자 하는 요구들이 늘어나고 있다. 이러한 요구사항을 만족시킬 수 있는 방법 중 하나가 Graphical Query를 사용하는 것이다. Graphical Query는 유저에게 Schema browsing 매커니즘을 제공하여 텍스트를 기반의 질의보다 쉽게 데이터베이스에 접근할 수 있기 때문이다. 본 논문에서는 Tachyon OODBMS을 위한 그래픽 질의어 TGQL(Tachyon Graphical Query Language)의 설계 및 구현에 대해 서술한다. TGQL은 객체 DBMS를 위한 그래픽 질의어이므로 객체지향 개념을 어떻게 그래픽 질의어에 시각적인 요소들로 반영시키는가 라는 문제가 중요하게 다루어진다. 본 논문은 이러한 측면에서 TGQL의 특징들을 기술한다.

  • PDF

연상정보를 이용한 단락분할 방법 (A Passage Retrieval Method by Using Field-Associated Information)

  • 홍성옥;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.497-500
    • /
    • 2003
  • 문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

  • PDF

어휘의미망을 이용한 중국어 비감독 어의 중의성 해소 (Chinese Unsupervised Word Sense Disambiguation using WordNet)

  • 롄광저;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

복합색인어 기반 단문텍스트 감정 인식 기법 (Short Text Emotion Recognition based on Complex Keywords)

  • 한기현;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.520-522
    • /
    • 2013
  • 스마트 폰의 확산으로 대화의 개념이 음성에서 텍스트로 확대 되고 있다. 방대하게 누적되고 있는 메신저의 텍스트 데이터로부터 유용한 정보들을 찾아 사용자에게 추천서비스를 제공할 수 있다. 이를 뒷받침 해주기 위해서는 텍스트 감정 인식이 중요하다. 기존에는 PMI기법과 감정키워드를 이용하여 감정을 분류 하였다. 그러나 특정단어로 감정을 분류하기 때문에 정확도가 낮았다. 본 논문에서는 복합색인어 기반 텍스트 감정 인식 기법을 제안한다. 문장에서 동사와 복합색인어를 추출하여 음운으로 분해한다. 그리고 스트링커널에서 벡터 값을 추출하여 기계학습 알고리즘(SVM)으로 4가지 감정(행복, 슬픔. 화남, 평범)으로 분류하는 방법이다. 동사와 감정에 영향을 주는 색인어를 추출하여 감정을 인식하는 기법으로 실험결과 정확도는 기존에 동사만 사용했을 때 보다 15%향상됨을 보였다.