• 제목/요약/키워드: 단어 검색

검색결과 558건 처리시간 0.048초

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

소셜 네트웍의 순환 관계를 적용한 스패머 특정화 (Specifying Spammers by Cycle Detection in Social Network)

  • 엄수현;이우기;이정훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(D)
    • /
    • pp.19-20
    • /
    • 2012
  • 소셜 네트웍을 통한 다양한 서비스들은 새로운 비즈니스 모델의 형성이라는 긍정적인 측면이 있는 반면에, 개인정보 누출이나 스팸과 같이 부정적인 측면도 등장하고 있다. 현재 스팸을 차단하기 위해 스팸방지 가이드라인, 스팸 단어 검색에 의한 스팸 메시지 차단 등 많은 방법 및 연구들이 논의되어 왔다. 하지만, 기존의 차수를 활용한 방법은 스팸이 아닌 정점 또한 스팸으로 간주하는 문제점을 가지고 있어 부정확하다는 단점이 있다. 본 연구에서는 이를 해결하고자 다른 구조적 특성인 순환을 분석하여 스팸들을 차단하는 방법을 제안하고 그 효과를 입증하였다.

EBKS에 기반하는 PDA용 E-Book Viewer의 설계 및 구현 (Design and Implementation of E-Book Viewer for PDA based on EBKS)

  • 이주표;박준표;전영훈;황대훈
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(하)
    • /
    • pp.1034-1039
    • /
    • 2002
  • 오늘날 컴퓨터 기술의 발전 및 인터넷의 급속한 확산에 따른 디지털 컨텐츠 시장의 급성장, 그리고 E-Book이 갖는 장정들이 복합적으로 결합되면서 전세계적으로 E-Book은 많은 관심을 집중시키고 있다. 그러나 각 업체마다 다른 문서 포맷은 E-Book의 시장 활성화를 방해하는 요소가 되고 있다. 이에 미국과 일본에서는 E-Book 문서의 표준화를 위한 컨소시엄이 구성되었고, 국내에서도 E-Book 컨텐츠의 정확한 교환을 목적으로 EBKS를 구성하였다. 이에 본 연구에서는 EBKS에 기반하는 PDA용 E-Book Viewer의 개발을 위하여 Windows 환경에서 QT Labrary를 이용하여 개발하였으며, 폰트의 크기와 스킨의 색상, 주석의 표현 여부 등을 설정할 수 있고, 특정 단어를 검색하는 기능을 지원한다.

  • PDF

유사 어절 트리를 이용한 표절 문서의 Clustering 방법 (Clustering Method Of Plagiarism Document To Use Similarity Syntagma Tree)

  • 천승환;김미영;이귀상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2269-2272
    • /
    • 2002
  • 인터넷과 컴퓨터를 이용한 학생들의 과제물을 평가하는데 있어 표절의 용이성으로 인해 정확히 판별하는 것은 매우 어렵고 번거로운 일이다. 특히 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 클러스터링 하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 Clustering을 찾는 기존의 정보 검색 방법들과는 전혀 다른 문제이다. 본 논문에서는 과제물의 평가에 지침을 제공할 수 있도록 유사 어절 트리를 이용한 표절 유사도에 따른 Cluster들을 생성하는 방법에 대해 제안한다.

  • PDF

XML을 이용한 자동차 정보 정비 시스템 구현 (An Implementation of Automobiles Maintenance System using XML)

  • 장식원;신용태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.480-482
    • /
    • 1999
  • XML은 이제 우리에게 아주 생소한 단어는 아니다. 어느 정도 익숙해졌고, 앞으로 웹이 XML을 포함할 것이라는 점을 의심하는 사람도 많지 않을 것이다. 그러나 실제로 XML이 어떻게 생성되고, 저장되며, 어떠한 방법으로 응용이 되는지에 대해서 아는 사람은 그리 많지 않다. XML은 자신만의 태그를 가질 수 있고, 그 태그에 대한 설명을 할 수 있으며, 스타일 지정 문서를 사용해서 하나의 문서를 여러 형태로 배포할 수 있다. 또한 XML은 구조적인 문서이기 때문에 보다 쉬운 관리, 검색 그리고 편집을 위해서 데이터베이스에 저장하는 것도 가능하다. 본 논문에서는 XML의 이러한 특성을 활용할 수 있는 웹 상에서 구현된 XML 편집기를 보여주고 XML 문서를 데이터베이스에 저장하는 방법을 제안한다. 그리고 활용의 예로써 자동차 정비정보 시스템 구축 사례를 소개한다.

  • PDF

코퍼스로부터 구문 분석을 위한 사전 구성 (A Dictionary Composition for Syntactic Analyzer from Corpus)

  • 정민수;정규철;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

OPAC에서 서명단어탐색의 문헌순위화에 관한 연구 (An Experimental Study on Ranking Output of Title Word Searching in the Boolean OPAC System)

  • 노정순
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.7-30
    • /
    • 2001
  • 본 연구는 불질의 기반의 OPAC에서 정렬과 적합성 순위화알고리즘의 효과를 분석하고, 순위화의 성능을 평가하는 척도를 연구하였다. 연구결과 출판년도순 정렬이 저자명순, 서명순, 출판사순 정렬보다 우수하였으나 유의한 차이는 아니었다. 용어빈도수에 기반을 퍼지나 DNF 모델보다는 위치정보에 기반을 둔 알고리즘의 순위화 성능이 더 우수하였다. 6개의 순위화 성능평가척도간에 차이는 없었으며, 순위화시스템에서 정확률 P보다 분별력이 높은 단순 척도의 유용성이 확인되었다.

  • PDF

의미 지향성 분석을 통한 단문 텍스트 기반 감정인지 (Emotion Recognition based on Short Text using Semantic Orientation Analysis)

  • 김현우;이승룡;정태충;윤석환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.375-377
    • /
    • 2012
  • 스마트폰과 같은 모바일 기기가 발전함에 따라 SNS, 모바일 메신저, SMS와 같은 단문 기반 메시지는 자신의 감정을 가장 잘 표현하는 매체이다. 그럼에도 불구하고 기존 연구는 주로 장문의 텍스트로부터 긍정, 부정 분류나 문서의 성향을 분석하는 것에 그치는 경우가 많다. 의미지향(Semantic Orientation)방법은 검색엔진을 통해 감정 키워드와 인지하고자 하는 단어의 동시 빈출 정도를 PMI로 계산한 것으로 WordNet과 같은 의미 사전이 존재하지 않는 한국어의 특성에서 적용 가능한 방법이다. 본 논문에서는 의미 지향성 및 다른 텍스트 기반 감정 분류 기술에 대해 비교하고 이들을 활용하여 한국어로 구성된 단문 텍스트에서 효율적인 감정 분류 기법을 제안하고자 한다.

음성출력/학습기능을 지원하는 컴퓨터용어 약어 전자사전 설계 (A Design of Electronic Dictionary for Computer English Abbreviation Supporting Voice and Study Functions)

  • 김홍섭;이현걸;김철호;이금석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.347-357
    • /
    • 1992
  • 컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.

  • PDF

격틀 자동구축과 격틀평가 방법에 관한 연구 (Study on Automatic Construction and Evaluation method of Caseframe)

  • 최용석;이주호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-279
    • /
    • 1999
  • 격틀이란 동사에 대해 필요한 격들과 그 격에 알맞은 단어집합으로 이루어져 있는 것으로 명사와 동사의 의미적 호응을 표현한다. 격틀은 자연언어처리분야에서 주요한 정보로 사용할 수 있다. 의미구분이라든지 번역에서 한국어 생성, 정보검색에서 중요정보 추출 등 잘 구성한 질 높은 격틀은 여러 연구의 질을 높여줄 수 있다. 따라서, 질 좋은 격틀을 구성하기 위한 여러 노력들이 현재 이루어지고 있다. 본 논문에서는 기계 가독형 사전과 말모듬을 이용해서 자동으로 격틀을 구성한다. 자동구성 방법으로 먼저 기계가독형 사전을 이용해서 상위개념 정보를 가지는 분류정보를 구성한다. 말모듬과 사전의 예문들을 형태소 분석한 후에 각각의 예문들을 분류정보를 이용하여 최상위 개념으로 바꾼다. 그리고, 말모듬과 사전의 예문에서 나온 정보들을 통합하므로 해서 자동으로 격틀을 구성한다. 자동으로 격틀을 구성한 후에 수동으로 구성한 격틀과 비교해 본다. 비교하기 위한 평가방법에 대해서 논의한다.

  • PDF