• 제목/요약/키워드: 가중치부여

검색결과 777건 처리시간 0.028초

한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법 (A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR)

  • 장명길;맹성현;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

소프트웨어 제품을 위한 평가 선정 모형의 조사 및 적용성에 관한 연구 (A Study on Survey and Applicability of Evaluation and Selection Models for Software Products)

  • 박호인;정호원
    • 한국정보처리학회논문지
    • /
    • 제4권7호
    • /
    • pp.1706-1718
    • /
    • 1997
  • 다양한 소프트웨어 제품의 급격한 증가로 인하여 소프트웨어 제품의 평가·선정을 위한 체계적이고 객관적인 방법이 필요하게 되었다. 본 연구에서는 소프트웨어 제품의 효과적 평가·선정을 위해 평가 과정의 핵심인 가중치 부여와 모형의 선정에 중점을 둔다. 이를 위해 첫째, 계층적 분석 과정을 이용하여 평가 속성에 일관적 가중치를 부여한다. 둘째, 소프트웨어 제품의 선정 문제의 성격에 알맞은 모형을 조사${\cdot}$분류하여 모형별 장${\cdot}$단점을 분석한다. 적용 모형은 4개의 보상모형과 7개의 비보상모형으로 구성되어 있다. 선정된 모형은 특정 소프트웨어 제품(데이터베이스 모델러)에 응용되어 모형별로 제품을 평가한다. 본 연구는 가중치 부여 및 모형의 장·단점 분석과 응용 절차를 통하여 사용자의 다양한 요구사항에 대한 모형의 적용성을 제고하고자 한다.

  • PDF

비음수 행렬 분해와 K-means를 이용한 주제기반의 다중문서요약 (Topic-based Multi-document Summarization Using Non-negative Matrix Factorization and K-means)

  • 박선;이주홍
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권4호
    • /
    • pp.255-264
    • /
    • 2008
  • 본 논문은 K-means과 비음수 행렬 분해(NMF)를 이용하여 주제기반의 다중문서를 요약하는 새로운 방법을 제안하였다. 제안방법은 비음수 행렬 분해를 이용하여 가중치가 부여된 용어-문장 행렬을 희소(Sparse)한 비음수 의미특징 행렬과 비음수 변수 행렬로 분해함으로써 직관적으로 이해할 수 있는 형태의 의미적 특징을 추출할 수 있고, 주제와 의미특징간의 유사도에 가중치를 부여하여 유사도는 높으나 실제 의미 없는 문장이 추출되는 것을 막는다. 또한 K-means 군집을 이용하여 문장에 포함된 노이즈를 제거함으로써 문서의 의미가 요약에 편향되게 반영하는 것을 피할 수 있고, 추출된 문장에 부여된 순위순서대로 정렬하여 보여 줌으로써 응집성을 높인다. 실험 결과 제안방법이 다른 방법에 비하여 좋은 성능을 보인다.

AHP를 활용한 국내 학술단체 오픈액세스 성숙단계 가중치 부여 연구 - 한국과학기술정보연구원을 중심으로 - (A Study on the Weighting of Open Access Maturity Stages of Domestic Academic Organizations Using AHP: Focusing on Korea Institute of Science and Technology Information)

  • 박진호
    • 한국비블리아학회지
    • /
    • 제34권2호
    • /
    • pp.115-136
    • /
    • 2023
  • 본 연구 목적은 KISTI 오픈액세스 성숙도 모델 진단기준에 대한 가중치 부여이다. 해당 성숙도 모델은 3개 차원, 12개 세부항목, 28개 측정질문으로 구성되어 있다. 가중치 부여는 상대적 중요도를 알아보기 위한것으로 3개 차원, 차원에 속하는 12개 세부항목에 대해 수행하였다. 그 결과 3개 차원에서는 'OA 제도화'(49%)가 가장 중요한 요소로 도출되었다. 'OA 제도화'의 하위 요소 중 관련 규정 제·개정(65%)이 중요하였고, 'OA 지속가능성'에서는 재정(40%)이 중요한 요소로 도출되었다. '학술지 개방성'의 중요한 요소로는 투고와 심사(26%), 저자 권리(22%)가 확인되었다.

문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자 (An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier)

  • 허준희;고수정;김태용;최준혁;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험 (Relevance Feedback Experiments for Korean Information Retrieval Systems)

  • 박수현;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.682-691
    • /
    • 1999
  • 정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문을 단어와 밀접한 관계가 있는 단어를 선택하기 위하여 가중치를 부가한후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되고있는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.

웹문서 자동 분류를 위한 하이퍼링크 기반 특징 가중치 부여 기법 (A Hyperlink-based Feature Weighting Technique for Web Document Classification)

  • 이아람;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.417-420
    • /
    • 2012
  • 기계학습을 이용하는 문서 자동분류 시스템은 분류모델의 구성을 위해서 단어를 특징으로 사용한다. 자동분류 시스템의 성능을 높이기 위해 보다 의미있는 특징을 선택하여 분류모델을 구성하기 위한 여러 연구가 진행되고 있다. 특히 인터넷상에서 사용되는 웹문서는 단어 외에도 태그정보, 링크정보를 가지고 있다. 본 논문에서는 이 두 가지 정보를 이용하여 웹문서 자동분류 시스템의 성능을 향상 시키는 방법 제안 한다. 태그 정보와 링크 정보를 이용하여 적절한 특징을 선택하고, 각 특징의 중요도를 계산하여 가중치를 구한다. 계산된 가중치를 각 특징에 부여하여 분류 모델을 구성하고 나이브 베이지안 분류기를 통하여 성능을 평가하였다

가중치 부여 부정 트리 패턴 추출 (Weighted Negative Tree Pattern Discovery)

  • 백주련;김진영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.23-26
    • /
    • 2019
  • 사물인터넷(IoT)은 지금의 우리가 살고 일하는 모든 방식을 변화시키고 있다. IoT를 통해 데이터를 생성하고 저장하고 연결된 장치와 상호작용하여 비즈니스는 물론 우리의 일상 생활을 개선하고 있는 것이다. 무수히 많은 센서들이 연결된 세상은 센서들에 의해 그 어느 때보다 거대한 양의 데이터들을 생산하고 있다. JSON, XML 같은 트리 구조의 데이터 타입은 대량 데이터 저장 전송 교환 등에 주요하게 사용되는데 이는 트리 구조가 이형 데이터 간의 유연한 정보 전송과 교환을 가능하게 하기 때문이다. 반면에, 효용성 높은 정보나 감추어져 있는 정보들을 트리 구조의 대량 데이터들로부터 추출하는 것은 일반 데이터 구조에 비해 훨씬 어려우며 더 난해한 문제들을 발생시킨다. 본 논문에서는 트리 구조의 대량 스트리밍 데이터로부터 가중치가 부여된 주요한 부정 패턴들을 추출하기 위한 방법을 공식화한다.

  • PDF

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

점진적 하강 방법을 이용한 속성값 기반의 가중치 계산방법 (Gradient Descent Approach for Value-Based Weighting)

  • 이창환;배주현
    • 정보처리학회논문지B
    • /
    • 제17B권5호
    • /
    • pp.381-388
    • /
    • 2010
  • 나이브 베이시안 알고리즘은 데이터 마이닝의 여러 분야에서 적용되고 있으며 좋은 성능을 보여주고 있다. 하지만 이 학습 방법은 모든 속성의 가중치가 동일하다는 가정을 하고 있으며 이러한 가정으로 인하여 가끔 정확도가 떨어지는 현상이 발생한다. 이러한 문제를 보완하기 위하여 나이브 베이시안에서 속성의 가중치를 조절하는 다수의 연구가 제안되어 이러한 단점을 보완하고 있다. 본 연구에서는 나이브 베이시안 학습에서 기존의 속성에 가중치를 부여하는 방식에서 한걸음 나아가 속성의 값에 가중치를 부여하는 새로운 방식을 연구하였다. 이러한 속성값의 가중치를 계산하기 위하여 점진적 하강(gradient descent) 방법을 이용하여 가중치를 계산하는 방식을 제안하였다. 제안된 알고리즘은 다수의 데이터를 이용하여 속성 가중치 방식과 비교하였고 대부분의 경우에 더 좋은 성능을 제공함을 알 수 있었다.