• 제목/요약/키워드: 자질 결합

검색결과 65건 처리시간 0.024초

자질값투표 기법과 문서측 자질 선정을 이용한 고속 문서 분류기 (A Fast Text Classifier with feature Value Voting and Document-Side Feature Selection)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.71-78
    • /
    • 2005
  • 빠르면서도 정확한 문서 자동분류를 위해서 자질값투표 기법과 문서측 자질선정 방식의 결합을 제안하였다. 자질값은 미리 학습된 분류자질과 분류범주간의 연관성을 뜻하는 것으로서, 자질값투표 기법은 분류대상 문서에 나타난 자질들의 자질값을 후보범주마다 합산하여 가장 높은 범주로 분류하는 것이다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 이들을 결합하여 사용한 결과 실험환경에서는 나이브베이즈 분류기만큼 간단하고 빠르면서 SVM 분류기보다 좋은 성능을 보였다.

  • PDF

웹 문서 클러스터링에서의 자질 필터링 방법 (Feature Filtering Methods for Web Documents Clustering)

  • 박흠;권혁철
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.489-498
    • /
    • 2006
  • 색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

한국어 구문 해석을 위한 동사 '가다'의 명사 결합 관계 연구 (Noun Link Relation Research Of Verb '-Kata (가다)' for Korean Syntactic Analysis)

  • 박건숙
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-216
    • /
    • 1998
  • 본 논문에서는 한국어 구문 해석을 위해 동사 중심의 구문 틀 정보를 구축하고, 나아가 결합 빈도가 높은 명사와의 결합 관계를 하나의 네트워크로 구성하는 구문 해석의 방법을 제안한다. 동사 중심의 구문 틀과 명사의 의미 자질은 구문 해결에서 아주 중요한 역할을 하는 것으로, 구문의 비문 여부를 가리는 데 도움을 준다. 그러나 명사의 의미 자질은 경계가 모호하여 구문의 적격성(wellformedness)을 가리기에는 부족한 점이 많다. 따라서 동사와 명사의 결합 관계를 이용하면 구문의 의미적 적격성을 좀 더 명시적으로 가릴 수 있다. 한국어에서 기본 동사이고, 초등학교 교과서에서 사용된 빈도가 아주 높은 동사 '가다'를 가지고 구체적으로 구문 틀 정보와 결합 명사의 의미 자질 및 결합 관계를 정리하였다.

  • PDF

누에 체액의 유약호르몬 결합단자질(Juvenile hormone hinding protein)에 관한 연구 (Study on the Juvenile Hormone Binding Protein in the Hemolymph of the Silkworm Larva, Bombyx mori.)

  • 손흥대
    • 한국잠사곤충학회지
    • /
    • 제30권1호
    • /
    • pp.25-32
    • /
    • 1988
  • 누에 유충에 있어서 체액 JH 결합단자질(JHBP)의 생리적 역할을 알기 위하여, 체액 중의 JH 1과 결합하는 단자질을 polyacrylamide gel 전기영동으로 분리하고, 또 발육에 따른 JH 결합단자질의 활성 변화를 측정한 결과는 다음과 같다. 1. 누에 체액중에서 JH 1과 결합하는 단자질은 JH 결합지질단자질(JH-LP)과 Jh 결합단자질(JHBP) 등 JH결합단자질의 Rm은 0.81∼0.33이었고, JH 결합단자질의 Rm은 0.81∼0.84이었다. 두 단자질의 Rm은 성별, 발육시기에 관계없이 일정하였다. 2. 체액단자질의 함량은 발육의 진행에 따라 점차 증가하여 토사기에 가장 높았으며 전용기에 다소 감소하였고 암컷의 함량은 숫컷보다 높았다. 3. 체액 ml 당 JH 결합단자질의 활성은 영의 초기에 낮았고 토사기에 최대로 나타난 후 전용기에 다소 감소하였다. 4. 체액 ml 당 JH 결합단자질의 활성 변화는 체액단자질의 함량의 변화양상과 매우 유사하였다. 5. 체액단자질 mg 당 JH 결합단자질의 활성은 영의 초기에 높았고 5령 6일에서 전용기까지 낮은 수준을 유지하였다.

  • PDF

LKB (Linguistic Knowledge Building) 시스템을 이용한 한국어 구문분석기 구축 -한국어의 동사성/형용사성 명사 구문의 전산처리를 중심으로-

  • 류병래;은광희
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2003년도 학술대회 발표논문집
    • /
    • pp.79-99
    • /
    • 2003
  • 한국어의 동사성 명사와 형용사성 명사는 경동사와 결합하여 문장의 서술어 역할을 하는데 이때에 명사는 보어 자질을 경동사에 전달하고 이렇게 결합한 후에 생성되는 서술어 복합체가 술어로 역할 한다. 이번 구문분석 시스템 연구에서는 LKB 시스템을 통해 한국어에서 체언과 결합하는 격조사의 처리와 용언과 결합하는 어미의 처리 및 동사/형용사성 명사가 경동사에 보어 자질을 전달하여 술어 복합체를 이루는 현상을 집중적으로 다룬다.

  • PDF

개념결합 처리과정에 대한 관계 - 기반 접근과 차원- 기반 접근의 조망 차이 (Conceptual Differences between the Relation-Based Approach and the Feature-Based Approach in Noun-Noun Conceptual Combination)

  • 최민경;신현정
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.199-231
    • /
    • 2010
  • 이 연구는 개념결합의 처리과정에 대한 관계-기반 접근과 차원-기반 접근의 설명을 대조하고, 그 함의를 고찰하고자 하였다. 실험 1에서는 두 가지 조망 중에서 차원-기반 접근을 채택하여 내재적/외재적 자질 간 구분을 통한 처리과정의 차이를 검토하였다. 내재적 자질에의 의존도가 높은 개념, 즉 내재적 개념이 수식개념으로 사용될 때, 개념결합의 해석이 촉진되는 경향이 나타났다. 이 결과는 개념결합의 처리는 성분개념 내부의 정보에 의해 결정된다는 개념-내적 설명의 타당성을 보여준다. 실험 2에서는 관계-기반 설명을 지지하는 Gagne(2000)의 결과를 차원-기반 설명으로 재분석해보기 위해 그의 연구에서 사용한 개념들의 외재성을 검토하였다. 관계적 개념결합 조건에서의 개념 외재성이 그렇지 않은 조건에 비해 높은 것으로 나타났다. 두 실험 결과는 차원-기반 설명과 관계-기반 설명이 개념결합에 실제로 관여하는 정보의 다양성에 의해 통합될 수 있는 가능성을 시사하였다. 논의에서는 이 연구가 개념결합 연구에서 갖는 함의와 추후 연구방향을 제시하였다.

  • PDF

특허 분류를 위한 효과적인 자질 선택 (Effective Feature Selection for Patent Classification)

  • 정하용;황금하;신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.670-672
    • /
    • 2005
  • 자질 선택은 문서 분류와 같이 않은 자질을 사용하는 지도식 기계학습에 관한 연구에서 날로 중요성이 커지고 있다. 특히 특허문서 분류와 같은 작업은 기존의 문서 분류보다도 훨씬 많은 자질과 분류 범주를 가지기 때문에 전체 문서의 특징을 드러내는 적절한 부분집합을 선택해 학습하는 것이 절실하다. 전통적인 자질선택 방법은 필터라는 방법으로서 빠르지만 임계값을 정하기가 어렵다는 문제가 있다. 한편 최근에 많이 연구되는 래퍼는 일반적으로 필터보다. 좋은 성능을 보이지만 자질의 개수가 많을수록 시간이 오래 걸린다는 단점이 있다. 본 연구에서는 필터와 래퍼를 상호 보완적으로 결합하여 최적의 필터를 자동적으로 찾는 래퍼를 제안한다. 실험 결과, 제안한 방법이 효과적으로 자질 집합을 선택하는 것을 확인할 수 있었다.

  • PDF

위키피디아를 이용한 분류자질 선정에 관한 연구 (An Experimental Study on Feature Selection Using Wikipedia for Text Categorization)

  • 김용환;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.155-171
    • /
    • 2012
  • 텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

효과적인 의견 자질 결합을 위한 실험적 연구 (Experimental Study for Effective Combination of Opinion Features)

  • 한경수
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.227-239
    • /
    • 2010
  • 의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 '의견' 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.

팩터그래프 모델을 이용한 연구전선 구축: 생의학 분야 문헌을 기반으로 (Construction of Research Fronts Using Factor Graph Model in the Biomedical Literature)

  • 김혜진;송민
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.177-195
    • /
    • 2017
  • 연구전선이란 연구논문들 간에 인용이 빈번하게 발생하며, 지속적으로 발전이 이루어지고 있는 연구영역을 의미한다. 연구행위가 집중되는 핵심 연구분야로 발전 가능성이 높은 연구전선을 조기에 예측해내는 것은 학계와 산업계, 정부기관, 나아가 국가의 과학기술 발전에 큰 유익을 가져다 줄 수 있는 유용한 사회적 자원이 된다. 본 연구는 복합자질을 활용하여 연구전선을 추론하는 모델을 제시하고자 시도하였다. 연구전선 추론은 핵심 연구영역으로 발전할 가능성이 높은 문헌들이 포함될 수 있도록 문헌을 복합자질로 표현하고, 그 자질들을 심층학습하여 새로 발행된 문헌들이 연구전선에 포함될 수 있는지 그 가능성을 예측하였다. 서지 자질, 네트워크 자질, 내용 자질 등 복합자질 세트를 사용하여 문헌을 표현하고 피인용을 많이 받을 가능성이 있는 문헌을 추론하기 위해서 확률기반 팩터그래프 모델을 적용하였다. 추출된 자질들은 팩터그래프의 변수로 표현되어 합-곱 알고리즘과 접합 트리 알고리즘을 적용하여 연구전선 추론이 이루어졌다. 팩터그래프 확률모델을 적용하여 연구전선을 추론 구축한 결과, 서지결합도 4 이상으로 구축된 베이스라인 연구전선과 큰 차이를 보였다. 팩터그래프 기반 연구전선그룹이 서지결합 기반 연구전선그룹보다 문헌 간의 직접 연결정도가 강하며 연결 관계에 있지 않은 두 개의 문헌을 연결시키는 매개정도 또한 강한 집단으로 나타났다.