• 제목/요약/키워드: 실험문헌집단

검색결과 83건 처리시간 0.023초

문헌범주화에서 학습문헌수 최적화에 관한 연구 (Optimization of Number of Training Documents in Text Categorization)

  • 심경
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.277-294
    • /
    • 2006
  • 본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr-20)에서 2,000개(Tr-2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 $F_1$ 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr-100 문헌집단이 $F_1$값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

패턴인식기법을 이용한 편목전문가시스템 설계에 관한 연구 (A Study on Design Of Cataloging Expert System Using Pattern Recognition Techniques)

  • 김현희;곽병희
    • 정보관리학회지
    • /
    • 제11권2호
    • /
    • pp.131-164
    • /
    • 1994
  • 본 연구에서는 표제면과 판권지의 서지요소의 레이아웃 특성과 구문적 특성을 이용하여 서지요소의 종류를 패턴인식 지식베이스와 전거화일들을 이용하여 자동 인지하고 인지된 서지요소를 한국문헌자동화목록형식(KORMARC)과 한국문헌자동화목록법(KORMARC) 기술규칙에 기초하여 KORMARC 형태로 출력해 주는 편목전문가시스템을 구축하였다. 이 시스템의 성능을 평가하기 위해서 패턴인식 지식베이스의 생성을 위해 분석한 155종의 실험문헌집단과 86종의 검증문헌집단을 이용하여 적중률을 조사해 보니 실험문헌집단의 경우는 94%, 검증문헌집단의 경우는 93%의 적중률을 나타냈다.

  • PDF

학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능 (The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance)

  • 심경;정영미
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.265-285
    • /
    • 2006
  • 문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 $F_1$값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 $F_1$값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석 (Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.313-332
    • /
    • 2009
  • 교차언어 문서 범주화(CLTC)는 다른 언어로 된 학습집단을 이용하여 문헌을 자동 분류할 수 있다. 이 연구는 KTSET으로부터 CLTC에 적합한 실험문헌집단을 추출하고, 기계 번역기를 이용하여 가능한 여러 CLTC 방법의 분류 성능을 비교하였다. 분류기는 SVM 분류기를 이용하였다. 실험 결과, CLTC 중에 다국어 학습방법이 가장 좋은 분류 성능을 보였으며, 학습집단 번역방법, 검증집단 번역방법 순으로 분류 성능이 낮아졌다. 하지만 학습집단 번역방법이 기계번역 측면에서 효율적이며, 일반적인 환경에 쉽게 적용할 수 있고, 비교적 분류 성능이 좋아 CLTC 방법 중에서 가장 높은 이용 가능성을 보였다. 한편 CLTC에서 기계번역을 이용하였을 때 번역과정에서 발생하는 자질축소나 주제적 특성이 없는 자질로의 번역으로 인해 성능 저하를 가져왔다.

에니어그램 성격유형을 적용한 독서지도의 효과 연구 (A Study on Effect of Reading Guidance Program based on Enneagram of Personality)

  • 백진환;한윤옥
    • 한국문헌정보학회지
    • /
    • 제48권2호
    • /
    • pp.45-64
    • /
    • 2014
  • 이 연구는 심리 및 신체적으로 성장단계에 있는 초등학교 6학년 어린이를 대상으로 에니어그램 성격유형을 적용한 독서지도를 실행하여 그 효과를 검증하는 것에 목적을 두었다. 에니어그램 성격유형을 적용한 독서지도의 심리적 효과를 검증하기 위하여 초등학교 6학년의 품성 및 인성발달을 위하여 필요한 심리요인들로서 자기격려, 자기효능감, 사회성을 본 실험연구의 검사도구로 채택하였다. 초등학교 6학년을 대상으로 에니어그램 성격유형을 적용한 독서수업을 실행하고 효과를 검증하기 위하여 2개 학급을 편의모집하여 각각 실험집단과 통제집단으로 배치하였다. 실험집단은 남학생 14명, 여학생 11명으로 구성되었으며 이들을 대상으로 프로그램을 실행하였다. 실험집단과 통제집단에게 자기격려, 자기효능감, 사회성 척도를 사용하여 사전 사후 검사를 실시하여 발달정도를 측정하였다. 또 실험집단에는 에니어그램 성격유형을 적용한 독서지도를 실험 처치하여 결과를 공분산분석(Anova)을 통하여 통제집단과 비교하였다. 결과적으로 실험집단에서 자기격려, 자기효능감, 사회성 모두 향상되었다.

질의확장에 의한 단락검색의 성능 향상에 관한 연구 (A Study on the Improvement of Retrieval Performance Query Expansion in Passage-based Retrieval)

  • 박지연;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.143-148
    • /
    • 2001
  • 본 연구에서는 공기기반 질의-용어간 유사도를 이용한 질의확장을 통해 단락검색의 성능을 향상시키는 방안을 제시하고자 하였다 실험을 통해 전체 문헌집단에 출현한 용어들의 공기정보에 기반한 전역적 질의확장과 이용자의 피드백 없이 초기검색 결과 중 상위 10개 문헌에 출현한 용어들의 공기정보에 기반한 지역적 질의확장의 성능을 비교하고 각각의 성능을 향상시키는 방법을 모색하였다. 마지막으로 문헌집단의 전역 정보와 지역 정보를 함께 이용하는 방안을 제시하고 그 성능을 평가하였다.

  • PDF

자아실현을 위한 발달적 독서치료의 사례연구 (A Case Study on the Developmental Bibliotherapy for Self-Actualization)

  • 남태우;이원지
    • 한국문헌정보학회지
    • /
    • 제39권2호
    • /
    • pp.321-346
    • /
    • 2005
  • 이 연구는 초등학교 5학년 학생을 대상으로 발달적 독서치료를 실시하여 자아실현에 미치는 영향을 실험한 사례 연구이다. 실험의 대상은 경기도의 C초등학교 5학년 학생 20명(실험집단 10명, 통제집단 10명)이며, 총 12회기를 6주 동안 실시하였다. 그 결과 실험집단은 통제집단에 비하여 사후 검사에서 내부지향성, 자아실현성, 감수성, 자발성, 자기긍정성. 자기수용성척도에서 유의미한 효과가 나타났다. 그리고 3주 후의 지속성 검사에 있어서도 그 효과는 지속되고 있는 것으로 나타났다. 그러므로 발달적 독서치료는 초등학생의 자아에 긍정적인 영향을 주어서 앞으로의 삶에 있어서 바람직한 인간상을 형성하는데 일조 할 수 있다고 판단된다.

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

독후활동으로써 북트레일러의 효과 연구 (A Study on the Effect of Book-Trailers As a After Reading Activity)

  • 최용훈;조현양
    • 한국문헌정보학회지
    • /
    • 제49권3호
    • /
    • pp.15-36
    • /
    • 2015
  • 이 연구는 활자와 인쇄매체보다 영상과 음향매체 그리고 다양한 멀티미디어 기기에 익숙한 다매체세대인 청소년을 대상으로 북트레일러를 활용한 독후활동 프로그램을 실행하여 그 효과를 검증하는데 목적이 있다. 효과를 검증하기 위해 중학교 1학년 6학급을 실험집단 3학급(104명)과 비교집단 3학급(100명)으로 설정하여 창의성과 독서태도 측정도구를 활용하여 사전 사후검사를 실시하였다. 공분산분석(ANCOVA)을 통하여 발달정도를 측정하였으며, 선정도서의 독서퀴즈 문제를 활용하여 집단 간 선정도서에 대한 이해도 차이를 분석하였다. 연구 결과 북트레일러를 활용한 독후활동 프로그램을 적용한 실험집단의 창의성과 독서태도, 선정도서에 대한 이해도가 비교집단보다 높은 것으로 나타났다.

역문헌빈도 가중치의 재검토 (Inverse Document Frequency Weighting Revisited)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF