• 제목/요약/키워드: 문서군집

검색결과 127건 처리시간 0.028초

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.

LSI 기법을 이용한 전자상거래 추천자 시스템의 시뮬레이션 분석 (Simulation Study on E-commerce Recommender System by Use of LSI Method)

  • 권치명
    • 한국시뮬레이션학회논문지
    • /
    • 제15권3호
    • /
    • pp.23-30
    • /
    • 2006
  • 추천자 시스템은 전자상거래 사이트에서 고객의 상품 구매 정보를 수집하여 고객에 대한 예상 구매 상품을 추천하는 목적으로 개발되었다. 본 연구는 대형 전자상거래 사이트에서 고객의 상품 구매 이력이 활용 가능한 경우에 전통적인 통계기법인 군집분석 및 고객 간의 상품 구매 상관성을 이용하는 기존 추천자 시스템(협력적 필터링 기법)과 문서 검색에서 사용되는 LSI분석에 기반한 협업 필터링 기법을 상품 추천에 적용하여 각 기법의 상품 추천 효율성을 비교 분석하였다. 문서-용어 행렬과 유사한 구조를 가지는 고객-상품 구매 행렬에 문서 검색에 사용되는 LSI 분석법은 고객의 상품구매 경향을 원 상품 수보다 축소된 차원의 변환 상품을 통하여 파악함으로써 목표고객에 대한 인접고객군의 생성 노력을 현저히 감소시킬 수 있어 결과적으로 실시간으로 적용되는 추천자 알고리즘의 효율성을 개선할 수 있을 것으로 기대할 수 있다. 가상적인 고객-상품 구매 리스트를 대상으로 실행한 시뮬레이션 실험 결과에서도 알고리즘의 효율성 평가측도인 recall과 정확도 및 F1에서 LSI 기반 협력적 필터링 기법이 기존의 방법보다 우수한 결과를 나타내었다. 시뮬레이션 결과, 인접고객 군의 크기가 일정한 수준에 이르면 그 크기를 증가시키더라도 알고리즘의 효율성은 별로 개선되지 않으며 또한 추천 상품 수가 일정 수준에 도달하면 추천 정확도가 낮아지는 정도에 비해 recall의 개선도는 별 변화가 없는 것으로 나타나고 있다. 추천자 시스템을 구현하는 용도에 따라 이러한 정보는 유용하게 사용될 수 있다고 판단된다.

  • PDF

음향 DB 구축을 위한 한국어 의성어 군집화 (Korean Onomatopoeia Clustering for Sound Database)

  • 김명관;신영석;김영래
    • 한국멀티미디어학회논문지
    • /
    • 제11권9호
    • /
    • pp.1195-1203
    • /
    • 2008
  • 한글 문서에서 의성어는 자연적 혹은 인공적 소리를 인간의 언어로 표현하는 것으로서, 대상과 가장 가깝게 느껴지는 의성어 단어로 표현할 수 있으며 또한 음향 도서관구축 등 멀티미디어 데이터를 분류하는 기준으로 활용할 수 있다. 이 연구에서 우리는 말뭉치에서 의성어들의 출현빈도를 구하고, 실험에서 사용할 의성어 100개를 선별하였다. 의성어의 관계를 분류하기 위하여 유사도 및 거리 매트릭스의 특징을 추출하고, 이후에 주성분 분석 방법(PCA)을 사용하여 의성어 특성의 차원을 낮추었으며 의성어들의 관계를 벡터 공간에 표현하였다. 비계층적 클러스터링 방법 들을 비교하여 k-means 알고리즘을 사용하였다. 결과로 의성어를 분류하였고 분류 결과를 통해 의성어들의 특성을 반영할 수 있었다.

  • PDF

삼각 부등식을 이용한 온라인 VQ 코드북 생성 방법 (Online VQ Codebook Generation using a Triangle Inequality)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.373-379
    • /
    • 2015
  • 본 논문에서는 실시간으로, 문서, 웹 페이지, 블로그, tweet 등 텍스트 정보와 센서, 머신데이터등 IoT의 데이터가 생성되는 상황에서 새로 추가되는 데이터들을 기존에 만들어진 VQ 코드북에 추가시키면서, 기존 VQ 코드북 모델을 실시간으로 갱신하기 위한 온라인 VQ 코드북 생성 방법을 제안한다. 기존에 일괄 작업으로 만들어진 VQ 코드북의 성능을 저하시키지 않으면서, 새로 추가된 데이터를 활용하여 VQ 코드북을 점진적으로 수정하는 방식으로 삼각 부등식을 활용하여 높은 정확도와 속도를 보일 수 있었다. 테스트 데이터에 적용한 결과 일괄 작업과 유사한 성능을 보이면서, 다른 온라인 K-Means 보다 빠른 속도를 보였다.

대화 데이터셋에서 멘션 경계와 멘션 쌍을 이용한 상호참조해결 파이프라인 모델 (Coreference Resolution Pipeline Model using Mention Boundaries and Mention Pairs in Dialogues)

  • 김담린;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.307-312
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 멘션을 추출하고 동일한 개체의 멘션들을 군집화하는 작업이다. 기존 상호참조해결 연구의 멘션탐지 단계에서 진행한 가지치기는 모델이 계산한 점수를 바탕으로 순위화하여 정해진 비율의 멘션만을 상호참조해결에 사용하기 때문에 잘못 예측된 멘션을 입력하거나 정답 멘션을 제거할 가능성이 높다. 또한 멘션 탐지와 상호참조해결을 종단간 모델로 진행하여 학습 시간이 오래 걸리고 모델 복잡도가 높은 문제가 존재한다. 따라서 본 논문에서는 상호참조해결을 2단계 파이프라인 모델로 진행한다. 첫번째 멘션 탐지 단계에서 후보 단어 범위의 점수를 계산하여 멘션을 예측한다. 두번째 상호참조해결 단계에서는 멘션 탐지 단계에서 예측된 멘션을 그대로 이용해서 서로 상호참조 관계인 멘션 쌍을 예측한다. 실험 결과, 2단계 학습 방법을 통해 학습 시간을 단축하고 모델 복잡도를 축소하면서 종단간 모델과 유사한 성능을 유지하였다. 상호참조해결은 Light에서 68.27%, AMI에서 48.87%, Persuasion에서 69.06%, Switchboard에서 60.99%의 성능을 보였다.

  • PDF

대화 데이터를 위한 멘션 탐지 및 상호참조해결 파이프라인 모델 (Mention Detection and Coreference Resolution Pipeline Model for Dialogue Data)

  • 김담린;김홍진;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.264-269
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결의 대상이 될 수 있는 멘션을 추출하고, 같은 개체를 의미하는 멘션 쌍 또는 집합을 찾는 자연어처리 작업이다. 하나의 멘션 내에 멘션이 될 수 있는 다른 단어를 포함하는 중첩 멘션은 순차적 레이블링으로 해결할 수 없는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 멘션의 시작 단어의 위치를 여는 괄호('('), 마지막 위치를 닫는 괄호(')')로 태깅하고 이 괄호들을 예측하는 멘션 탐지 모델과 멘션 탐지 모델에서 예측된 멘션을 바탕으로 포인터 네트워크를 이용하여 같은 개체를 나타내는 멘션을 군집화하는 상호참조해결 모델을 제안한다. 실험 결과, 4개의 영어 대화 데이터셋에서 멘션 탐지 모델은 F1-score (Light) 94.17%, (AMI) 90.86%, (Persuasion) 92.93%, (Switchboard) 91.04%의 성능을 보이고, 상호참조해결 모델에서는 CoNLL F1 (Light) 69.1%, (AMI) 57.6%, (Persuasion) 71.0%, (Switchboard) 65.7%의 성능을 보인다.

  • PDF

논문 원문을 이용한 동명 저자 자동 군집화 (Automatic Clustering of Same-Name Authors Using Full-text of Articles)

  • 강인수;정한민;이승우;김평;구희관;이미경;구남앙;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.652-656
    • /
    • 2006
  • 대용량 과학 기술 문헌의 탐색 및 검색에 있어서 저자, 저자 소속 기관, 게재지 등에 대해 고유 식별자에 기반한 표현의 필요성이 증가하고 있다. 특히, 과학 기술 문헌의 저자가 단순히 이름으로 표현될 경우, 동일명을 가진 서로 다른 저자들에 대한 구분은 사용자의 검색 부담을 가중시키게 된다. 이러한 동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지 정보에 의존하는 공통점을 지닌다. 그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 된다. 본 연구에서는, 동명저자 문제 해소를 위한 기존의 접근법을 보완하기 위해, 동명저자들의 논문 원문의 내용에 기반한 문서 군집화 방법을 사용한다. 국내 학술대회 발표 논문집을 대상으로 한 실험에서 제안한 방법이 기존의 서지정보에 기반한 해법의 단점을 보완할 수 있다는 가능성을 보였다.

  • PDF

re3data를 기반으로 한 인문사회 RDR 연구 (A Study on Analysis of Research Data Repository in Humanities and Social Sciences)

  • 조재인;박종도
    • 한국비블리아학회지
    • /
    • 제30권2호
    • /
    • pp.69-87
    • /
    • 2019
  • 오픈데이터헌장을 계기로 연구데이터 공유에 대한 논의가 지속되는 가운데, 미국, 영국, 일본 등을 중심으로 연구지원 기관들은 연구자들에게 결과물을 신뢰할 수 있는 저장소에 기탁하도록 유도하고 있다. 인문사회분야는 생명, 자연과학 분야에 비해 연구데이터 공유 문화나 저장 인프라가 미성숙하지만 이 역시 데이터의 영속적 접근과 활용 보장을 위해 신뢰할 수 있는 저장 인프라의 구축과 운영이 필요하다. 본 연구는 이러한 배경에서 re3data에 등록된 305개 인문사회분야 데이터 레포지토리(RDR: Research Data Repository)를 대상으로 현황을 파악하고 운영 수준에 따라 4개의 군집으로 유형화해 분석하였다. 그 결과 전체의 70%를 차지하는 보편적 수준의 RDR이 유형화되었으며, 독일이 운영 주체이거나 언어학 분야가 두드러진 우수 군집도 확인되었다. 한편, 인문사회 하위주제영역에 있어 아카이빙되는 데이터 유형에 차이가 존재하는지 대응일치 분석(Correspondence Analysis)을 통해 확인한 결과, 역사 및 예술분야는 이미지, 사회계열 전반은 통계데이터나 오피스문서, 언어학은 오디오, 텍스트, 코드 등이 관련성 있는 데이터 유형으로 분석되었다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

HS-SPME GC/MS를 이용한 볼펜잉크의 휘발성 성분 분석 (Composition of volatile organic components on ballpoint pen inks by HS-SPME GC/MS)

  • 최미정;김창성;선일식;박성우
    • 분석과학
    • /
    • 제23권4호
    • /
    • pp.414-422
    • /
    • 2010
  • 의문문서의 감정영역에서는 잉크 구성성분의 조성 특성의 비교와 분류를 통하여 식별이 이루어진다. 잉크 분석은 TLC, HPLC/MS, GC/MS, LDI/MS를 이용한 조성분석으로 문서위 기재된 잉크의 조성과 변화에 근거하여 개별 특이성을 확인한다. 본 실험은 잉크 조성 특성 중 휘발성 성분을 확인하고자 5개국에서 생산된 검은색 볼펜잉크 56종을 수집하고 HS-SPME GC/MS를 이용하여 ethylbenzene $0.089\sim0.244\;{\mu}g$/mL, o-xylene $0.072\sim0.331\;{\mu}g$/mL, m,p-xylene $0.062\sim0.318\;{\mu}g$/mL, benzene $0.003\sim0.173\;{\mu}g$/mL, 1,1-dichloroethylene $0.003\sim0.295\;{\mu}g$/mL, toluene $0.007\sim0.484\;{\mu}g$/mL와 같은 휘발성 성분특성 자료를 확보하였으며 잉크시료 개체 특이성과 군집성을 바탕으로 식별자료로 활용할 수 있슴을 알 수 있었다.