• 제목/요약/키워드: 단어 동시출현 정보

검색결과 93건 처리시간 0.021초

TextRank 알고리즘을 이용한 문서 범주화 (Text Categorization Using TextRank Algorithm)

  • 배원식;차정원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.110-114
    • /
    • 2010
  • 본 논문에서는 TextRank 알고리즘을 이용한 문서 범주화 방법에 대해 기술한다. TextRank 알고리즘은 그래프 기반의 순위화 알고리즘이다. 문서에서 나타나는 각각의 단어를 노드로, 단어들 사이의 동시출현성을 이용하여 간선을 만들면 문서로부터 그래프를 생성할 수 있다. TextRank 알고리즘을 이용하여 생성된 그래프로부터 중요도가 높은 단어를 선택하고, 그 단어와 인접한 단어를 묶어 하나의 자질로 사용하여 문서 분류를 수행하였다. 동시출현 자질(인접한 단어 쌍)은 단어 하나가 갖는 의미를 보다 명확하게 만들어주므로 문서 분류에 좋은 자질로 사용될 수 있을 것이라 가정하였다. 문서 분류기로는 지지 벡터 기계, 베이지언 분류기, 최대 엔트로피 모델, k-NN 분류기 등을 사용하였다. 20 Newsgroups 문서 집합을 사용한 실험에서 모든 분류기에서 제안된 방법을 사용했을 때, 문서 분류 성능이 향상된 결과를 확인할 수 있었다.

바이오인포매틱스 분야 회색문헌 및 백색문헌의 연구 동향 비교 분석 (Analyzing Research Trends in Bioinformatics based on Comparison between Grey and White Bioinformatics Literatures)

  • 김예은;김정주;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.11-14
    • /
    • 2013
  • 본 연구의 목적은 바이오인포매틱스 분야의 회색문헌과 백색문헌의 초록을 대상으로 단어 동시출현(word co-occurrence)네트워크 분석을 통해 해당 분야의 연구 동향을 비교 분석하고자 하였다. 이를 위해 2010년부터 2012년까지 발표된 회색문헌인 회의자료(proceeding)와 백색문헌인 학술논문(journal article)의 초록을 SCOPUS, IEEEXplore, Microsoft academic search에서 수집하였다. 단어 동시출현 네트워크를 분석한 결과 회색문헌의 주요 연구는 분석도구 및 방법으로, 백색문헌의 주요 연구는 바이오인포매틱스의 주요 연구대상인 유전자 발현, 단백질 서열 및 구조 등으로 나타났다.

  • PDF

연구영역분석을 위한 디스크립터 프로파일링에 관한 연구 (Descriptor Profiling for Research Domain Analysis)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.285-303
    • /
    • 2007
  • 본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.

저자동시인용 분석과 동시출현단어 분석을 이용한 의료정보학 저널의 지적구조 분석 (Examining the Intellectual Structure of a Medical Informatics Journal with Author Co-citation Analysis and Co-word Analysis)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.207-225
    • /
    • 2013
  • 학문과 기술의 발달이 전개되면서 학문 간의 융합이 이루어지고 학제적 성향을 띠는 학문이 더욱 등장하게 되었다. 현재까지 계량정보학적 방법으로 학문 분야의 지적구조를 파악한 연구는 있었지만 학제적인 학문의 특성을 규명하여 지적구조를 분석한 시도는 적었다. 따라서 본 연구에서는 학제성을 띠는 의료정보학(Medical Informatics) 분야의 저널 중 IEEE ENG MED BIOL 저널을 선정하여 저자동시인용 분석과 동시출현단어 분석을 통해 본 저널의 지적구조를 파악하였다. 또한 상위 3개 대표 저널의 저자 및 MeSH Term을 추출하여 종합적으로 비교분석하였다. 이를 통해 의료정보학 분야의 융합된 학문들의 관계를 구조적으로 파악하고 의료정보학의 학문적 성향을 분석했다.

자동색인을 위한 학습기반 주요 단어(핵심어) 추출에 관한 연구 (Learning-based Automatic Keyphrase Indexing from Korean Scientific LIS Articles)

  • 김혜진;정유경
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2017년도 제24회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 2017
  • 학술 데이터베이스를 통해 방대한 양의 텍스트 데이터에 대한 접근이 가능해지면서, 많은 데이터로부터 중요한 정보를 자동으로 추출하는 것에 대한 필요성 또한 증가하였다. 특히, 텍스트 데이터로부터 중요한 단어나 단어구를 선별하여 자동으로 추출하는 기법은 자료의 효과적인 관리와 정보검색 등 다양한 응용분야에 적용될 수 있는 핵심적인 기술임에도, 한글 텍스트를 대상으로 한 연구는 많이 이루어지지 않고 있다. 기존의 한글 텍스트를 대상으로 한 핵심어 또는 핵심어구 추출 연구들은 단어의 빈도나 동시출현 빈도, 이를 변형한 단어 가중치 등에 근거하여 핵심어(구)를 식별하는 수준에 그쳐있다. 이에 본 연구는 한글 학술논문의 초록으로부터 추출한 다양한 자질 요소들을 학습하여 핵심어(구)를 추출하는 모델을 제안하였고 그 성능을 평가하였다.

  • PDF

동시출현단어 분석에 기초한 지적구조 분석에서 키워드 유형별 특성에 관한 연구 - 국외 오픈액세스 분야를 중심으로 - (A Study on the Characteristics by Keyword Types in the Intellectual Structure Analysis Based on Co-word Analysis: Focusing on Overseas Open Access Field)

  • 김판준
    • 한국문헌정보학회지
    • /
    • 제55권3호
    • /
    • pp.103-129
    • /
    • 2021
  • 본 연구는 동시출현단어 분석에 기초한 지적구조 분석에서 주제를 표현하는 두 가지 키워드 유형의 특성에 관하여 국외 오픈액세스 분야를 중심으로 살펴보았다. 구체적으로 문헌정보학 분야 LISTA 데이터베이스에서 추출한 키워드 집합을 두 가지 유형(통제키워드, 비통제키워드)으로 구분하고, 동시출현단어 분석에 기초한 지적구조 분석을 수행한 결과를 비교하였다. 그 결과, 각 키워드 유형별로 키워드 집합, 연구지도와 영향력, 그리고 시기에 따라 상당한 차이가 있는 것으로 나타났다. 따라서 동시출현단어 분석에 기초한 지적구조 분석에서는 연구 목적에 따라 키워드 유형별 특성을 고려하여야 한다. 즉 전체 학문분야 관점에서 특정분야의 전반적인 연구 동향을 살펴보는 목적으로는 통제키워드를, 해당 분야 관점에서 연구 영역별로 세부적인 동향을 파악하는 목적으로는 비통제키워드를 사용하는 것이 더 적절할 것이다. 또한 양자의 관점을 모두 반영하는 종합적인 지적구조 분석을 위해서는 통제키워드와 비통제키워드를 개별적으로 사용한 결과를 상호 비교하여 분석하는 것이 가장 바람직하다고 할 수 있다.

동시출현단어 분석을 이용한 도서관경영 분야의 지적구조 분석 (A Study on the Analysis of Intellectual Structure of Library Management Studies using Co-Word Analysis)

  • 이정규;이용구
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.23-26
    • /
    • 2013
  • 지식기반사회와 정보홍수시대로 갈수록, 도서관의 존속여부에 대한 고민으로 도서관경영의 중요성은 심화되며, 관련 연구가 많이 이루어지고 있다. 이에 본 연구는 동시출현단어 분석을 통해 도서관경영 분야의 지적구조를 분석하였다. 데이터 수집은 2001~2013년도까지 한국연구재단에 등재된 5개의 문헌정보학 관련 학회지를 대상으로 하였으며, 해당 논문 수는 413건이다. 데이터 처리후 군집분석을 실시하여 9개의 군집을 형성하였으며, 해당 군집은 장서개발, 디지털도서관, 공공도서관, 마케팅 및 조직관리, 국립중앙도서관 및 작은도서관, 인사관리(직무/자격제도), 대학도서관, 학교도서관, 서비스 품질평가이다. 이러한 연구 결과는 기존의 도서관경영 분야의 주제영역과 비교하였다.

  • PDF

동시출현 단어분석 기반 스팸 문자 탐지 기법 (Coward Analysis based Spam SMS Detection Scheme)

  • 오하영
    • 정보보호학회논문지
    • /
    • 제26권3호
    • /
    • pp.693-700
    • /
    • 2016
  • 스팸 데이터 셋은 통상적으로 공개적으로 구하기 어렵고 기존 연구들은 대부분 스팸 이메일에 초점이 맞춰져 왔기 때문에 스팸 문자 메시지 자체 특성을 분석하는데 한계가 있었다. 스팸 이메일 특성 분석 활용 및 데이터 마이닝 기법 등의 활용을 통한 기존 연구들이 있었지만, 영향력이 높은 단일 단어를 활용한 스팸 문자 탐지 기법에 한정되어 있다는 한계점이 있다. 본 논문에서는 싱가폴 대학교에서 공개적으로 공개한 스팸 문자메시지를 다 각도에서 실험 및 분석하여 스팸 문자의 특성을 밝히고 동시출현 단어분석 기반의 스팸 문자 탐지 기법을 제안한다. 성능평가 결과, 제안하는 기법의 거짓 양성과 거짓 음성이 2%미만임을 보였다.

동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가 (User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence)

  • 이현우;한요섭;김래현;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 2008
  • 많은 사용자들의 참여로 구축된 집단 지성을 이용한 지식 검색 서비스에서 사용자가 원하는 답변을 빨리 찾고자 하는 요구가 증가하고 있다. 기존의 연구에서 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보가 답변을 평가하는데 좋은 자질임이 증명되었고, 신뢰도를 추정할 수 있는 여러 종류의 단어 사전을 이용하여 답변의 좋고 나쁨을 평가할 수 있는 연구도 진행되었다. 하지만, 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보는 사용자 조작이 간단하여 지속적으로 관리를 해야 하며, 신뢰도를 추정할 수 있는 단어는 지속적으로 보강되어야 한다. 본 논문에서는 이러한 문제점을 해결하고자 동시출현 자질을 이용한 질문과 답변의 유사성을 활용하여 집단 지성에서 사용자의 활동을 분석하여 사용자의 명성을 평가하는 방법을 제안한다. 사용자의 명성을 계산할 수 있다면 조회 수와 추천 수가 많지 않은 답변의 신뢰도도 비교적 정확하게 추정할 수 있다. 이를 위해 우리는 PageRank 알고리즘을 수정하여 사용자 명성을 계산한다. 네이버 지식iN의 문서로 실험한 결과, 기존 정답 선택률을 보완할 수 있는 결과를 보였다.

  • PDF

동시출현단어분석을 통한 데이터과학 분야의 지적구조에 관한 연구 (A Study on the Intellectual Structure of Data Science Using Co-Word Analysis)

  • 김현정
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.101-126
    • /
    • 2017
  • 최근 문헌정보학의 관련 분야로 주목받고 있는 데이터과학은 오랫동안 문헌정보학에서 해오던 정보의 수집, 저장, 조직, 분석, 활용 등의 활동을 데이터에 적용하여 그 가치를 이해하려는 학문이며, 통계학과 컴퓨터공학 등 다른 학문분야와의 연계가 필요한 분야이다. 이러한 데이터과학 분야의 연구 영역을 파악하기 위하여 동시출현단어 분석을 사용하여 Web of Science 핵심컬렉션에 수록된 문헌들 중 데이터 과학 관련 자료들을 수집하고, 그 주제범주를 활용하여 네트워크분석을 실시하였다. 총 667건의 자료에 대한 159개의 주제범주를 기술분석하여 데이터과학 관련 연구가 많이 이루어지고 있는 학문분야를 조사하였고, 네트워크분석을 통해 데이터과학 분야 연구영역의 지적구조를 시각적으로 파악하였다. 분석결과, 데이터과학 분야의 연구들은 2개 영역 9개 군집으로 구분되었으며, 주제범주의 용어들 중 중심성이 높은 용어들을 통해 각 군집의 대표적인 주제들을 선정하였다. 연구의 결과는 데이터과학 분야의 연구들에 대한 지적구조를 파악하는데 도움이 될 수 있고, 문헌정보학과의 연계융합전공으로서의 데이터과학 교과과정 개발에 방향성을 제시할 수도 있을 것이다.