• 제목/요약/키워드: 동시출현 단어 분석

검색결과 115건 처리시간 0.024초

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

지구적 환경문제 해결을 위한 학술활동과 환경운동 경향 연구 (An Informetric Study on Academic Activities and Environmental Movements in Solving Global Environmental Problems)

  • 박재신;정영미
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.83-102
    • /
    • 2010
  • 본 연구에서는 지구적 환경문제의 해결 방식으로서 환경과학 분야의 학술활동과 같은 학문적 접근 방식과 환경 NGO 중심의 환경운동과 같은 실천적 접근 방식을 두 가지 주요 흐름이라 보고, 이들 각각의 특성을 계량정보학적 분석을 통해 파악하고 비교하였다. 지난 10년 간 환경과학 분야에서 인용된 저널의 주제범주 간 동시인용 관계를 분석함으로써 이 분야의 지식 구조를 파악하였고, 환경 NGO의 웹 사이트에서 수집된 외부링크 데이터를 이용하여 이들의 관심 분야를 확인하였다. 또한 저널 논문과 NGO 뉴스에서 추출된 핵심어를 이용한 동시출현단어 분석을 통해 하위 주제를 파악하여 이들 간의 주제적 유사성과 상이성을 구체화하였다.

동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가 (User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence)

  • 이현우;한요섭;김래현;차정원
    • 인지과학
    • /
    • 제19권4호
    • /
    • pp.459-476
    • /
    • 2008
  • 많은 사용자들의 참여로 구축된 집단 지성을 이용한 지식 검색 서비스에서 사용자가 원하는 답변을 빨리 찾고자 하는 요구가 증가하고 있다. 기존의 연구에서 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보가 답변을 평가하는데 좋은 자질임이 증명되었고, 신뢰도를 추정할 수 있는 여러 종류의 단어 사전을 이용하여 답변의 좋고 나쁨을 평가할 수 있는 연구도 진행되었다. 하지만, 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보는 사용자 조작이 간단하여 지속적으로 관리를 해야 하며, 신뢰도를 추정할 수 있는 단어는 지속적으로 보강되어야 한다. 본 논문에서는 이러한 문제점을 해결하고자 동시출현 자질을 이용한 질문과 답변의 유사성을 활용하여 집단 지성에서 사용자의 활동을 분석하여 사용자의 명성을 평가하는 방법을 제안한다. 사용자의 명성을 계산할 수 있다면 조회 수와 추천 수가 많지 않은 답변의 신뢰도도 비교적 정확하게 추정할 수 있다. 이를 위해 우리는 PageRank 알고리즘을 수정하여 사용자 명성을 계산한다. 네이버 지식iN의 문서로 실험한 결과, 기존 정답 선택률을 보완할 수 있는 결과를 보였다.

  • PDF

딥러닝 및 토픽모델링 기법을 활용한 소셜 미디어의 자살 경향 문헌 판별 및 분석 (Examining Suicide Tendency Social Media Texts by Deep Learning and Topic Modeling Techniques)

  • 고영수;이주희;송민
    • 한국비블리아학회지
    • /
    • 제32권3호
    • /
    • pp.247-264
    • /
    • 2021
  • 자살은 전 세계 사망 원인 중 4위이며 사회, 경제적 손실이 큰 난제이다. 본 연구는 자살 예방을 위하여 소셜미디어에 나타난 자살 관련 말뭉치를 구축하고 이를 통해 자살 경향 문헌을 분류할 수 있는 딥러닝 자동분류 모델을 만들고자 하였다. 또한, 자살 요인을 분석하기 위해 주제를 자동으로 추출하는 분석 기법인 토픽모델링을 활용하여 자살 관련 말뭉치를 세부 주제로 분류하고자 하였다. 이를 위해 소셜미디어 중 하나인 네이버 지식iN에 나타난 자살 관련 문헌 2,011개를 수집한 후 자살예방교육 매뉴얼을 기준으로 자살 경향 문헌 및 비경향 문헌 여부를 주석 처리하였으며, 이 데이터를 딥러닝 모델(LSTM, BERT, ELECTRA)로 학습시켜 자동분류 모델을 만들었다. 또한, 토픽모델링 기법의 하나인 LDA 기법으로 주제별 문헌을 분류하여 자살 요인을 발견하였고 이를 심층적으로 분석하기 위해 주제별로 동시출현 단어 분석 및 네트워크 시각화를 진행하였다.

트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구 (Topic-Network based Topic Shift Detection on Twitter)

  • 진설아;허고은;정유경;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.285-302
    • /
    • 2013
  • 본 연구는 높은 접근성과 간결성으로 인해 방대한 양의 텍스트를 생산하는 트위터 데이터를 분석하여 토픽의 변화 시점 및 패턴을 파악하였다. 먼저 특정 상품명에 관한 키워드를 추출한 후, 동시출현단어분석(Co-word Analysis)을 이용하여 노드와 에지를 통해 토픽과 관련 키워드를 직관적으로 파악 가능한 네트워크로 표현하였다. 이후 네트워크 분석 결과를 검증하기 위해 출현빈도 기반의 시계열 분석과 LDA 토픽 모델링을 실시하였다. 또한 트위터 상의 토픽 변화와 언론 기사 검색결과를 비교한 결과, 트위터는 언론 뉴스에 즉각적으로 반응하며 부정적 이슈를 빠르게 확산시키는 것을 확인하였다. 이를 통해 기업은 대중의 부정적 의견을 신속하게 파악하고 이에 대한 즉각적인 의사결정 및 대응을 위한 도구로 본 연구방법을 활용할 수 있을 것으로 기대된다.

동시출현단어 분석을 활용한 비탈면 붕괴 예측 및 분석 연구에 관한 지적구조 분석 (Domain Analysis of Research on Prediction and Analysis of Slope Failure by Co-Word Analysis)

  • 김선겸;김승현
    • 지질공학
    • /
    • 제31권3호
    • /
    • pp.307-319
    • /
    • 2021
  • 최근 드론 및 빅데이터, 인공지능 등 디지털 기술을 활용한 비탈면 연구를 수행하고 있으나 다소 미흡한 실정이며, 여전히 비탈면 붕괴 대비에 취약하다. 이러한 이유로 비탈면 붕괴에 효과적으로 대처하기 위해 디지털 기술을 활용한 비탈면 붕괴 예측 및 분석 연구에 대한 발전방향을 제시하는 것이 필연적이며, 이를 위해 비탈면 붕괴 예측 및 분석에 관한 이해가 선제되어야 한다. 본 연구는 비탈면 붕괴 예측 및 분석 연구의 지적구조를 규명하여 연구방향을 제시하기 위해 2016년 1월 1일부터 2020년 12월 31일까지의 5년간의 Web of Science 기반으로 문헌 데이터를 수집하고 이를 동시출현단어를 활용하여 분석하였다. 네트워크 분석을 통하여 세부 주제 영역을 밝히고, 키워드 간의 지적 관계를 시각화하여 관계, 중심성 분석을 통한 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하여 형성된 군집을 다차원축적지도에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 비탈면 붕괴 분석 및 예측 연구의 지적구조를 밝히고, 향후 연구 방향을 찾는데 도움이 될 것으로 기대한다.

동시출현단어 분석을 활용한 오픈액세스 분야의 지적구조 분석: 2013년부터 2018년까지 출판된 문헌정보학 저널을 기반으로 (Domain Analysis on the Field of Open Access by Co-Word Analysis: Based on Published Journals of Library and Information Science during 2013 to 2018)

  • 김선겸;김완종;서태설;최현진
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.333-356
    • /
    • 2019
  • 기존 상업 출판사 중심의 학술 커뮤니케이션 체제가 가져온 위기를 해소할 수 있는 대안으로 오픈액세스가 등장하였다. 본 연구는 계량정보분석 기법 가운데 하나인 동시출현단어 분석을 활용하여 오픈액세스 분야의 최신 연구 경향을 반영하는 지적구조를 제시하고 주제영역이 어떻게 구성되었는지 확인하는 것을 주된 목적으로 두며, 기존에 수행되었던 오픈액세스 지적구조 분석 연구와 비교분석하였다. 이를 위해 Web of Science로부터 오픈액세스 관련 키워드 검색을 통하여 2013년 1월 1일부터 2018년 11월 31일까지 출판된 문헌정보학 분야 논문 총 761편을 수집하였으며, 이들 논문 가운데 제목과 초록으로부터 명사구 형태의 키워드 총 2,321개를 추출하였다. 오픈액세스 지적구조 분석을 위해 네트워크 분석을 통하여 13개의 세부 주제영역이 추출되었으며, 지적관계를 시각화하여 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하고 이 결과를 다차원축적지도에 표시하여 키워드들과의 상관관계를 분석하였다. 이를 통해 앞으로 오픈액세스 영역에서의 연구 방향성 모색에 도움이 될 것으로 기대한다.

이용자 중심의 이미지 접근과 이용 분석을 통한 차세대 멀티미디어 검색 패러다임 요소에 관한 연구 (Towards Next Generation Multimedia Information Retrieval by Analyzing User-centered Image Access and Use)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.121-138
    • /
    • 2017
  • 멀티미디어 정보환경의 발전과 다양한 요구를 지닌 정보이용자는 멀티미디어의 접근과 이용에 있어서 기존 정보검색 패러다임에서 중요시하지 않았던 요소를 사용하는 추세이다. 특히 이미지를 포함한 멀티미디어의 감정 접근과 이용은 다양한 정보환경에서 이루어지고 있다. 따라서 효율적으로 추상적 개념인 감정을 이용자에게 접근점으로 제공할 필요성이 증가한다. 본 연구는 감정으로 접근이 가능한 게티 이미지 뱅크의 이미지를 5가지 기본 감정으로 검색하여 부여된 색인어 총 22,675건을 추출하였다. 추출된 색인어는 전체감정, 긍정감정, 부정감정의 세 가지 데이터셋으로 구분하여 분석되었다. 분석을 위해서는 동시출현단어행렬로 작성되어 가중 네트워크와 군집화기법으로 시각화되었다. 분석결과를 살펴보면, 전체감정은 대분류로써 긍정감정, 부정감정, 가족의 3개 군집과 하위 20개의 군집으로 나타났다. 긍정감정은 10개의 군집이며, 부정감정은 10개의 군집으로 구성되었다. 이와 같은 가중 네트워크와 군집구성 분석을 통해, 세 가지 중요한 차세대 멀티미디어 검색을 위한 요소로 논의하였다. 첫째는 이미지 감정 표현을 위한 인물 색인어 특성이다. 둘째는 명시적 단어와 감정을 표현하는 함축적 단어와의 네트워크 구성을 통해서 상대적으로 색인이 용이한 명시적 단어만으로도 함축적 단어 추론 가능성이다. 셋째는 감정으로 표현하는 함축적 단어의 유사어/동의어로의 확장은 이용자 중심의 접근을 제공하는 측면에서 중요하다는 점이다.

동시출현 단어 분석을 통한 지식 구조의 파악 : 인공지능 분야를 대상으로 (Exploration of Intellectual Structure of Artificial Intelligence Field Using Co-word Analysis)

  • 이미경;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.245-251
    • /
    • 2003
  • 이 연구에서는 통제된 색인어를 이용하여 파악한 지식 구조와 통제되지 않은 키워드를 이용한 지식 구조를 비교하여 두 구조가 어떤 차이점을 보이는지를 살펴보았다. 또한 색인효과가 어떻게 나타나는지, 비통제어를 사용한 경우가 실제적으로 더 상세한 하위 영역을 표현하는지를 확인하고자 하였다. 실험 결과 통제된 색인어인 주제명표목을 사용한 영역지도와 비통제 색인어인 키워드를 사용한 영역지도 둘 다 인공지능 분야의 주요 분야들을 비슷하게 나타냈지만, 주제명표목을 사용한 경우에 색인효과가 일부 나타났다. 그리고 대체적으로 주제명표목에 기반한 영역지도보다는 키워드에 기반한 영역지도가 더 상세하게 나타났다.

  • PDF

한국 사회의 불평등 관련 연구 동향 분석안 (Analysis of Research Trends in Inequality of Korean Society)

  • 김용환
    • 한국문헌정보학회지
    • /
    • 제55권2호
    • /
    • pp.263-287
    • /
    • 2021
  • 한국사회의 불평등과 관련된 연구는 다양한 영역에서 산발적으로 진행되어 왔다. 이 연구에서는 불평등 관련 연구 동향을 한국학술지인용색인을 통해 수집한 논문 데이터를 활용하여 기초 통계 분석, 단어 동시 출현 분석, 주 경로 분석을 통해 통합적으로 분석하였다. 기초 통계 분석을 통해 핵심저자, 저널, 논문을 파악할 수 있었다. 동시출현 분석을 통해 소득불평등, 교육불평등, 복지불평등, 불평등 정책이 핵심 주제로 확인되었다. 주 경로 분석을 통해 2004년 이후의 불평등 연구 흐름은 두 가지로 나타났다. 하나는 경제적 불평등에 관한 연구이고, 다른 하나는 건강 불평등 및 사회 구조적 불평등과 관련된 연구로 나타났다.