• 제목/요약/키워드: 단어 검색

검색결과 558건 처리시간 0.026초

문화콘텐츠 통합을 위한 메타데이터 포맷 연구 (A Study on Metadata Formats for Integration of Cultural Contents)

  • 조윤희
    • 정보관리학회지
    • /
    • 제20권2호
    • /
    • pp.114-133
    • /
    • 2003
  • 최근 문화콘텐츠 관련 기관들은 분산 네트워크를 통해 이용자에게 문화콘텐츠의 접근을 점차 확대시키고 있다. 그러나 문화콘텐츠의 특성상 일반 콘텐츠와 달라서 많은 문화콘텐츠 객체는 정보의 조직과 검색에 사용할 수 있는 단어를 거의 포함하고 있지 못하다. 이러한 문화콘텐츠 시스템이 서비스 될 경우, 효율적으로 자원을 식별하고 검색할 수 없게 될 뿐 아니라 다양한 문화콘텐츠 메타데이터 요소간의 명칭, 표현, 의미가 상이하여 시스템간 연동이나 정보공유가 어렵게 된다. 이러한 문제를 해결하기 위해 문화콘텐츠의 속성에 적합한 표준화된 메타데이터의 조직과 관리가 필요하다. 본 연구는 문화콘텐츠 분야에서 다야하게 접근되고 있는 메타데이터 포맷인 Dublin Core, EAD, VRA, CDWA, CIMI. Object ID를 중심으로 각 포맷의 데이터 요소를 비교 분석함으로써 상이한 메타데이터 포맷의 상호운용성 확보를 통하여 문화콘텐츠 통합을 위한 기초 자료를 제공하고자 하였다.

LDA 모델을 이용한 잠재 키워드 추출 (Latent Keyphrase Extraction Using LDA Model)

  • 조태민;이지형
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.180-185
    • /
    • 2015
  • 인터넷 미디어의 발달과 함께 온라인 문서의 양이 급격하게 증가함에 따라, 문서 요약과 정보 검색 등 다양한 분야에 활용가능한 키워드를 자동으로 찾고자하는 연구가 활발히 진행되고 있다. 하지만 기존의 키워드 추출 연구들은 문서에서 나타나는 키워드만을 대상으로 하고 있어, 문서에서 등장하지 않는 잠재 키워드를 추출하지 못하는 한계를 갖고 있다. 잠재 키워드는 실데이터 키워드의 1/4 이상을 차지하고 있으며, 문서에서 나타나지는 않지만 문서의 중요한 개념이나 내용을 함축하고 있어 문서 요약 및 정보 검색에 중요한 역할을 차지할 수 있다. 특히 SNS와 같이 내용이 적어 키워드가 명시적으로 나타나기 어려운 문서에서 유용하게 활용될 수 있다. 본 논문에서는 잠재 키워드를 추출하기 위해 주어진 문서와 유사한 문서의 키워드를 후보 키워드로 선택하고 후보 키워드를 구성하는 개별 단어들을 이용해 후보 키워드의 중요도를 평가하는 방법을 제안한다. 실험을 통해, 제안 기법이 잠재 키워드를 합리적인 수준으로 추출할 수 있음을 보였다.

네트워크 분석을 통한 국내 융합기술 연구동향 분석 (An Analysis on the Trends and Issues of Convergence Technology Research)

  • 임정연
    • 사물인터넷융복합논문지
    • /
    • 제4권1호
    • /
    • pp.23-29
    • /
    • 2018
  • 본 연구는 국내 융합기술 관련 연구물의 네트워크 분석을 통해 연구동향을 파악하고, 연구특성과 구조, 현황을 분석하는데 목적이 있다. 이를 위해 지난 13년(2005년~2018년)동안 연구명에 '융합기술' 단어를 사용한 학술지 177편의 저자키워드 653개에 대한 네트워크 분석을 실시하였다. 연구결과는 다음과 같다. 첫째, 국내 융합기술 연구는 지난 13년 동안 꾸준히 수행되어 왔으며 주로 융합, 디지털, 기술, 예술디자인 분야에서 활발히 이루어졌다. 둘째, 검색어 빈도분석 결과, '융합기술', '기술융합', '융합', '디자인', '융합교육', 'STEAM', '융합연구', '4차 산업혁명', '특허분석' 등이 융합기술의 주요 키워드로 사용되었다. 셋째, 커뮤니티 분석결과, 5개의 커뮤니티가 분류되었고, 검색어의 특성을 반영해 '나홀로 IT', '융합콘텐츠를 활용한 문화산업', '기술혁신과 연구분석', '융합교육', '기술융합과 특허개발'의 주제가 도출되었다. 이러한 연구결과를 통해 미래사회 융합기술교육 연구의 과제와 방향을 제안하였다.

SNS 빅데이터 분석을 활용한 국립과학관에 대한 이미지 분석과 경영전략 제안 (Image Analysis and Management Strategy for The National Science Museum Utilizing SNS Big Data Analysis)

  • 신성연
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.81-89
    • /
    • 2020
  • 본 연구의 목적은 대중들이 지각하는 과학관에 대한 인식의 분석을 바탕으로 효과적인 과학관 경영전략을 제시하는 것이며, 이를 위해 연구문제들을 설정하여 분석을 진행하였다. 자료의 수집과 분석은 질적연구방법과 양적연구방법을 융합하여 이미지 분석에 대한 새로운 접근방식을 통해 진행되었다. 먼저 면담(Interviewing)을 통한 질적연구방법을 통해 면접 대상자들(대학생, 대학원생 및 일반인)로부터 과학이라는 개념에 대한 이미지를 도출한 후 텍스트 분석을 실시하였다. 그리고 국립과학관과 관련하여 국내 대형 포털사이트 검색결과 중 블로그 포스팅 12,920건의 제목에서 추출한 63,987개의 단어에 대한 LDA기반 토픽 모델링(Latent Dirichlet Allocation Topic modeling)을 통한 양적연구방법을 융합하여 연구가 진행되었다. 분석결과, 응답자 특성에 따라 과학에 대한 인식은 차이가 있는 것으로 확인되었다. 국립과학관에 대한 포털사이트 검색결과는 20개의 토픽으로 도출되었고 7개의 요인으로 분류되었다. 본 연구의 결론에는 이에 대한 논의와 과학관 경영전략을 제시하고 있다.

분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법 (Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 기술을 단락분할이라 한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야에서 중요한 역할을 담당할 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어란 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야별로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 일본어 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있었고, 한국어에 적용하여도 좋을 것으로 예상한다.

위키피디아 기반의 3차원 텍스트 표현모델을 이용한 개념망 구축 기법 (Building Concept Networks using a Wikipedia-based 3-dimensional Text Representation Model)

  • 홍기주;김한준;이승연
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.596-603
    • /
    • 2015
  • 개념망(Concept Network)은 시멘틱 검색, 개인화 검색, 추천, 텍스트마이닝 기법의 개선 등에 필수적인 지식베이스이다. 최근 효과적인 개념망 구축을 위해 온톨로지를 기반으로 하여 개념의 표현을 확장시키는 연구가 활발하다. 이에 본 논문은 World Knowledge로 평가받고 있는 위키피디아 데이터를 '개념' 집합의 원천으로 활용하여 3차원 텍스트 표현 모델 기반 개념망을 구축하는 기법을 제안한다. 사실상 개념들 간의 관계 정보는 시간의 흐름에 따라 변동하기 때문에, 텍스트 문서로부터 도출되는 '개념'은 Formal Concept Analysis 이론체계의 개념에 따르는 것이 바람직하다. 이를 위해 본 논문은 하나의 개념을 '단어'와 '문서' 간의 2차원 행렬로 표현하여 문서집합에 잠재된 개념간의 연관망을 보다 정확하게 생성하게 한다.

간호사의 직무 스트레스와 자기효능감 관련 연구에 대한 융합적 고찰 (Convergence Study of Relation between Job Stress and Self-efficacy of Nurses)

  • 문혜경;정미란;노원정
    • 융합정보논문지
    • /
    • 제9권3호
    • /
    • pp.146-151
    • /
    • 2019
  • 본 연구는 간호사의 직무 스트레스와 자기효능감과의 관계를 규명하기 위하여 관련 연구의 동향을 고찰하고 텍스트 네트워크 분석을 시행하였다. 선행문헌고찰을 위하여 국내 3곳, 국외 1곳의 데이터베이스를 이용하여 '간호사', '스트레스', '자기효능감', 'nurse', 'stress', 'self-efficacy'를 주요 검색어로 검색하였다. 총 18편의 논문이 대상 문헌으로 선정되었다. 이중 9편의 연구에서 간호사의 직무 스트레스와 자기효능감 간에 통계적으로 유의한 음의 상관관계가 있음을 보고하였다. 그러나 도구의 선택에 있어 번안자에 따라 문항을 선택적으로 사용하여 상이한 결과가 도출되어 동일한 도구를 사용한 다른 논문들과의 비교 분석이 어려웠다. 또한, 18편 논문의 초록에서 키워드를 추출하여 텍스트 네트워크 분석을 시행하였다. 출현 빈도수가 가장 높은 단어는 직무스트레스였고, 이를 기준으로 관계를 분석하였을 때 출현 빈도수가 높은 주요어는 자기효능감, 의료기관, 상관성이었다. 해당 주요어간의 관계를 명확하게 하기 위해 한국형 도구 개발을 통한 영향요인 탐색 연구 수행을 제언한다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

SCI에 등재된 한국 학술지를 정의하는 방법에 대한 연구 (A Study on the Definition Methodology of Korean SCI Journals)

  • 이춘실;이남영
    • 한국비블리아학회지
    • /
    • 제18권2호
    • /
    • pp.271-288
    • /
    • 2007
  • 본 연구의 목적은 SCI와 같은 국제적인 데이터베이스에 등재된 학술지 중에서 한 나라의 학술지를 찾아내고 구분하는 기준이 어떤 것들이 있으며, 또 이러한 기준이 그 나라의 학술지를 모두 찾을 수 있는지에 대한 검증을 하는 것이다. 학술지 발행국, 학술지 편집 및 발행 주체 학술지명에 한국과 관련한 고유한 단어 포함여부, 한국 주소 논문이 많은 학술지 등 4가지 기준에 의거하여 SCI와 JCR 데이터베이스를 검색하고 학술지 웹사이트 등 관련 자료를 추적하였다. 그 결과 2006년도 SCI 등재 한국 학술지는 모두 40종인 것으로 나타났다. SCI에서 학술지 발행국을 한국으로 처리한 것은 38종, 외국출판사에서 발행하나학술지 편집주체가 한국의 학회인 학술지는 2종, JCR 2006에서 검색 가능한 것은 36종, 한국 관련 고유명사가 학술지명에 나타나는 학술지는 11종이고, 한국 주소 논문이 많은 SCI 학술지 20위 안에는 9종이 그리고 500위 안에는 36종이 포함되었다.

학술대회 및 저널별 기술 핵심구 추출 모델 (A Keyphrase Extraction Model for Each Conference or Journal)

  • 정현지;장광선;김태현;신동구
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.81-83
    • /
    • 2022
  • 연구 동향을 파악하는 것은 연구 수행 시 필수적인 요소이다. 대부분의 연구자들은 관심분야의 학술대회 및 저널을 대표하는 기술 핵심구나 관심 분야를 검색함으로써 연구 동향을 파악한다. 하지만, 최근 인공지능과 같은 특정 분야의 경우 한 개의 학술대회에 한 해당 수백~수천 개의 논문이 출간되기 때문에 전체 분야의 경향성을 파악하는 데 어려움이 존재한다. 본 논문에서는 학술대회 또는 저널 제목을 활용하여 기술 핵심구를 자동으로 추출함으로써 연도별 학술대회 및 저널의 연구 동향 파악을 지원하고자 한다. 핵심구 추출은 문장 또는 문서를 대표하는 주요 구문을 추출하는 작업으로서 검색, 요약, 내용 파악 등을 위해 근간이 되는 기술이다. 기존 사전학습 언어모델 기반의 핵심구 추출 모델은 문서 단위의 긴 텍스트를 기준으로 모델링 하였기 때문에 제목 단위의 짧은 텍스트에서는 성능이 낮아진다는 단점이 존재한다. 본 논문에서는 짧은 텍스트에 강인하면서 단어 자체의 중요도를 고려한 학술대회 및 저널의 기술 핵심구 추출 모델을 제안하고자 한다.

  • PDF