• 제목/요약/키워드: 상위어

검색결과 161건 처리시간 0.023초

문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법 (Representative Labels Selection Technique for Document Cluster using WordNet)

  • 김태훈;손미애
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.61-73
    • /
    • 2017
  • 본 연구에서는 문서 클러스터링 결과 도출된 개별 클러스터가 함축하고 있는 의미를 파악하는 데 필요한 어휘들의 정보량을 활용한 문서 클러스터 레이블링(Documents Cluster Labeling) 방법을 제안하였다. 이를 위해, 클러스터에 포함된 어휘들이 해당 클러스터에서 얼마나 중요한 비중을 차지하고 있는지 파악하기 위하여 각 어휘의 출현 빈도와 정보량을 이용한 어휘의 가중치를 계산한 후, 워드넷을 이용하여 클러스터에 포함된 어휘들의 최근접 공통 상위어를 후보 레이블로 식별하였다. 이상의 과정을 거쳐 식별된 후보 레이블의 정보량과 클러스터내에서의 중요도 가중치를 활용해, 해당 클러스터의 의미와 특징을 포괄적으로 표현할 수 있는 대표 레이블을 결정하였다. 본 연구의 우수성을 입증하기 위해 다음과 같은 실험을 수행하였다. 실험은 본 연구에서 제안한 방법에 따라 선정된 레이블과 후보 레이블을 워드넷에 프로젝션한 후, 워드넷상에서 이들 레이블의 위치(깊이)를 확인하였다. 또한 선정된 후보 레이블을 상위어로 갖고 있는 클러스터 내 어휘의 수를 도출하여, 휴리스틱 방법에 따라 선정된 레이블을 전문가가 찾은 대표 레이블과의 비교를 수행하였다. 평가지표로 후보 레이블의 적합성($Suitability_{cl}$)과 대표 레이블의 적절성($Appropriacy_{rl}$)을 활용하였다. 실험 결과, 본 연구에서 제안한 방법을 적용해 문서 클러스터 레이블링을 수행할 경우, 후보 레이블의 적합성의 경우 기존의 방법보다 약간 감소하지만 계산량이 기존 방법의 약 20% 정도로 감소하였으며, 대표 레이블의 적절성의 경우 기존의 방법보다 우수한 결과를 도출하는 것을 확인하였다.

트위터 이용자의 언어권별 자기노출 및 경계 불투과성 (Self-Disclosure and Boundary Impermeability among Languages of Twitter Users)

  • 장필식
    • 한국콘텐츠학회논문지
    • /
    • 제16권4호
    • /
    • pp.434-441
    • /
    • 2016
  • 본 연구에서는 빅데이터 분석기법을 이용하여 트위터 이용자들을 대상으로 언어에 따른 자기노출과 경계불투과성에 대한 양상을 파악하였다. 6개월 동안 5천4백만 명의 트위터 이용자가 작성한 4억여 개의 트윗을 수집하였으며, 이들 중 트윗 수 상위 10개 언어권 이용자의 프로파일 및 관련 데이터를 조사하였다. 이를 통해 트위터 이용자의 언어가 이용자 프로파일, 프로파일 이미지, 지리정보, URL, 사용자 설명 등 자기정보 공개 항목의 공개비율과 경계불투과성에 미치는 영향을 분석하였다. 분석결과, 경계 불투과성과 자기노출 비율(프로파일, 프로파일 이미지, URL, 이용자 설명, 지리정보)은 언어권에 따라 각각 통계적으로 유의한(p<0.001) 차이가 있는 것으로 나타났다. 자기노출 비율과 평균 점수는 포르투갈어, 인도네시아어 및 스페인어 이용자가 아랍어, 일본어, 터키어, 한국어 이용자에 비해 높은 것으로 파악되었다. 또한 리트윗을 포함한 트윗 수가 많은 이용자일수록 경계 불투과성이 높아지는 것으로 나타났다.

사용자 개인 프로파일을 이용한 개인화 검색 기법 (Personalized Search Technique using Users' Personal Profiles)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.587-594
    • /
    • 2019
  • 본 논문은 사용자의 검색 의도와 개별 관심을 반영한 순위화된 검색 결과 문서를 제공하는 개인화 검색 기법을 제안한다. 개인화 검색에서는 사용자의 개별 관심사와 선호도를 정확하게 판별하기 위한 사용자 프로파일을 생성하는 기술이 개인화 검색의 성능을 좌우한다. 개인 프로파일은 사용자의 최근 입력 질의어들과 검색과정에서 참조했던 문서들에 나타나는 주제어들의 가중치와 빈도가 기록된 데이터 집합이다. 사용자 프로파일은 웹 검색에 앞서 사용자의 입력 질의어를 개인화된 질의어들로 확장하기 위해 사용된다. 중의적 질의어의 정확한 의미를 결정하기 위해서 워드넷을 사용하여 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 검색 시스템의 사용자 측에 질의확장 모듈과 순위 재계산 모듈을 확장모듈로 구축하여 진행한 실험에서 개인화 검색 기술을 적용한 실험 결과가 상위문서들에 대해서 정확률과 재현률이 크게 향상된 성능을 보이고 있다.

국가기록원 웹사이트 유입경로와 이용자 검색어 분석 (Analysis of Users' Inflow Route and Search Terms of the Korea National Archives' Web Site)

  • 진주영;이해영
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 이용자 정보이용환경이 웹으로 변화하면서, 기록관리기관들도 종전보다 더 많은 서비스를 웹을 통해 제공하고 있다. 이 연구는 국가기록원 웹사이트를 이용하는 이용자의 최근 유입경로와 10년 반 동안 매달 상위 100개의 검색어 데이터를 분석하고 그에 맞는 기록정보서비스방안을 제시한다. 분석 결과 유입경로는 크게 포털 사이트별 접속, 국가별 접속, 유사기관 별 접속 및 모바일 접속으로 분류할 수 있었다. 이용자들의 검색어를 분석한 결과 이용자들이 10년 반 동안 가장 많이 검색한 검색어는 '토지조사부'였으며, 꾸준한 관심을 갖고 검색한 검색어 또한 '토지조사부'였다. 그 외에 정부 기관에서 생산한 문서 또는 관보에 대한 관심도 높음을 확인하였다. 그리고 이용자들이 가장 많이 검색한 검색어와 꾸준히 등장한 검색어를 파악한 결과, 검색어들을 크게 토지, 일제강점기, 6.25 전쟁과 남북관계, 기록관리 및 이용으로 묶어볼 수 있었다. 분석결과를 토대로 포털 사이트 및 모바일 등을 활용한 국가기록원 웹사이트의 연계성 강화와 검색 서비스의 고도화 방안을 제안하였다. 이 연구는 이렇게 웹로그나 이용자 검색어 등을 분석하면 기록관리기관 이용자들에게 제공하는 서비스를 고도화할 수 있는 의미 있는 결과를 얻을 수 있음을 확인하였다.

한국안광학회지 게재 논문의 주제어와 MeSH 용어의 비교·분석 (Comparison and Analysis of Keywords in the Korean Ophthalmic Optics Society Articles to MeSH Terms)

  • 김대윤;이민형;최문성
    • 한국안광학회지
    • /
    • 제21권2호
    • /
    • pp.83-90
    • /
    • 2016
  • 목적: 한국안광학회지에 게재된 논문을 대상으로 영문 주제어(key word)와 의학용어 주제어집(MeSH-Medical Subject Headings) 용어와의 일치도를 비교 분석하여 한국안광학회지에서의 MeSH 용어의 이해도와 활용도를 높이고자 하였다. 방법: 2004년 9권 1호부터 2016년에 21권 1호까지 최근 12년 간 총 409편의 영문 주제어 1952개를 대상으로 MeSH 용어와의 일치도를 완전일치, 부분일치, 불일치로 분석하였다. 결과: 분석 결과 완전일치를 보인 주제어 수는 439개로 전체의 22.4%이고, 부분 일치한 용어의 수는 815개이며 전체의 41.8%를 차지하였다. 완전불일치한 주제어는 총 693개가 나왔으며 이는 전체의 35.5%에 해당되었다. MeSH 용어 중 가장 높은 빈도수를 보인 주제어는 Myopia, Astigmatism과 visual acuity 순서였으며, MeSH 용어와 부분일치를 보인 논문 주제어 중 Refractive error, Soft contact lens, Phoria 순서로 높은 빈도수를 나타내었다. MeSH 용어와 비교 시 불일치되는 주제어 중에서 빈도가 상위인 것은 Accommodative lag와 Pseudomonas aeruginosa 였다. 결론: 한국안광학회지가 유명 MEDLINE에서 검색되는 논문 활용성을 제고하기 위하여 영문 주제어를 선택할 때 MeSH 용어로 선택 될 수 있도록 해야 한다.

자질별 관계 패턴의 다변화를 통한 온톨로지 확장 (Incremental Enrichment of Ontologies through Feature-based Pattern Variations)

  • 이신목;장두성;신지애
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.365-374
    • /
    • 2008
  • 본 논문에서는 패턴의 다변화를 통하여 관계를 점진적으로 추출함으로써 온톨로지를 확장하는 모델을 제안한다. 패턴 다변화 과정에서 위키피디아로부터 추출한 관계 패턴 후보를 자질별로 다변화시킨다. 다변화된 패턴 후보로부터 말뭉치 빈도수에 따른 신뢰도를 이용하여 패턴을 선별한다. 선별된 패턴은 위키피디아로부터 관계를 추출하는 데 사용되며, 추출된 관계는 다시 관계 패턴 확장에 사용된다. 본 논문에서는 점진적 학습 과정에서의 패턴 다변화를 통하여 패턴 선택의 범위를 확장함으로써, 선택되는 패턴이 점진적으로 정제되는 모델을 제시한다. 이를 통하여, 관계의 확장성과 정확도를 향상시키고자 하였다. 단일 자질 패턴 모델에 대한 실험을 통하여, 어휘, 중심어, 상위어 정보는 신뢰도에, 품사, 구문 정보는 확장성에 유리하며, 구문 단위 유형별로 필요한 자질 유형이 다름을 관찰하였다. 이와 같은 특성에 기반하여 현재 연구 진행 중인복합 자질 패턴 모델을 제안한다.

언어네트워크분석을 활용한 해외 예술경영 연구동향 연구 (A Semantic Analysis on the Research Trend of International Arts Management)

  • 심다희;박양우
    • 예술경영연구
    • /
    • 제49호
    • /
    • pp.5-35
    • /
    • 2019
  • 본 논문은 해외의 예술경영 학술연구의 동향을 언어네트워크분석을 통하여 연구한 것이다. 본 연구는 예술경영 분야의 대표적 국제 전문학술지인 「International Journal of Arts Management」에 수록된 185편의 논문 초록에 게재된 357개의 주제어를 대상으로 분석을 시도하였다. 시간적 범위는 최근 연구 동향 분석을 위해 2008년부터 2017년까지로 설정하였다. 분석결과에 따르면 첫째, 빈도수가 가장 높은 주제어는 '박물관/미술관'이었다. 그리고 '공연예술'과 '예술' 또한 빈도수 20회 이상을 기록한 상위 그룹이었다. 그 뒤를 이어 '영화산업'과 '연극'에 대한 연구들이 많았다. 이런 예술 장르에 관련된 연구외에도 '소비자행동'과 '시장전략' 등 경영에 관련된 주제어들도 상위 그룹에 포함되어 있다. 둘째, 연도별 연구 동향을 보면 지난 10년 동안 매년 평균 53개의 주제어와 19개의 논문이 개재되고 있는데 국제적으로 예술경영연구가 꾸준하게 수행되고 있음을 알 수 있다. 분석대상 주제어 중 '박물관/미술관'은 빈도수가 가장 높은데, 지난 10년 간 지속적인 연구 소재가 되어져 왔고, '공연예술'도 지속적인 관심 주제어인 것을 볼 수 있다. '영화산업', '연극 그리고 '문화'는 10년 동안 간헐적인 연구 대상이었으며, '화랑'은 2011년까지 언급이 없다가 2012년부터는 꾸준히 언급되어져 왔음을 알 수 있었다. 전반적으로 해외의 예술경영연구 흐름을 살펴보면 대중문 화나 문화산업보다는 2000년대 후반에는 순수예술 쪽이 강세를 보이다가 시간이 흐를수록 주제들이 다양해지며 예술경영에 대한 연구들 또한 다양해지고 있음을 유추해 볼 수 있다. 셋째, 주제어별 연결빈도에서는 34회의 연결빈도를 보여준 '예술'과 '공연예술'이 가장 높은 연결 빈도를 기록하였다. 넷째, 주제어들 간의 밀도는 0.039로 주제어들 간 밀도 수치는 높지 않은 편이었다. 다섯째, 중심성분석에 따르면 '예술', '박물관/미술관', '공연예술', '연극' 그리고 '브랜드' 등이 중심에 위치하며 중심성이 높은 것을 보여주었다.

상대빈도를 이용한 문법형태소의 인식 방법 (A Method of Function-word Recognition by Relative Frequency)

  • 강승식
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.11-16
    • /
    • 1999
  • 한글 문서에서 일부 조사와 일부 어미들은 출현 빈도가 높은 반면에 그 외에 조사와 어미는 출현빈도가 낮을 것으로 추측되고 있다. 본 연구에서는 실험을 통해서 이러한 사실을 확인하고 한국어 분석 시스템에서 활용하기 위하여 조사와 어미의 상대적 출현 빈도를 조사하였다. 조사의 상대적 출현 빈도를 조사한 결과, 말 뭉치 분야에 따라 약간의 차이가 있으나 일반적으로 빈도수가 높은 9개의 조사가 전체 조사의 70%를 차지하고 상위 20개, 32개, 69개의 조사가 각각 90%, 95%, 99%를 차지하고 있음을 확인하였다. 어말 어미는 빈도수가 높은 10개의 어말 어미가 전체 어말 어미의 70%를 차지하고 상위 33개, 54개, 117개가 각각 90%, 95%, 99%를 차지하고 있다. 본 논문에서는 조사와 어미의 상대적 출현 빈도에 따라 문법형태소 사전을 구성하는 방법을 제안한다. 조사와 어미의 상대적 출현 빈도는 미등록 어 추정이나 형태론적 중의 성을 해결할 때도 활용된다.

  • PDF

서비스 제공자 목록에 의한 사용자 프로파일 기반 웹 서비스 검색의 정확도 향상 (Improvement of Searching Accuracy for Web Service based on User Profile with Service Provider List)

  • 이재원;김응모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.66-70
    • /
    • 2006
  • 웹은 단순한 텍스트와 이미지의 저장소에서 서비스의 제공자로 진화하고 있다. 사용자들은 자신이 필요로 하는 서비스를 찾기 위해 웹 검색을 이용한다. 그러나, 현재의 검색 엔진은 주어진 질의어에 대해 모든 사람들에게 보편적으로 타당한 문서에 높은 우선 순위를 부여해 검색 결과의 상위에 위치시키기 때문에, 사용자의 관심과는 무관한 정보가 검색 결과의 상위에 나타나게 되는 단점이 있다. 이러한 문제를 해결하기 위해 사용자의 방문 내역을 사용자 프로파일에 저장하여, 이후 검색에서 사용자가 방문했던 웹 페이지들에 높은 우선 순위를 부여하여 검색 결과의 상위에 위치시키는 방식이 사용되고 있다. 기존의 사용자 프로파일은 단순 방문 페이지와 사용자가 실제 서비스를 제공받은 페이지에 대한 구별없이, 모든 검색 세션에 대해 동일한 방문 내역을 저장하고 있다. 그러나 이 경우, 잦은 방문 횟수를 가지나 실제 사용자가 서비스를 이용하지 않은 웹 페이지가 적은 방문 횟수를 가지나 실제 사용자가 서비스를 이용한 웹 페이지보다 높은 우선 순위를 갖게 될 수 있는 문제점을 지니고 있다. 본 논문에서는 필요로 하는 서비스를 웹에서 찾고자 할 때, 사용자가 과거에 이용했던 서비스 제공자들의 목록을 이용하여, 사용자 프로파일 기반 웹 서비스 검색의 정확도를 향상시키는 시스템을 설계하였다. 이를 위해 사용자가 웹 서핑 중 서비스를 이용했던 웹 페이지 정보를 서비스 제공자 목록에 저장하였다. 검색 엔진이 특정 질의어에 대해 제공하는 검색 결과는, 우선 사용자 프로파일을 이용해 과거에 자주 방문했던 웹 페이지가 높은 우선 순위를 갖도록 조정된 후, 서비스 제공자 목록을 이용해 과거에 사용자가 서비스를 이용했던 웹 페이지가 가장 높은 우선 순위를 갖도록 재조정된다. 사용자에게 제공되는 최종 검색 결과는 사용자의 과거의 방문 경향 및 실제 서비스 이용 경향을 모두 반영하게 된다.고려할 때 가장 효과적인 라우팅 프로토콜이라고 할 수 있다.iRNA 상의 의존관계를 분석할 수 있었다.수안보 등 지역에서 나타난다 이러한 이상대 주변에는 대개 온천이 발달되어 있었거나 새로 개발되어 있는 곳이다. 온천에 이용하고 있는 시추공의 자료는 배제하였으나 온천이응으로 직접적으로 영향을 받지 않은 시추공의 자료는 사용하였다 이러한 온천 주변 지역이라 하더라도 실제는 온천의 pumping 으로 인한 대류현상으로 주변 일대의 온도를 올려놓았기 때문에 비교적 높은 지열류량 값을 보인다. 한편 한반도 남동부 일대는 이번 추가된 자료에 의해 새로운 지열류량 분포 변화가 나타났다 강원 북부 오색온천지역 부근에서 높은 지열류량 분포를 보이며 또한 우리나라 대단층 중의 하나인 양산단층과 같은 방향으로 발달한 밀양단층, 모량단층, 동래단층 등 주변부로 NNE-SSW 방향의 지열류량 이상대가 발달한다. 이것으로 볼 때 지열류량은 지질구조와 무관하지 않음을 파악할 수 있다. 특히 이러한 단층대 주변은 지열수의 순환이 깊은 심도까지 가능하므로 이러한 대류현상으로 지표부근까지 높은 지온 전달이 되어 나타나는 것으로 판단된다.의 안정된 방사성표지효율을 보였다. $^{99m}Tc$-transferrin을 이용한 감염영상을 성공적으로 얻을 수 있었으며, $^{67}Ga$-citrate 영상과 비교하여 더 빠른 시간 안에 우수한 영상을 얻을 수 있었다. 그러므로 $^{99m}Tc$-transierrin이 감염 병소의 영상진단에 사용될 수 있을 것으로 기대된다.리를 정량화 하였다. 특히 선조체에서의 도파민 유리에 의한 수용체 결합능의 감소는 흡연에 의한 혈중 니코틴의 축적 농도와 양의 상관관계를 보였다(rho=0.9, p=0.04). 결론: $[^{11}C]raclopride$ PET을 이용하여 비

  • PDF

뉴노멀(New Normal) 시대 언어네트워크 분석에 의한 예술정책 방향 연구 (A Study on the Direction of Art Policy through Semantic Network Analysis in New Normal Era)

  • 김미연;권병웅
    • 예술경영연구
    • /
    • 제58호
    • /
    • pp.153-177
    • /
    • 2021
  • 본 연구는 코로나19로 촉발된 뉴노멀 시대의 예술정책에 관한 이론과 국내외 정책 동향을 바탕으로 언어네트워크 분석을 시도하였다. 이를 위해 2020년 3월부터 9월까지의 '코로나'와 '예술'의 키워드가 들어간 자료를 구글(Google)뉴스와 웹(web)문서에서 수집하여 227개의 정제된 주제어를 추출하였고, 추출된 주제어를 넷마이너 프로그램을 통해 주제어 빈도분석과 중심성을 지표로 분석하였다. 또한 각 주제어 간의 관계 분석을 위해 언어네트워크의 시각화 분석을 시도하였다. 분석결과 가장 많은 빈도수를 드러낸 주제어는 '코로나'였고, '문화예술', '예술', '공연', '온라인', '지원'이 최다 빈도수를 기록한 그룹에 포함되었다. 중심성 분석에서는 '코로나'가 가장 빈도가 높았고, '시대', '이후', '포스트', '예술', '문화예술' 순으로 나타나 빈도수가 높은 '코로나'와 '예술', '문화예술'은 대부분의 중심성에서도 우위를 차지했다. 특히, 주제어 빈도수와 중심성 분석에서 공통으로 상위를 차지하는 주제어는 '온라인'과 '지원' '정책'이다. 이는 코로나19로 인해 사회적 거리두기의 일상화에 따라 비대면·온라인콘텐츠의 급부상과 예술계에 대한 지원정책이 필요함을 나타내고 있다고 볼 수 있다.