• 제목/요약/키워드: Person Name Retrieval

검색결과 6건 처리시간 0.016초

Korean-Chinese Person Name Translation for Cross Language Information Retrieval

  • Wang, Yu-Chun;Lee, Yi-Hsun;Lin, Chu-Cheng;Tsai, Richard Tzong-Han;Hsu, Wen-Lian
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.489-497
    • /
    • 2007
  • Named entity translation plays an important role in many applications, such as information retrieval and machine translation. In this paper, we focus on translating person names, the most common type of name entity in Korean-Chinese cross language information retrieval (KCIR). Unlike other languages, Chinese uses characters (ideographs), which makes person name translation difficult because one syllable may map to several Chinese characters. We propose an effective hybrid person name translation method to improve the performance of KCIR. First, we use Wikipedia as a translation tool based on the inter-language links between the Korean edition and the Chinese or English editions. Second, we adopt the Naver people search engine to find the query name's Chinese or English translation. Third, we extract Korean-English transliteration pairs from Google snippets, and then search for the English-Chinese transliteration in the database of Taiwan's Central News Agency or in Google. The performance of KCIR using our method is over five times better than that of a dictionary-based system. The mean average precision is 0.3490 and the average recall is 0.7534. The method can deal with Chinese, Japanese, Korean, as well as non-CJK person name translation from Korean to Chinese. Hence, it substantially improves the performance of KCIR.

  • PDF

학술정보서비스에서 인명검색 고도화 방법 (Enhanced Method for Person Name Retrieval in Academic Information Service)

  • 한희준;예용희;류범종
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.490-498
    • /
    • 2010
  • 웹이든 웹이 아니든 존재하는 모든 학술정보에는 창작자, 즉 그 정보를 생산한 주체가 존재한다. 그 주체는 개인, 단체, 기관이 될 수 있으며 또는 해당 정보의 성격에 따라 국가가 될 수도 있다. 대부분의 정보는 제목과 저자, 내용으로 구성된다. 학술정보 가운데 논문의 경우 제목, 저자, 키워드, 요약, 발행일, 발행처, ISSN 등의 메타정보로 기술되며, 특허의 경우는 명칭, 출원인, 발명자, 대리인, IPC, 출원번호, 청구항등의 메타정보로 표현된다. 대부분의 웹 기반의 학술정보 서비스에서는 이들 메타정보를 가공 및 처리하여 사용자들에게 검색기능을 제공하며, 특히 인명에 해당하는 저자필드를 이용한 검색기능은 중요한 요소이다. 본 논문에서는 인명검색을 위한 효율적인 색인운영과 구검색 기반의 부스팅 요소를 적용한 인접연산 결과 랭킹 알고리즘을 이용해 인명검색 결과의 정확성 개선 방법을 제안하며, 인명검색시 공저자 및 관련연구자 검색결과를 제공하는 방법을 설명한다. 이는 학술정보서비스에 있어서 정확하고 부가적인 검색결과를 제공하는데 효과적으로 적용될 수 있다.

Indexing and Retrieval of Human Individuals on Video Data Using Face and Speaker Recognition

  • Y.Sugiyama;N.Ishikawa;M.Nishida;Y.Ariki
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 Proceedings of International Workshop on Advanced Image Technology
    • /
    • pp.122-127
    • /
    • 1998
  • In this paper, we focus on the information retrieval of human individuals who are recorded on the video database. Our purpose is to index persons by their faces or voice and to retrieve their existing time sections on the video data. The database system can track as well as extract a face or voice of a certain person and construct a model of the individual person in self-organization mode. If he appears again at different time, the system can put the mark of the same person to the associated frames. In this way, the same person can be retrieved even if the system does not know his exact name. As the face and speaker modeling, a subspace method is employed to improve the indexing accuracy.

  • PDF

국내 공공도서관의 인명 전거제어의 현황 및 발전 방향 (Personal Name Authority Control in Korean Public Libraries)

  • 심경
    • 한국문헌정보학회지
    • /
    • 제40권4호
    • /
    • pp.221-244
    • /
    • 2006
  • 본 연구의 목적은 우리나라 공공도서관 목록에서 개인저자명에 대한 전거제어의 적용 여부 혹은 적용 범위가 검색 결과에 미치는 영향을 분석하고, 전거제어를 활용한 검색 재현을 향상 방안을 제시한 후 궁극적으로 국내 공공도서관 전거제어의 발전 방향을 제시하였다. 이를 위하여 국립중앙도서관목록, KOLISNET, 및 열 개의 무작위로 선정한 공공도서관의 온라인 목록에서 같은 외국이름의 다른 우리말표기 형태와 성명 도치 형태 및 같은 국내인물의 다른 이름의 사레를 검색한 결과로 부분적이며 불완전한 전거제어를 수행하는 국립중앙도서관을 제외한 다른 공공도서관들의 전거제어 미적용 현황을 확인하였다. 아울러 서지레코드의 불완전성, 부정화성 및 일관성 결여, 검색방법의 문제점 등을 발견하였다. 본 연구에서는 저자명 검색 시 찾기와 모으기 기능의 향상을 위해 적절한 수준과 범위의 전거제어의 적용 필요성, 공유 전거파일의 구측 필요성. 국립중앙도서관의 전거데이터베이스 활용 가능성 등을 제안하였다. 또한 검색시스템의 보완을 위해 LC 목록이나 AMICUS와 같이 검색 질의 시 서지레코드 건수를 포함한 이름표목 리스트를 거쳐 서지리스트로 갈 수 있게 하는 방법 및 이에 관련된 개인명의 식별 방안 등을 제안하였다.

한국학술지인용색인(KCI)의 인문학, 사회과학, 예술체육 분야 저자키워드의 의미적 관계 유형 최적화 연구 (A Study on the Optimization of Semantic Relation of Author Keywords in Humanities, Social Sciences, and Art and Sport of the Korea Citation Index (KCI))

  • 고영만;송민선;이승준
    • 한국문헌정보학회지
    • /
    • 제49권1호
    • /
    • pp.45-67
    • /
    • 2015
  • 본 연구의 목적은 KCI의 인문, 사회, 예술체육 분야 저자키워드를 기반으로 구축한 구조적 학술용어사전 데이터베이스 시스템 STNet에 실제 입력된 용어들의 의미적 관계들을 분석하여 관계 유형을 최적화하고 관계명을 세분화하는 방안을 기술하는 것이다. 분석 결과, 관계 유형과 관계명을 최적화하기 위해서는 빈도수에 의한 관계명 신설 또는 관계의 유형화 제한, 관계의 방향성 고려, 기존 관계명 반영의 4가지 논리적 기준이 필요한 것으로 나타났다. STNet의 "실존인물" 클래스를 테스트베드로 삼아 이 기준을 적용해 관계 유형을 최적화하고 관계명을 세분화한 결과 원래 RT, RT_X, RT_Y로 연결된 1,743건의 관계 중 1,135건이 세분화되는 것으로 나타났다. 이는 약 65%의 RT 관계가 구체화된 것으로 사전 구축 및 검색 단계에서의 유용성 측면에서 상당한 의미가 있음을 보여주는 것이다.

한국 주제명 표목의 패싯 유형 개발에 관한 연구 (A Study on Developing Facets for Subject Headings in Korea)

  • 최윤경;정연경
    • 한국문헌정보학회지
    • /
    • 제49권4호
    • /
    • pp.179-201
    • /
    • 2015
  • 주제명 표목은 키워드 검색 환경에서 정교한 주제 브라우징과 검색을 제공할 수 있는 도구이다. 본 연구의 목적은 기존 주제 접근 도구에서 적용된 다양한 패싯 유형을 분석하여, 우리나라 주제명 표목에 적용 가능한 패싯을 제안하는 것이다. 먼저, 문헌 연구에서는 지금까지 혼재된 주제와 패싯에 대한 개념을 종합적으로 고찰하고 정의하였다. 다음으로 사례 연구에서는 OCLC FAST와 PRECIS 제2판과 시소러스의 구축 지침인 "Thesaurus construction and use", 콜론 분류법 제7판, 블리스 서지 분류법 제2판, 국제십진분류법 제3판의 패싯 유형을 분석하였다. 분석 결과를 바탕으로 우리나라 주제명 표목에 적용 가능한 22개 패싯을 제안하였다. 상위 패싯으로 토픽, 사건, 장소, 시대, 개인명, 단체명, 표제명, 형식, 장르, 언어, 인물인 11개 패싯을 정의하고, 토픽 패싯은 하위에 토픽-사물/개체와 토픽-행동, 그리고 이 두 패싯의 하위로 부분, 종류, 전체, 속성, 물질, 수혜자, 산물, 부산물, 주체 패싯을 정의하였다.