• 제목/요약/키워드: document retrieval

검색결과 447건 처리시간 0.024초

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

저자명 모호성 해결을 위한 개념망 기반 카테고리 유틸리티 (WordNet-Based Category Utility Approach for Author Name Disambiguation)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.225-232
    • /
    • 2009
  • 동명이인의 저자를 구분하는 것은 웹에서 문서 색인과 검색의 성능을 향상시킨다. 동명이인의 저자 구분은 웹사이트 상에서 같은 이름을 갖는 여러 명의 사람이 존재했을 때 야기되는 여러 가지 문제점을 해결한다. 본 논문은 동명이인의 저자 구분을 위해 개념망 기반의 카테고리 유틸리티를 제안한다. 따라서 본 논문에서는 학술회의 웹 사이트를 대상으로 제안하고자 하는 방법을 설명한다. 제안된 방법은 저자가 가지고 있는 다양한 속성(제목, 요약, 공동저자, 소속)을 반영한 저자 온톨로지와 개념망을 활용한다. 저자 온톨로지는 OWL API와 휴리스틱한 방법을 사용하여 반자동으로 구축 되었다. 저자명 모호성 해결은 개념망 기반 카테고리 유틸리티를 사용하여 저자 온톨로지 내에 존재하는 동명이인 저자(Candidate Authors)들로부터 해당 논문에 관련된 정확한 저자를 결정한다. 카테고리 유틸리티는 각각의 저자간의 intra-class 유사성 와 inter-class 비유사성을 기본적인 개념으로 하는 평가 함수다. 이에 비해 개념망 기반 카테고리 유틸리티는 모호성 해결을 위해 개념망이 갖는 개념 정보를 추가로 활용한다. 실험 결과를 분석한 결과 개념망 기반 카테고리 유틸리티가 일반적인 카테고리 유틸리티에 비교해서, 저자명 모호성 해결에 있어서 10% 정도 우수한 성능을 보였으며, 전체적으로 98%의 정확도를 보였다.

표준 기록관리시스템 검색 기능 평가 (Evaluation of Search Functions of the Standard Records Management Systems)

  • 이경남
    • 기록학연구
    • /
    • 제37호
    • /
    • pp.273-305
    • /
    • 2013
  • 현재의 전자기록관리체계에서 기록정보를 적극적으로 활용하기 위해서는 시스템이 기록의 이용을 충분히 지원하도록 설계되고 활용되고 있는가를 평가할 필요가 있다. 이 연구에서는 공공기관에서 사용하고 있는 표준 기록관리시스템의 검색 기능 활용 현황 분석 및 기능 평가를 수행하였다. 검색 기능 활용 현황 조사를 위해 표준 기록관리시스템을 사용하는 공공기관의 기록관리 전문요원을 대상으로 설문조사를 실시하였으며, 그 결과 표준 기록관리시스템의 검색 빈도가 낮지 않음에도 불구하고 이용자의 사용 편의에 대한 불만과 검색 성능에 대해 불만족하고 있음이 드러났다. 검색 기능 평가를 위해 먼저, 기록관리시스템으로서 갖추어야 하는 기본적인 기능요건을 정의하여 평가를 위한 체크리스트를 개발하였다. 체크리스트를 평가 기준으로 활용하여 평가를 실시하였으며, 평가는 크게 두 가지로 진행되었다. 첫 번째는 체크리스트와 비교하여 현재 표준 기록관리시스템이 구현한 정도를 문서상으로 확인한 연구자의 체크리스트 사전 점검 평가와 두 번째, 표준 기록관리시스템을 사용하고 있는 공공기관의 기록관리 전문요원을 대상으로 평가를 실시하였다. 기능 평가를 실시한 결과 기본적인 기능요건임에도 불구하고 구현되지 않은 기능들에 대한 보완이 요구되었고, 특히 이용자 편의성 관련한 기능개선이 필요하였다. 이러한 과정에서 도출된 검색 기능에 대한 기능개선 뿐만 아니라 표준 기록관리시스템의 발전을 위해서는 지속적인 유지보수와 관리 체계의 구축, 이용자 교육이 필요함을 논의하였다.

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

  • 류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.412-429
    • /
    • 2008
  • 최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.

토픽모델링을 활용한 국내 문헌정보학 연구동향 분석 (A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling)

  • 박자현;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.7-32
    • /
    • 2013
  • 본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관 정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교 분석한 결과, '정보학'영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, '도서관 서비스'영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, '문헌정보학 기초'영역의 도서관과 사회, 전문성, '자료조직'영역의 분류, 편목, 메타데이터, '도서관 경영'영역의 도서관 평가, 장서개발/관리, '서지학'영역의 고서지, '도서관 체제'영역의 도서관 및 정보정책, '출판'영역의 도서/출판, '기록관리학'영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교 분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관 정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for the Aviation Industry)

  • 김현정;조남옥;신경식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.65-82
    • /
    • 2015
  • 최근 경제적 사회적 부가가치를 창출할 수 있는 유망분야를 선정하여 국가 전략 및 정책 수립 시 반영하기 위해 미래 핵심 이슈를 발견하고 트렌드를 분석하는 것에 대한 관심이 급증하고 있다. 기존에는 미래의 핵심 기술이나 이슈를 발견하고 트렌드 분석을 통해 미래유망분야를 선정하는 연구를 위해 문헌 조사 또는 전문가 평가와 같은 정성적 연구방법이 사용되어 왔다. 그러나 이 연구방법은 대량의 정보로부터 결과를 도출하는데 많은 시간과 비용이 소요될 뿐만 아니라 전문가의 주관적인 가치가 반영될 가능성이 존재한다. 이와 같은 한계점을 보완하고자 최근 국토교통, 안전, 정보통신기술 등 다양한 분야에서 미래유망분야를 선정하기 위하여 정성적 연구방법에 텍스트 마이닝과 같은 정량적 연구방법을 상호 보완적으로 활용하는 방식으로 트렌드 분석을 수행하는 연구 방법론의 패러다임 변화가 시도되고 있다. 본 연구는 항공산업 전반적인 분야에 빅데이터 분석 방법인 텍스트 마이닝 기법을 적용하여 항공 분야의 연구동향을 파악하고 미래유망분야를 전망하였다. 텍스트 마이닝 기법 중하나인 토픽 분석을 이용하여 항공산업 전반적인 분야의 문서 집합 내 잠재된 토픽을 추출하고, 연도별로 핵심 토픽의 추이를 분석하였다. 분석 결과 항공산업의 미래유망분야로 항공안전정책, 항공운임(저가항공), 그리고 친환경 고연비 연료가 도출되었다. 본 연구결과는 분석 대상을 논문에 한정하여 수행하였다는 한계점이 존재하나, 항공산업 분야의 핵심 이슈를 도출하기 위하여 텍스트 마이닝 기반의 트렌드 분석에 대한 활용가능성을 제시하고, 미래유망분야를 선정하기 위한 정량적인 분석 방법론의 전형을 마련하였다는 점에서 의의가 있다.

사무 자동화에 따른 사무직 근로자의 건강과 연관된 자각 증상에 대한 조사연구 (An Investigation on the self-consciousness Symptoms of the Clerical Workers attendant upon Office Automation)

  • 정미화
    • 한국직업건강간호학회지
    • /
    • 제3권호
    • /
    • pp.54-70
    • /
    • 1993
  • According as the automation of clerical work(OA ; Office Automation) develops, the use of VDT(Visual or Video Display Terminal) is increasing suddenly. But, in proportion to the spread of office automation(OA tendency), the self-conciousness syptom attendant upon the work is appearing also (Kim, Jung Tae, Lee, Young Ook, 1990). The apparatuses of office enable the clerical workers to be convenient and perform mass businesses. But, they are increasing the opportunity to be exposed to VDT syndrom, techno stress, computer terminal disease, pain by muscle strain(RSI), bradycausia of noise nature, and electromagnetic waves, etc. which are referred to as the new type of occupational diseases to the workers. It is the real situation that the workers to use VDT is complaining of the physical inconvenience sense in the recent newspaper and literature, it is the point of time that the sydrome to come from VDT use and computer terminal disease, etc. must be classified into the occupational disease(Lee, Kwang Young 1990, Lee, Kyoo Hak 1990, Lee, Won Ho 1991, Lee, Si Young 1991, Lee, Joon 1991, Choi, Young Tae 1991, Heo, Seung Ho 1989). In addition, it is the real situation that the scientifitic study result about the scope that electromagnetic waves has influence on the human body has not been suggested yet, and criticism on the stable exposure permission standard about electromagnetic waves to be emitted from VDT and on the problem in the health about electromagnetic waves is continuing. (IEEE Spectrum, 1990). In addition according to the experience of nursery business of industry field, it is the real situation that the patients who consult complaining of physical and mental inconvenience sence, among the users of apparatus of office automation, are reaching 10% of the patients coming to doctor's room. Therefore, it is necessary to confirm the self-consciousness symptom that the clerical workers complain of multilaterally with the actual state examination about the use of the apparatuses of offices automaton. Thus, this study was tried as th basic data for the cosultation and education for the maintenance and furtherance of the health of workers as the nurse of industry field, by confirming the contents of self-consciousness symptom attendant upon the use of the apparatus for office outomation making the financial institution in which the spparatus for office automation in most frequently used as the subject, and by examining whether there is the difference according to the subject of study, the data were collected, by using the questionnaire method, making 200 workers who consented to the study participation as the subject, among the persons who have spent over 3 months since they used the apparatuses for office automation and didn't receive the treatment in hospital due to the clerical disease for recent 3 years. The period of data collection was from Oct. 9, 1991 to Oct. 12. As for the measurement instrument about the complaint if self-consciousness symptom attendant upon the use of apparatuses fo office automation, the question item on the complaint symptom of health problem attendant upon the treatment of VDT that Kim(1991) developed and on CMI health problem and the question items on the fatigue degree due to industry were used by previous examination to 25 persons. Collected data were analyzed with the statistical method such as percentage, arithmetic mean, Person correlation coeffient, Kai square verfication, t-test, ANOVA, etc. by using SPSS/PC+ program, and the result is as follows : 1. The self-consciousness symptom that the clerical workers complained of most frequetly appeared high in 'My eyes are tired'(99.4%), 'I feel fatigue and weariness'(99.4%), 'I feel that my head is heavy5(90.0%), 'eyesight fell'(88.8%), 'I have a stiff neck'(88.8%), 'I fell pain in the shoulder'(85.0%), 'I feel cold and painful in the eyes'(76.9%), 'I feel the dry sense of eyeball'(76.2%), 'My nerves are edgy, and I an fretful, (75.6%), 'I feel pain in the waist'(73.2%) and 'I fell pain in the back'(72.8%). It emerged that the subject use the apparatuses for office automation complained of self-consciousness symptoms related to visual symptoms and musculoskeletal symptoms. 2. As for the general feature of examination subjects, the result to see the distribution by classifying into sex, age, school career, use career of apparatuses for office automation, skillfulness degree of the use of apparatus for office automation, use hours of the apparatuses for office automation per 1 day, type of business of the apparatus for office automation, rest hours during the use of apparatus for office automation, satifaction degree of business of office automation, and work circumstance, etc. emerged as follows : As for the sex of subjects, the distribution showed that men were 58.8% and women were 41.3%, Age was average 26.9. As the distribution of school career, the distribution showed that4below the graduation of high school' was 58.8%, 'graduation from junior college-university' was 35.0%, and 'over graduate school' was 6.3%. In the question to ask the existence or non-existence of experience of health consultation in connection with the work of office automation, the response that I had the consultation exprience and I feel the necessity emergerd as 90.1% And, the case that the subject who didn't wear the glasses or lens before using the OA apparatus wear glasses or lens after using OA apparatus emerged as 28.3% of whole. As for the existence or non-existence of use career of OA apparatus, the case under 3 years was highest as 52. 7%. As for the skillfulnness degree about the use of apparatus for office automation, most of them are skillful with the fact that 'common' was 44.4%, 'skill' was 42.5%, and 'unskillful' was 13.1% As for the use average hours of the apparatus for office automation per 1 day, the distribution showed that the case under 3-6 hours was 33.1%, the case under 6-9 hours was 28.1%, the case under 3 hours was 30.6%, and the case over 9 hours was 8.1% Main OA business and the use hours for 1 day showed in the order of keeping and retrieval, business of information transmission(162min), business of information transmission(79.3 min), business of document framing(55.5 min), and business of duplication and printing(25.4min). as for the rest during the use of apparatus for affice automation, that I take rest occasion demands the major portion, but that I take after completing the work emerged as 33.8%. Though the subiness gets to be convenient by the use of the apparatus for of office automation, respondents who showed the dissatisfaction about the present OA business emergd high as 78.1%. The work circumstances of each office was good with the fact that the temperature of office was 21.8, noise was average 42.7db, and the illumination was average 364.4 lx, in the light of ANSi/HFS 100 Standard. 3. Sight syptom, musculoskeletal symptom, skin and other symptoms showed the significant difference according to the extent of skillfulness of the apparatus for office automation. All the symptoms exept skin symptom showed the difference according to the use hours of the apparatus for office automation. All the question items exept the sytoms of digestive organs and the rest hours during the apparatus for office automation showed the signicant difference. The question item which showed the signicant difference from the satisfaction degree of present OA business showed the significant difference from all the question item classified into 6 groups. But, age and school career didn't significant difference from the complaint of any self-consciousness symptoms.

    . In conclusion, the self-consciousness symptoms of the subjects to use OA apparatus appeared differently, according to sex distiction, skillfull degree of OA apparatus, use hours of OA apparatus, the rest hours during th use of OA apparatus, and the satiafaction degree of persent business. Therefore, it is necessary that the nurse in the inuctry field must recognize to receive the education about the human technological physical condition which is most proper for te use of OA apparatus and about the proper rest method until they get accustomed to the use of OA apparatus. In addition, the simple exercise relax the tention of muscle due to the repetitive simple movement, and the education for the protection of eyesight are necessary.

  • PDF