• 제목/요약/키워드: Vocabulary System

검색결과 289건 처리시간 0.031초

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

학교도서관을 위한 KDC 분류체계에 관한 연구 - 초등학생관련 문헌의 어휘분석을 중심으로 - (A Study on the Classification System of KDC for School Libraries - Focused on Vocabulary Analysis of Elementary Materials -)

  • 김정현
    • 한국도서관정보학회지
    • /
    • 제35권4호
    • /
    • pp.171-191
    • /
    • 2004
  • 이 연구는 KDC 사회과학류(300)와 순수과학류(400)를 중심으로 분류표의 분류명사와 초등학생관련 자료의 실제적인 어휘분석을 바탕으로 초등학교 도서관을 위한 분류표의 수정 전개방안을 제시하고자 시도되었다. 이를 위해 국내$\cdot$외 학교도서관이나 어린이도서관에서 초등학생관련 자료의 분류를 위한 분류표 개발 사례 및 문제점에 대해 살펴보고, 초등학교도서관을 대상으로 실제로 소장된 문헌의 KDC 유별 현황을 분석하여 각 분류항목의 실제적인 문헌의 유별 분포도를 분석하였다. 그리고 KDC 사회과학류와 순수과학류에서 사용되고 있는 분류항목과 초등학교교과서나 초등학생용 학습백과사전 등의 초등학생관련 문헌에서 추출한 용어에 대해 초등학교 4, 5, 6학년 학생들을 대상으로 용어의 이해도를 분석하였으며 이를 바탕으로 분류표 수정전개의 원칙과 방법을 마련한 후, 유별로 학교도서관을 위한 KDC 분류항목의 수정전개 방안을 제시하였다.

  • PDF

폭소노미에서 위치태그 분석을 통한 공간관계 추출 기법 (Extraction method of spatial relation by analyzing location tag in folksonomy)

  • 최윤희;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제12권8호
    • /
    • pp.1043-1054
    • /
    • 2009
  • 최근 시맨틱 웹에 대한 관심과 필요성이 높아지면서 시맨틱 웹의 핵심기술인 온톨로지 역시 다양한 분야에서 많은 연구가 진행되고 있다. 온톨로지는 웹 2.0환경에서 널리 인용되는 폭소노미의 문제들을 해결하기 위한 대안이 되고 있다. 이에 본 연구에서는 웹 2.0 환경의 폭소노미 기술이 가지는 단점을 보완하고자 폭소노미 기반의 데이터를 온톨로지로 변환해주는 위치 정보 온톨로지 자동 구축 시스템을 제안한다. 제안된 기법은 폭소노미 기반 웹 서비스인 Flickr에 온톨로지 기술을 적용하여 Flickr의 이미지 데이터들과 이들의 메타데이터인 태그들로부터 위치정보 태그와 공간 관계를 추출하고 OWL형태의 온톨로지로 자동 구축한다. 위치정보 태그와 의미적 공간 관계를 분석하고 추출하기 위해 여러 웹 서비스에서 제공하는 공개질의정보 API(이하 openAPI)를 사용하였다. 따라서 본 연구에서 구현한 시스템은 폭소노미 데이터를 온톨로지의 의미적인 정보로 연결해 줌으로써 개념적인 관계를 보완하고 더욱 정확한 검색결과를 제공 할 수 있도록 한다.

  • PDF

한·중 한자교육 비교 (A Comparative Study of the Chinese Characters education in Korea and China)

  • 유현아
    • 비교문화연구
    • /
    • 제27권
    • /
    • pp.415-434
    • /
    • 2012
  • The Hanja used in Korean are traditional Chinese characters, but what Chinese people use now is simplified characters. So, there are differences in pronunciation and meaning between the characters used by Korean and Chinese. More than 70% of the Korean language vocabulary derived from or were influenced by hanja. For the inheritance and development of traditional culture,and for the communication among countries of the Chinese characters cultural circle in Northeast Asia, should we build up an authentic Chinese education system. But the government hasn't pay much attention to this work, and the government's policy can't implement the efficient education. Consequently, in these days, there are more and more Korean people who are functionally illiterate in Chinese. Recently, proficiency tests of Chinese characters are expected to promote the development of Chinese education. But, most Koreans' motives for Chinese study are usually to pass the college entrance exam or to compete for jobs. However, after passing the test, the motive for studying gradually fade away. It is the basic problem faced by Korean Chinese character education. Since the 1950s, various character education methods have been studied in China, the research results were appliedin their textbooks and other materials. Therefore, a well-organized and efficient learning-by-step education system was built up. At present, China's literacy education in the textbooks utilizes a range of methods including revisional centralized and distributed. Unfortunately, there is still one shortcoming worthy of concerns: how to solve the problems due to the simplification of traditional Chinese characters? Is it possible to revive traditional Chinese characters? Before adopting the results of research on China's literacy education and applying them to our character education, we should consider our specific situation carefully. Adopting the research results with cautious review and objective criticism should have a positive impact on Korean Chinese character education.

한국 근대 여성 구술 기록물을 통한 시소러스 개발에 관한 연구 (A Study on Thesaurus Development Based on Women's Oral History Records in Modern Korea)

  • 최윤경;정연경
    • 한국기록관리학회지
    • /
    • 제14권1호
    • /
    • pp.7-24
    • /
    • 2014
  • 본 연구의 목적은 한국 근대 여성 구술기록물의 효율적인 주제 접근을 위한 시소러스를 개발하는 것이다. 이를 위해 문헌 연구와 국내외 시소러스 사례 분석을 수행하였고, 구술기록물에 입력된 색인어를 중심으로 시소러스를 구축하였다. 구축 과정은 총 5단계로 1단계는 한국 근대를 산 53명의 여성 구술자의 구술기록물에 입력된 한글 색인어 총 1,784개 추출하여 용어의 특성을 분석하였다. 2단계에서는 수차례에 걸쳐 해당 분야 전문가 회의를 거쳐 시소러스 대상 용어를 선정하였고, 3단계에서는 용어에 대한 등위 계층 연관 관계를 설정하였다. 4단계에서는 웹기반 시소러스 관리시스템을 개발한 후, 용어 및 관계 정보를 입력하였고, 5단계에서는 입력된 용어의 정보와 관계를 전문가 집단이 재검토하였다. 구축된 시소러스는 일반 주제어를 비롯한 지명, 장소명, 인명, 단체명 등 고유명사가 포함된 39개 대주제 영역의 1,076개의 용어로 구성되었으며 추후 추가적인 구술기록물을 바탕으로 확장될 것이다.

Why A Multimedia Approach to English Education\ulcorner

  • Keem, Sung-uk
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.176-178
    • /
    • 1997
  • To make a long story short I made up my mind to experiment with a multimedia approach to my classroom presentations two years ago because my ways of giving instructions bored the pants off me as well as my students. My favorite ways used to be sometimes referred to as classical or traditional ones, heavily dependent on the three elements: teacher's mouth, books, and chalk. Some call it the 'MBC method'. To top it off, I tried audio-visuals such as tape recorders, cassette players, VTR, pictures, and you name it, that could help improve my teaching method. And yet I have been unhappy about the results by a trial and error approach. I was determined to look for a better way that would ensure my satisfaction in the first place. What really turned me on was a multimedia CD ROM title, ELLIS (English Language Learning Instructional Systems) developed by Dr. Frank Otto. This is an integrated system of learning English based on advanced computer technology. Inspired by the utility and potential of such a multimedia system for regular classroom or lab instructions, I designed a simple but practical multimedia language learning laboratory in 1994 for the first time in Korea(perhaps for the first time in the world). It was high time that the conventional type of language laboratory(audio-passive) at Hahnnam be replaced because of wear and tear. Prior to this development, in 1991, I put a first CALL(Computer Assisted Language Learning) laboratory equipped with 35 personal computers(286), where students were encouraged to practise English typing, word processing and study English grammar, English vocabulary, and English composition. The first multimedia language learning laboratory was composed of 1) a multimedia personal computer(486DX2 then, now 586), 2) VGA multipliers that enable simultaneous viewing of the screen at control of the instructor, 3) an amplifIer, 4) loud speakers, 5)student monitors, 6) student tables to seat three students(a monitor for two students is more realistic, though), 7) student chairs, 8) an instructor table, and 9) cables. It was augmented later with an Internet hookup. The beauty of this type of multimedia language learning laboratory is the economy of furnishing and maintaining it. There is no need of darkening the facilities, which is a must when an LCD/beam projector is preferred in the laboratory. It is headset free, which proved to make students exasperated when worn more than- twenty minutes. In the previous semester I taught three different subjects: Freshman English Lab, English Phonetics, and Listening Comprehension Intermediate. I used CD ROM titles like ELLIS, Master Pronunciation, English Tripple Play Plus, English Arcade, Living Books, Q-Steps, English Discoveries, Compton's Encyclopedia. On the other hand, I managed to put all teaching materials into PowerPoint, where letters, photo, graphic, animation, audio, and video files are orderly stored in terms of slides. It takes time for me to prepare my teaching materials via PowerPoint, but it is a wonderful tool for the sake of presentations. And it is worth trying as long as I can entertain my students in such a way. Once everything is put into the computer, I feel relaxed and a bit excited watching my students enjoy my presentations. It appears to be great fun for students because they have never experienced this type of instruction. This is how I freed myself from having to manipulate a cassette tape player, VTR, and write on the board. The student monitors in front of them seem to help them concentrate on what they see, combined with what they hear. All I have to do is to simply click a mouse to give presentations and explanations, when necessary. I use a remote mouse, which prevents me from sitting at the instructor table. Instead, I can walk around in the room and enjoy freer interactions with students. Using this instrument, I can also have my students participate in the presentation. In particular, I invite my students to manipulate the computer using the remote mouse from the student's seat not from the instructor's seat. Every student appears to be fascinated with my multimedia approach to English teaching because of its unique nature as a new teaching tool as we face the 21st century. They all agree that the multimedia way is an interesting and fascinating way of learning to satisfy their needs. Above all, it helps lighten their drudgery in the classroom. They feel other subjects taught by other teachers should be treated in the same fashion. A multimedia approach to education is impossible without the advent of hi-tech computers, of which multi functions are integrated into a unified system, i.e., a personal computer. If you have computer-phobia, make quick friends with it; the sooner, the better. It can be a wonderful assistant to you. It is the Internet that I pay close attention to in conjunction with the multimedia approach to English education. Via e-mail system, I encourage my students to write to me in English. I encourage them to enjoy chatting with people all over the world. I also encourage them to visit the sites where they offer study courses in English conversation, vocabulary, idiomatic expressions, reading, and writing. I help them search any subject they want to via World Wide Web. Some day in the near future it will be the hub of learning for everybody. It will eventually free students from books, teachers, libraries, classrooms, and boredom. I will keep exploring better ways to give satisfying instructions to my students who deserve my entertainment.

  • PDF

관찰-추천제는 어떤 특성의 영재를 선발하는가?: 선발시험 vs. 교사관찰추천으로 본 영재들의 지능, 진로유형, 자기조절 학습능력 (Who are Identified through the Teacher Observation-recommendation System in the Aspects of Intelligence, Career Pattern, and Self-regulated Learning Ability?)

  • 한기순;양태연;박인호
    • 영재교육연구
    • /
    • 제24권3호
    • /
    • pp.445-462
    • /
    • 2014
  • 본 연구에서는 기존의 다단계 선발방법에 의해 선발된 영재들과 새로운 전형인 관찰추천제도로 선발된 영재아동의 지능, 자기조절 학습능력, 진로유형 등 다양한 측면에서의 특성비교를 통하여 영재 선발 방식의 대안으로서 교사 추천 방식의 가능성과 한계에 대하여 탐색하고자 하였다. 결과를 살펴보면, 지능은 기존의 3단계 전형에 의해 선발된 영재(IQ=129.82)들과 관찰 추천제에 의해 선발된 영재들(IQ=130.54)은 유의한 차이가 없었다. 하지만 영역별로 살펴보면, 어휘적용력이나 이해력, 도식화 능력 등은 교사관찰추천제로 선발된 영재들이 유의하게 높은 것으로 나타났다. 진로유형의 경우는 선발제도에 따라 유의한 차이가 있었는데, 기존 선발전형의 영재들은 탐구형(72%)이 월등히 많은 반면, 교사관찰추천제로 선발된 영재들은 탐구형을 포함하여 기업형, 사회형, 실제형, 관습형 등의 유형분포가 기존의 선발시험제도 영재들 보다 넓게 나타났다. 자기조절 학습능력에서는 과제인식, 학습신념의 통제가 기존 선발시험제도로 선발된 영재들이 유의한 차이로 높았으며, 시험불안, 시연, 정교화, 조직화, 동료학습에서는 교사관찰추천제로 선발된 영재들이 유의하게 높은 것으로 나타났다.

A Taxonomy of Workflow Architectures

  • Kim, Kwang-Hoon;Paik, Su-Ki
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.525-543
    • /
    • 1998
  • This paper proposes a conceptual taxonomy of architectures far workflow management systems. The systematic classification work is based on a framework for workflow architectures. The framework, consisting of generic-level, conceptual-level and implementation-level architectures, provides common architectural principles for designing a workflow management system. We define the taxonomy by considering the possibilities for centralization or distribution of data, control, and execution. That is, we take into account three criteria. How are the major components of a workflow model and system, like activities, roles, actors, and workcases, concretized in workflow architecture? Which of the components is represented as software modules of the workflow architecture? And how are they configured and operating in the architecture? The workflow components might be embodied, as active (processes or threads) modules or as passive (data) modules, in the software architecture of a workflow management system. One or combinations of the components might become software modules in the software architecture. Finally, they might be centralized or distributed. The distribution of the components should be broken into three: Vertically, Horizontally and Fully distributed. Through the combination of these aspects, we can conceptually generate about 64 software Architectures for a workflow management system. That is, it should be possible to comprehend and characterize all kinds of software architectures for workflow management systems including the current existing systems as well as future systems. We believe that this taxonomy is a significant contribution because it adds clarity, completeness, and "global perspective" to workflow architectural discussions. The vocabulary suggested here includes workflow levels and aspects, allowing very different architectures to be discussed, compared, and contrasted. Added clarity is obtained because similar architectures from different vendors that used different terminology and techniques can now be seen to be identical at the higher level. Much of the complexity can be removed by thinking of workflow systems. Therefore, it is used to categorize existing workflow architectures and suggest a plethora of new workflow architectures. Finally, the taxonomy can be used for sorting out gems and stones amongst the architectures possibly generated. Thus, it might be a guideline not only for characterizing the existing workflow management systems, but also for solving the long-term and short-term architectural research issues, such as dynamic changes in workflow, transactional workflow, dynamically evolving workflow, large-scale workflow, etc., that have been proposed in the literature.

  • PDF

FRBR과 비교를 통한 LRM의 특징 및 적용방안 (LRM's Characterics and Applications Plan Through Comparing with FRBR)

  • 이미화
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.355-375
    • /
    • 2022
  • 이 연구에서는 FR 모형과 LRM을 개체, 속성, 관계 측면에서 비교 분석하여 목록 관련 표준 및 개별 시스템에서 LRM을 수용할 수 있도록 LRM 특성과 그 적용방안을 모색하고자 한다. LRM 특성에 따른 적용방안으로 다음을 제시하였다. 첫째, LRM에서 가족, 단체, 식별자, 전거형접근점, 개념, 대상, 사건, 기관, 규칙의 개체가 삭제되었지만, LRM을 적용하려는 표준과 시스템에서 필요시 하위 개체를 정의하여 개체를 확장해야 한다. 둘째, 링크드데이터를 위해 LRM에서는 속성 요소가 관계로 변경되면서 속성이 많이 감소하였으나, LRM을 수용하려는 표준과 시스템에서는 속성을 세분하여 확장해야 한다. 특히, LRM에서는 유사한 기능을 갖거나 여러 개체에서 반복되는 속성과 자료에 특화된 속성이 포괄적인 일반화된 속성명으로 통합되었기 때문에 표준 및 개별 시스템에서는 보다 구체적이고 세부적인 속성명을 명확하게 제시해야 하며, 속성에 해당하는 어휘인코딩스킴도 개발되어야 한다. 셋째, 관계가 속성에 비해서는 증가되었으나 관계 자체가 추상적이기 때문에, 관계는 세목화 및 다단계 관계를 통해 관계가 확장되어야 한다. 본 연구는 목록 관련 표준 및 시스템에서 LRM을 적용하는 경우 적용방안 모색에 활용될 수 있을 것이다.

한국어 인식을 위한 인식 단위와 학습 데이터 분류 방법에 대한 연구 (A Study on Recognition Units and Methods to Align Training Data for Korean Speech Recognition))

  • 황영수
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.40-45
    • /
    • 2003
  • 본 연구는 한국어 분절음 인식을 위한 인식 단위 설정과 학습시 학습 데이터 분할 방법에 대한 연구이다 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화와 학습시 학습 데이터 분할 방법에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식 단위 설정과 현대어 발음에 기초한 인식 단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였으며, 학습 데이터 분할 방법에 따른 인식 결과는 손으로 분할한 방법이 자동 분할 방법보다 약 2-3%의 인식 향상을 보였다. 또한 인식 단위의 설정에 있어서 독립된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(bipbone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다.

  • PDF