• 제목/요약/키워드: Text-search

검색결과 554건 처리시간 0.019초

텍스트 분석을 활용한 국가 현안 대응 R&D 정보 패키징 방법론 (Methodology Using Text Analysis for Packaging R&D Information Services on Pending National Issues)

  • 현윤진;한희준;최희석;박준형;이규하;곽기영;김남규
    • Journal of Information Technology Applications and Management
    • /
    • 제20권3_spc호
    • /
    • pp.231-257
    • /
    • 2013
  • The recent rise in the unstructured data generated by social media has resulted in an increasing need to collect, store, search, analyze, and visualize it. These data cannot be managed effectively by using traditional data analysis methodologies because of their vast volume and unstructured nature. Therefore, many attempts are being made to analyze these unstructured data (e.g., text files and log files) by using commercial and noncommercial analytical tools. Especially, the attempt to discover meaningful knowledge by using text mining is being made in business and other areas such as politics, economics, and cultural studies. For instance, several studies have examined pending national issues by analyzing large volumes of texts on various social issues. However, it is difficult to create satisfactory information services that can identify R&D documents on specific national issues from among the various R&D resources. In other words, although users specify some words related to pending national issues as search keywords, they usually fail to retrieve the R&D information they are looking for. This is usually because of the discrepancy between the terms defining pending national issues and the corresponding terms used in R&D documents. We need a mediating logic to overcome this discrep 'ancy so that we can identify and package appropriate R&D information on specific pending national issues. In this paper, we use association analysis and social network analysis to devise a mediator for bridging the gap between the keywords defining pending national issues and those used in R&D documents. Further, we propose a methodology for packaging R&D information services for pending national issues by using the devised mediator. Finally, in order to evaluate the practical applicability of the proposed methodology, we apply it to the NTIS(National Science & Technology Information Service) system, and summarize the results in the case study section.

교사로서의 정체성을 형성해가는 교육실습생에 대한 내러티브 탐구 (Narrative Inquiry on Student Teacher Searching for Identity as a Teacher)

  • 진형란;유태명
    • 한국가정과교육학회지
    • /
    • 제26권1호
    • /
    • pp.81-99
    • /
    • 2014
  • 교육실습은 산란(産卵) 직전의 알이다. 해를 거듭할수록 사범대생에게 교사가 필수가 아니라는 목소리가 증가하고 있다. 그들은 어떤 존재로 부화될 것인가? 닭일까? 오리일까? 나는 55명의 교육실습생이 4주의 교육실습 기간에 교사로 존재 지향점을 찾아가는 과정을 Clandinin과 Connelly(2000)의 내러티브 탐구 방법에 따라 전개하였다. 절차는 현장 들어가기, 현장 텍스트 쓰기, 연구 텍스트 쓰기의 3단계로 이루어졌다. 교육실습생들은 현장에서 관찰한 것과 자극 받은 것 그리고 현장 교사 및 학생들과 인터뷰한 내용을 중심으로 교사로서의 정체성을 찾아가는 주 별 저널을 써 나갔다. 교육실습 카페에서 이루어진 자유롭고 진정성 있는 이야기 220부가 현장 텍스트로 수집되었다. 그리고 연구 텍스트는 각 주별로 탐색, 성장, 반성, 다짐에 대한 시적글쓰기를 통하여 다시 살아내고 다시 이야기하며 내러티브 탐구를 기술해 나갔다. 가정교육과 교육실습생을 비롯한 절대다수의 교육실습생이 교사로서의 삶을 지향하며 부화를 기다리고 있었다.

  • PDF

장애인을 위한 해양 라이프가드 고려사항: 문헌연구 (Beach-Lifeguard Considerations for Individuals with Disabilities: A Literature Review)

  • 김재화;김혜민
    • 한국융합학회논문지
    • /
    • 제10권8호
    • /
    • pp.245-253
    • /
    • 2019
  • 한국의 해양 라이프가드들은 아직 장애인을 위한 구조 및 안전 관리를 수행할 준비가 되어있지 않다. 더욱이 대부분의 라이프가드 훈련들이 장애인 구조에 관한 정보 혹은 훈련이 제공되지 않고 있다. 본 연구의 목적은 문헌 검토를 실시하여 장애인을 위한 해양 라이프가드, 수상 안전관리와 관련하여 주요 이슈와 문제점을 찾아내는 데 있다. 데이터베이스(e.g., CINAHL Plus with Full Text, ERIC, MEDLINE, SPORTDiscus with Full Text)를 사용하여 연구논문과 해양안전과 관련한 국가/민간단체들의 문서들을 검색하였다. 사용된 검색어 혹은 키워드는 물 안전, 구조 요원, 익사 방지 등이 있었다. 주요 이슈를 파악하기 위해 수집된 문서내용을 분석(내용 분석법)을 실시하였다. 결과는 내용분석결과를 토대로 장애인 구조(rescue), 익사방지 및 수상안전과 관련된 중요한 다섯 가지 이슈들을 도출할 수 있었다.

토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구 (A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis)

  • 강현아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.223-234
    • /
    • 2021
  • 4차 산업 혁명 시대의 도래에 따라 쇼핑의 행태는 더욱 빠르게 오프라인에서 온라인으로 이동하고 있다. 온라인 쇼핑에서 고객의 정보요구를 가장 집약적으로 보여주는 것이 바로 검색 질의이다. 하지만 검색 분야에서도 검색 질의 관련 연구 사례는 많지 않으며 대부분의 검색 질의 연구 분야 선행 연구들은 연구자의 정성적인 판단에 근거하여 제한적인 주제와 데이터 기반으로 연구되어 왔다. 이에 본 연구는 검색 질의 연구 분야에 기계학습을 적용하여 검색 질의와 검색 이후 이용자가 조회한 문서명 로그를 기반으로 토픽모델링 수행 후 검색 질의 주제를 정의함으로써 데이터 기반의 정량적 방법론으로 15개의 검색 질의 주제 유형을 정의하였다. 또한 기존 검색어 자체만을 보고 판단하던 주제 유형에서 나아가 검색 행동특성을 반영한 유형을 정의하기 위하여 주성분 분석을 통해 주요 변수를 추출 후 각 주제별 검색 행동특성을 분석함으로써 검색 탐색 활성도, 상품 관여도에 따른 4가지의 새로운 검색 질의 유형 분류체계를 제시하였다. 본 연구결과는 효과적인 검색서비스 구축 및 검색 시스템 개발에 기여할 것으로 기대된다.

Word2Vec 학습을 통한 의미 기반 해외 유사 특허 검색 방안 (Identifying Similar Overseas Patent Using Word2Vec-Based Semantic Text Analytics)

  • 백민지;김남규
    • 한국IT서비스학회지
    • /
    • 제17권2호
    • /
    • pp.129-142
    • /
    • 2018
  • Recently, the number of patent applications have been increasing rapidly every year as the importance of protecting intellectual property rights becomes more important. Patents must be inventive and have novelty. Especially, the novelty implies that the corresponding invention is not the same as the previous invention. To confirm the novelty, prior art search must be conducted before and after the application. The target of prior art search should include not only Korean patents but also foreign patents. Search of foreign patents should be supported by multilingual search techniques. However, a dictionary-based naive approach shows a limitation because some technical concepts are represented in different terms according to each nation. For example, a Korean term and a Japanese term may not be synonym even though they represent the same technical concept. In this paper, we propose a new method to map semantic similarity between technical terms in Korean patents and Japanese patents. To investigate different representations in each nation for the same technical concept, we identified and analyzed pairs of patents those are mutually connected with priority claim relationship. By performing an experiment with real-world data, we showed that our approach can reveal semantically similar technical terms in other language successfully.

RDF 데이타에 대한 효율적인 검색 기법 (An Efficient Keyword Search Method on RDF Data)

  • 김진하;송인철;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.495-504
    • /
    • 2008
  • 최근 문서나 웹 페이지뿐만 아니라 관계형 데이타나 XML 데이타, RDF 데이타 같은 구조화된 데이타에 대해서도 검색을 지원하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 RDF 데이타에 대한 효율적인 검색 기법을 제안한다. 제안하는 기법은 먼저 RDF 데이타의 크기를 줄여 검색 성능을 높이고 검색 결과로 관련 있는 정보를 함께 반환해 주기 위해 RDF 데이타에서 관련 있는 노드와 에지를 묶어 새로운 RDF 그래프를 생성한다. 또한 검색 과정에서 검색의 결과를 정렬하기 위해 RDF 데이타 그래프의 노드와 예지에 키워드와의 연관도를 부여할 때, RDF 온톨로지 데이타의 특성을 활용함으로써 보다 사용자의 의도에 부합하는 검색 결과를 반환한다. 실제 RDF 데이타를 사용한 성능 비교 결과는 제안하는 기법이 RDF 데이타의 크기를 최대 2배까지 줄이고 기존 기법에 비해 검색 속도가 최대 5배 빠르다는 것을 보여준다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

사이버교과서박물관 데이터베이스 구축에 관한 사례 연구 (A Case Study on the Construction of Cyber Textbook Museum Database)

  • 김은주;이명희
    • 한국비블리아학회지
    • /
    • 제20권4호
    • /
    • pp.67-84
    • /
    • 2009
  • 이미 발행된 교과서를 대상으로 원문 데이터베이스를 구축하고 서비스를 제공하기까지 교과서 표현 메타데이터 정의, 원문 파일 포맷의 정의, 시스템의 개발과 이를 구체적으로 구축한 사례를 정부의 지식자원관리사업의 일환으로 구축된 한국교육개발원의 '사이버교과서박물관' 구축사례를 통해 알아보았다. 사이버교과서박물관에서는 1890년대 이후 국내에서 제작된 교과서를 데이터베이스화하여 온라인상에서 열람 및 이용이 가능하게 하였다. 시스템 구축은 주요 기능을 중심으로 홈페이지 구축, 검색시스템의 개발, 교과서 원문서비스의 저작권에 따른 원문관리시스템의 구축, 서비스하는 교과서의 저작권을 보호하기 위한 저작권 관리시스템(DRM)의 개발에 이르기까지 교과서 자료의 특수성에 따른 시스템 개발상에서의 차별적인 요소를 중심으로 소개하였다. 정책적, 기술적, 제도적, 활성화 안의 4가지 측면에서 방안을 제시하였다.

학위논문 전문데이터베이스 구축 및 서비스환경 구현 (Construction of Full-Text Database and Implementation of Service Environment for Electronic Theses and Dissertations)

  • 이기호;김진숙;윤화묵
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.41-49
    • /
    • 2000
  • 1990년대 중반부터 다양하고 강력한 문서편집기의 보편화와 더불어 국내외의 대학에서는 책자형태의 논문제출과 동시에 전자형태 학위논문의 제출을 의무화하고 있다. 그러나 제출된 방대한 야의 전자형태의 논문들은 한글, MS-Word, Latexe 등 다양한 문서편집기로 작성되었고 문서형식의 표준화가 이루어지지 않아 효율적으로 활용되지 못하고 있는 실정이다. 본 논문에서는 다양한 형태로 존재하는 학위논문들을 하나의 통일된 중간포맷으로 변혼하고, 변환된 논물들을 전문데이터베이스(Full Text Datsbase)화하여 이를 인터넷을 통해 효육적으로 검색하고 서비스하기 위한 학위논문 전문검색시스템을 구현한다.

  • PDF

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.