• Title/Summary/Keyword: 검색어 추출

Search Result 329, Processing Time 0.03 seconds

A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics (일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법)

  • Hwang, Jaewon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

Character String Detection using Character-Edge Map with Adaptive Character Size and Character String Orientation in Natural Images (자연영상에서 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 검출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Lee, Woo-Ram;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.11a
    • /
    • pp.262-265
    • /
    • 2007
  • 이미지 데이터베이스 시스템에서 이미지에 포함된 문자정보를 기반으로 검색어를 사용한다면 검색의 정확도 높일 수 있다. 이미지에서 문자정보를 추출을 위한 전단계로서 문자열 영역 검출이 필수적인 과제가 된다. 그러므로 본 논문에서는 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 영역 검출 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지로 레이블 이미지를 얻고, 그 영역의 문자구조 특징을 분석하기 위해서 배열문법으로 문자-에지 맵에 적응적으로 분석한다. 문자-에지 맵의 분석결과로서 문자열 후보 영역을 얻고, 문자열 영역의 구조적인 특징을 이용하여 문자열 후보 영역을 검증함으로서 최종적인 문자열 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 자연영상에서 기울어진 문자열과 다양한 크기의 문자를 갖는 문자열 영역을 효과적으로 검출하였다.

  • PDF

A Korean Emotion Features Extraction Method and Their Availability Evaluation for Sentiment Classification (감정 분류를 위한 한국어 감정 자질 추출 기법과 감정 자질의 유용성 평가)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.4
    • /
    • pp.499-517
    • /
    • 2008
  • In this paper, we propose an effective emotion feature extraction method for Korean and evaluate their availability in sentiment classification. Korean emotion features are expanded from several representative emotion words and they play an important role in building in an effective sentiment classification system. Firstly, synonym information of English word thesaurus is used to extract effective emotion features and then the extracted English emotion features are translated into Korean. To evaluate the extracted Korean emotion features, we represent each document using the extracted features and classify it using SVM(Support Vector Machine). In experimental results, the sentiment classification system using the extracted Korean emotion features obtained more improved performance(14.1%) than the system using content-words based features which have generally used in common text classification systems.

  • PDF

A Noun Extractor using Connectivity Information (좌우접속정보를 이용한 명사추출기)

  • An, Dong-Un
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.173-178
    • /
    • 1999
  • 본 논문의 명사추출기는 정보검색시스템을 위한 색인어 추출기로 좌우접속정보를 이용한 형태소해석을 통하여 얻어진 형태소들 중에서 명사를 추출한다. 본 형태소해석기는 형태소해석을 위한 언어지식과 어절 분리 엔진을 분리하여 수정과 확장이 용이하게 하였다. 사용한 언어지식은 좌우접속정보로서 한 어절을 이루는 형태소들의 품사간의 접속여부를 행렬로 표현한 것이다. 어절 분리 엔진은 사전을 참조하여 한 어절에서 최장일치법에 의해 형태소를 분리하고 좌우접속정보를 참조하여 형태소 분리가 올바른지를 판단한다. 형태소들의 품사분류는 표준 태그셋을 기반으로 음절 정보를 추가하여 확장하였다. 형태소를 해석한 결과 미등록어가 발생하였을 때 미등록어에서 명사를 추정하는 모듈이 없기 때문에 재현율은 좋지 않았다.

  • PDF

Word Extraction from Table Regions in Document Images (문서 영상 내 테이블 영역에서의 단어 추출)

  • Jeong, Chang-Bu;Kim, Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.12B no.4 s.100
    • /
    • pp.369-378
    • /
    • 2005
  • Document image is segmented and classified into text, picture, or table by a document layout analysis, and the words in table regions are significant for keyword spotting because they are more meaningful than the words in other regions. This paper proposes a method to extract words from table regions in document images. As word extraction from table regions is practically regarded extracting words from cell regions composing the table, it is necessary to extract the cell correctly. In the cell extraction module, table frame is extracted first by analyzing connected components, and then the intersection points are extracted from the table frame. We modify the false intersections using the correlation between the neighboring intersections, and extract the cells using the information of intersections. Text regions in the individual cells are located by using the connected components information that was obtained during the cell extraction module, and they are segmented into text lines by using projection profiles. Finally we divide the segmented lines into words using gap clustering and special symbol detection. The experiment performed on In table images that are extracted from Korean documents, and shows $99.16\%$ accuracy of word extraction.

A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis (토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구)

  • Kang, Hyun-Ah;Lim, Heui-Seok
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.6
    • /
    • pp.223-234
    • /
    • 2021
  • Recent advances in the 4th Industrial Revolution have accelerated the change of the shopping behavior from offline to online. Search queries show customers' information needs most intensively in online shopping. However, there are not many search query research in the field of search, and most of the prior research in the field of search query research has been studied on a limited topic and data-based basis based on researchers' qualitative judgment. To this end, this study defines the type of search query with data-based quantitative methodology by applying machine learning to search research query field to define the 15 topics of search query by conducting topic modeling based on search query and clicked document information. Furthermore, we present a new classification system of new search query types representing searching behavior characteristics by extracting key variables through principal component analysis and analyzing. The results of this study are expected to contribute to the establishment of effective search services and the development of search systems.

A Basic Study on the features of LID-related Ordinance Enactment conducted by Local Government - mainly on Seoul City, Suwon City and Namangju City - (LID관련 지방정부 조례제정 특성 기초연구 - 서울시, 수원시, 남양주시를 중심으로 -)

  • Lee, Mihong;Han, Yanghui;Hyun, Kyounghak;Lim, Seokhwa
    • Journal of Environmental Impact Assessment
    • /
    • v.25 no.1
    • /
    • pp.25-40
    • /
    • 2016
  • This study suggests direction of new ordinance establishment for the future national application of Low Impact Development(LID) by analyzing current LID-related regulations of local governments, substantial agents to install and maintain a facility, through qualitative and quantitative methodologies. Four key words related to LID were derived from advisory conference and then ninety nine ordinances as the LID-related regulations were extracted to analyze. The study shows that rainwater-related ordinance passed in the middle of 2000s are being merely converted to the law on the promotion and support of water reuse. Regulations on water cycle and LID exist only in three cities nationwide(Seoul City, Suwon City and Namangju City). Interview with administrators of three cities to have LID-related regulations revealed following results. First, both rainwater and water reuse related regulations have not considered regional characteristics such as rainfall intensity, effects of impervious and merely followed guidelines by Ministry of Government Administration and Home Affairs. Second, existing ordinance is confined to specific facilities and thus cannot include the concept of LID which covers land and space utilization. Therefore, for proper application of LID, this study proposes issue of ordinance that resembles Seoul City ordinance and a new guideline that can reflect regional characteristics such as rainfall and location.

Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis (복합명사 분할과 명사구 합성을 이용한 통합 색인 기법)

  • Won, Hyung-Suk;Park, Mi-Hwa;Lee, Geun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.1
    • /
    • pp.84-95
    • /
    • 2000
  • In this paper, we propose an integrated indexing method with compound noun segmentation and noun phrase synthesis. Statistical information is used in the compound noun segmentation and natural language processing techniques are carefully utilized in the noun phrase synthesis. Firstly, we choose index terms from simple words through morphological analysis and part-of-speech tagging results. Secondly, noun phrases are automatically synthesized from the syntactic analysis results. If syntactic analysis fails, only morphological analysis and tagging results are applied. Thirdly, we select compound nouns from the tagging results and then segment and re-synthesize them using statistical information. In this way, segmented and synthesized terms are used together as index terms to supplement the single terms. We demonstrate the effectiveness of the proposed integrated indexing method for Korean compound noun processing using KTSET2.0 and KRIST SET which are a standard test collection for Korean information retrieval.

  • PDF

An n-gram-based Indexing Method for Effective Retrieval of Hangul Texts (한글 문서의 효과적인 검색을 위한 n-gram 기반의 색인 방법)

  • 이준호;안정수;박현주;김명호
    • Journal of the Korean Society for information Management
    • /
    • v.13 no.1
    • /
    • pp.47-63
    • /
    • 1996
  • Conventional automatic indexing methods for Hangul texts can be classified into two groups as follows: One is to extract index terms by removing non-indexable segments from word-phrases, and the other is to generate index terms from the morphemes of word-phrases. The former suffers from the problem of word boundaries when documents contain many compound nouns. The latter can overcome the word boundary problem by extracting simple nouns, but has many overheads to develop a lot of linguistic knowledges needed in the indexing procedure. In this paper we propose a new indexing method based on n-grams. This method alleviates the problems of previous indexing methods related with word boundaries and linguistic knowledges. We also compare the effectiveness of the n-gram based indexing method with that of the previous ones.

  • PDF

Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments (언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법)

  • Kim, Minho;Jin, Jingzhi;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF