• 제목/요약/키워드: Newly Coined Words

검색결과 24건 처리시간 0.03초

텍스트 마이닝을 이용한 지능적 워드클라우드 (Intelligent Wordcloud Using Text Mining)

  • 김연창;지상수;박동서;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.325-326
    • /
    • 2019
  • 본 논문은 텍스트 마이닝 기법으로 명사의 빈도수를 조사하여 워드클라우드를 나타내는 기존의 방법을 개선하여 지능적 워드클라우드를 구현하는 방법을 제안한다. 텍스트 마이닝 시에 명사 단어를 추출하는 사전에 누락된 신조어 등의 단어를 효과적으로 추가하고, 동사 등 다른 품사위주의 워드클라우드를 시각적으로 보여주는 방법을 제안한다. 실험에서 기존 명사의 빈도수 추출에는 KoNLP 패키지를 사용하였고, 지원되지 않는 신조어 80개를 추가하였고 빈도수를 수동으로 조사하여 추가하였다.

  • PDF

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

국내 내셔널 남성복 브랜드명의 언어적 특성 (Linguistic Characteristics of Domestic National Men's Wear Brand Names)

  • 나수임
    • 한국의상디자인학회지
    • /
    • 제16권1호
    • /
    • pp.91-103
    • /
    • 2014
  • In this study, 70 national brands among men's wear brands were selected to examine linguistic characteristics of domestic national men's wear brand names. Linguistic factors which were used in national men's wear brand names were analyzed to understand their characteristics. Formative and semantic characteristics of each brand name were analyzed on the basis of the results from previous studies. It was found that long words with over four syllables are preferred than short words and single words in the form of noun are frequently used for domestic national men's wear brand names in terms of linguistic formality. English is most widely used in brand names, and European languages such as French, Spanish, and Italian are also used frequently under the influence of the country of origin. Next, the analysis result on the semantic characteristics of domestic national men's wear brand names showed that descriptive brand names are used to convey brand information directly and easily, or freestanding brand names which are absolutely irrelevant and newly coined words are chosen to create a characteristic image. In other words, brand names represent detailed business and product category of men's wear by forming a brand image of men's wear (ex. Man, Homme, Zio), and provide the information about properties and benefits related to the product such as dignity, masterpiece, and luxurious lifestyle to consumers by presenting the concept of the brand.

  • PDF

고속 음성 문서 검색을 위한 Expected Matching Score 기반의 문서 확장 기법 (Expected Matching Score Based Document Expansion for Fast Spoken Document Retrieval)

  • 서민구;정규준;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.71-74
    • /
    • 2006
  • Many works have been done in the field of retrieving audio segments that contain human speeches without captions. To retrieve newly coined words and proper nouns, subwords were commonly used as indexing units in conjunction with query or document expansion. Among them, document expansion with subwords has serious drawback of large computation overhead. Therefore, in this paper, we propose Expected Matching Score based document expansion that effectively reduces computational overhead without much loss in retrieval precisions. Experiments have shown 13.9 times of speed up at the loss of 0.2% in the retrieval precision.

  • PDF

소셜 데이터의 감성 분석을 위한 신조어 및 이모티콘 감성 사전 구축 (Building a Newly-coined Words and Emoticon Emotional Dictionary for Emotional Analysis of Social Data)

  • 양진솔;윤경일;조영훈;정광식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.914-917
    • /
    • 2019
  • SNS 의 발전으로 기업이나 공공단체는 소셜 데이터가 가지고 있는 감성이나 의견, 여론 등을 분석해서 신흥 가치를 창출하려 한다. 소셜 데이터를 기반으로 하는 감성 분석은 사람들의 소비 측면 및 제품 평가 파악은 물론 기업 매출 및 정책 수립 등에서 도움이 된다. 하지만 소셜 데이터는 각종 신조어 및 이모티콘이 다수 포함되어 있어 기존 감성 분석 방법으로는 정확한 분석을 하기 어렵다. 이러한 문제를 해결하기 위해 본 논문에서는 신조어 및 이모티콘 감성 사전을 구축하고, 분석 과정에서 기존 감성 사전과 본 논문에서 구축된 신조어 및 이모티콘 감성 사전을 사용하여 감성 분석 정확도를 비교한다.

한국어 미등록어 인식을 위한 단계별 접근방법 (Step-by-step Approach for Effective Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.369-372
    • /
    • 2009
  • 최근 웹 문서 뿐만 아니라 신문기사에서도 미드(미국드라마)나 안습(안구에 습기차다)와 같은 신조어를 사용하고 있다. 그러나, 사전에 등록되지 않은 이러한 단어는 한국어 분석기의 성능을 떨어뜨리는 주요인이 된다. 이러한 미등록어를 자동으로 인식하기 위해서, 본 논문에서는 전문분석 기반 미등록 명사 인식 단계, 웹 출현빈도 기반 미등록 용언 인식 단계, 웹 출현빈도 기반 미등록 명사 인식단계로 구성된 단계별 접근방법을 제안한다. 제안하는 방법은 문서에서 여러 번 나타난 미등록어를 정확하게 인식할 수 있도록 전문분석 기반 단계를 포함한다. 한편, 문서에 한번 나타난 미등록어도 광범위하게 인식할 수 있도록 웹 출현 빈도 기반 단계도 포함한다. 그리고, 다양한 한국어 미등록어를 인식하기 위해서 미등록 명사 인식 단계와 미등록 용언 인식 단계를 구분한다. 실험결과 기존 접근방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현율 8.50%를 개선하였다.

  • PDF

우리나라 초등학교 고유어 수학 용어의 변천에 대한 연구 (A study on the transition of native korean terminology in elementary mathematics)

  • 박교식
    • 한국초등수학교육학회지
    • /
    • 제21권2호
    • /
    • pp.291-308
    • /
    • 2017
  • 초등학교 고유어 수학 용어는 1946년에 군정청 문교부에서 각계의 의견을 들어 처음으로 만들어졌다. 당시에 만들어진 고유어 수학 용어의 대부분은 대개 한자의 뜻에 해당하는 고유어를 사용하거나, 그렇게 만든 것을 축약하여 만든 것이다. 그러나 20년도 지나지 않아 고유어 수학 용어의 반 정도가 다시 한자어 수학 용어로 환원되었고, 대부분 현재까지 그대로 사용되고 있다. 수학 교수 학습에서 한자어 수학 용어의 불편함이 지적되고 있고, 고유어 수학 용어의 사용이 도움이 될 것으로 주장되고 있지만, 고유어 수학 용어의 사용을 서두르는 것은 능사가 아니다. 한자어 수학 용어를 고유어 수학 용어로 바꾸는 시도는 신중해야 한다. 본 논문에서는 이러한 입장에서 성공적인 고유어 수학 용어의 사용을 위해 다음과 같은 세 가지 제언을 결론으로 제시한다. 첫째, 고유어 수학 용어를 만들려는 시도와 논의가 지속적으로 이루어져야 한다. 둘째, 현재 잘 존속하고 있는 고유어 수학 용어가 가진 생존력의 정체를 명확히 할 필요가 있다. 셋째, 현재 존속되지 않는 고유어 수학 용어의 실패 요인을 명확히 할 필요가 있다.

  • PDF

KR-WordRank : WordRank를 개선한 비지도학습 기반 한국어 단어 추출 방법 (KR-WordRank : An Unsupervised Korean Word Extraction Method Based on WordRank)

  • 김현중;조성준;강필성
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.18-33
    • /
    • 2014
  • A Word is the smallest unit for text analysis, and the premise behind most text-mining algorithms is that the words in given documents can be perfectly recognized. However, the newly coined words, spelling and spacing errors, and domain adaptation problems make it difficult to recognize words correctly. To make matters worse, obtaining a sufficient amount of training data that can be used in any situation is not only unrealistic but also inefficient. Therefore, an automatical word extraction method which does not require a training process is desperately needed. WordRank, the most widely used unsupervised word extraction algorithm for Chinese and Japanese, shows a poor word extraction performance in Korean due to different language structures. In this paper, we first discuss why WordRank has a poor performance in Korean, and propose a customized WordRank algorithm for Korean, named KR-WordRank, by considering its linguistic characteristics and by improving the robustness to noise in text documents. Experiment results show that the performance of KR-WordRank is significantly better than that of the original WordRank in Korean. In addition, it is found that not only can our proposed algorithm extract proper words but also identify candidate keywords for an effective document summarization.

트윗 감정 분류를 위한 다양한 기계학습 자질에 대한 비교 연구 (Comparative Study of Various Machine-learning Features for Tweets Sentiment Classification)

  • 홍초희;김학수
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.471-478
    • /
    • 2012
  • 문서를 대상으로 한 다양한 감정 분류 연구가 진행되어 왔으며, 최근에는 트윗 감정 분류에 그대로 적용되고 있다. 그러나 이러한 연구들은 트윗의 구조, 이모티콘, 철자 오류 그리고 신조어와 같은 트윗의 특징을 고려하지 않아 좋은 성능을 보이지 못하고 있다. 본 논문에서는 기계학습을 기반으로 다양한 자질을(이모티콘 극성, 리트윗 극성, 사용자 극성, 대체 어휘)사용하여 실험하여 트윗 감정 분류 성능의 영향을 확인하였다. 기계 학습기 SVM(Support Vector Machine) 기반의 감정 분류 실험으로 이모티콘 극성 자질과 사용자 극성 자질이 트윗 감정 분류 모델의 성능 향상에 기여를 하는 것을 알 수 있었다. 이와 비교하여 리트윗 극성과 대체 어휘 자질은 트윗 감정 분류 모델에 큰 영향이 없는 것을 알 수 있었다.

화서 이항로의 학문관과 시세계 (Hwaseo Lee Hang-ro's View of Scholarship and the World of his Poetry)

  • 이훈
    • 동양고전연구
    • /
    • 제69호
    • /
    • pp.259-296
    • /
    • 2017
  • 본고는 화서 이항로가 학문 문로를 통해 정립한 학문관의 실체를 고찰하고, 시세계에 나타난 작법상의 특징을 구명한 것이다. 화서의 시가 그의 학문과 표리를 이룬다는 측면에 집중하여, "화서집"을 통해 화서의 학문관이 정립되는 과정을 추적하고 그의 학문관으로 특정화할 수 있는 개념어를 도출하였으며, 화서의 학문과 사상이 투영된 시를 위주로 하여 작법상의 특징을 고찰하였다. 분석한 결과를 요약하면 다음과 같다. 화서는 오서(五書) 오경(五經) 역사서 주자서 "송자대전"을 아우르는 학문 문로를 통해 '지경치신(持敬致愼)'을 근본으로 하는 학문관을 정립하고, '치지(致知)'와 '역행(力行)'을 병행하는 실천적 학문을 추구하였다. 화서의 시는 작법상에서 용사의 구사, 그리고 서사와 의론의 교직(交織)이 두드러진다. 용사에 있어서는 차용과 변용에 머물지 않고 어휘가 갖는 일반적인 함의를 넘어 새로운 의미를 부여하였으며, 더 나아가 조어(造語)를 창출해 내는 경지에 도달하였다. 화서는 역사적 사건과 인물의 행적에 따라 압축적으로 서사를 서술하고 의론을 개진하면서 정서를 표출하였다. 특히 맹자의 '일치일란(一治一亂)'의 역사관에 입각하여 서사와 의론의 교직으로 서술한 시는 화서의 학문과 사상이 집약된 것이자 화서의 문학성을 대표하는 것이라고 평가할 수 있다.