• Title/Summary/Keyword: Stop-word

검색결과 98건 처리시간 0.029초

참조용어(Reference Terminology) 모델 확장을 위한 한의학용어 정형화(Normalization) 연구 (A study of Traditional Korean Medicine(TKM) term's Normalization for Enlarged Reference terminology model)

  • 전병욱;홍성천
    • 대한한의정보학회지
    • /
    • 제15권2호
    • /
    • pp.1-6
    • /
    • 2009
  • The discipline of terminology is based on its own theoretical principles and consists primarily of the following aspects: analysing the concepts and concept structures used in a field or domain of activity, identifying the terms assigned to the concepts, in the case of bilingual or multilingual terminology, establishing correspondences between terms in the various languages, creating new terms, as required. The word properties has syntax, morphology and orthography. The syntax is that how words are put together. The morphology is consist of inflection, derivation, and compounding. The orthography is spelling. Otherwise, the terms of TKM(Traditional Korean Medicine) is two important element of visual character and phonetic notation. A visual character consist of spell, sort words, stop words, etc. For example, that is a case of sort words in which this '다한', '한다', '多汗', '汗多' as same. A phonetic notation consist of palatalization, initial law, etc. For example, that is a case of palatalization in which this '수족랭', '수족냉', '手足冷', '手足冷' as same. Therefore, to enlarged reference terminology is a method by term's normalization. For such a reason, TKM's terms of normalization is necessary.

  • PDF

영어권 화자의 국어 폐쇄음 발화와 지각 (The Production and Perception of the Korean Stops by English Learners)

  • 김기호;박윤진;전윤실
    • 음성과학
    • /
    • 제13권4호
    • /
    • pp.51-67
    • /
    • 2006
  • This study examined the acoustic properties of initial stops in Korean, produced by Korean native speakers and English Korean learners. The productions of Korean native speakers were compared with those of beginners and advanced learners of Korean. Fundamental frequency(F0) and Voice Onset Time(VOT) were measured in condition of one or two syllable words, containing word-initial lenis, fortis, and aspirated stops. English Korean Learners showed that they produced stops with relatively shorter VOT and lower F0, compared with those of Korean native speakers. In case of the manner of articulation, English Korean learners have production difficulties in order of lenis stops, aspirated stops, and fortis stops. In regard to the place of articulation, English Korean learners showed production troubles in order of labial stops, velar stops, and alveolar stops. In the experiment of perception, it is hard for English Korean learners to distinguish stops of lenis and aspirated. Therefore, the results of production experiment were almost consistent with those of the perception experiment. Finally, according to both groups of proficiency, the results demonstrated that the advanced learners produce or perceive Korean stops easier than the beginners.

  • PDF

Urdu News Classification using Application of Machine Learning Algorithms on News Headline

  • Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제21권2호
    • /
    • pp.229-237
    • /
    • 2021
  • Our modern 'information-hungry' age demands delivery of information at unprecedented fast rates. Timely delivery of noteworthy information about recent events can help people from different segments of life in number of ways. As world has become global village, the flow of news in terms of volume and speed demands involvement of machines to help humans to handle the enormous data. News are presented to public in forms of video, audio, image and text. News text available on internet is a source of knowledge for billions of internet users. Urdu language is spoken and understood by millions of people from Indian subcontinent. Availability of online Urdu news enable this branch of humanity to improve their understandings of the world and make their decisions. This paper uses available online Urdu news data to train machines to automatically categorize provided news. Various machine learning algorithms were used on news headline for training purpose and the results demonstrate that Bernoulli Naïve Bayes (Bernoulli NB) and Multinomial Naïve Bayes (Multinomial NB) algorithm outperformed other algorithms in terms of all performance parameters. The maximum level of accuracy achieved for the dataset was 94.278% by multinomial NB classifier followed by Bernoulli NB classifier with accuracy of 94.274% when Urdu stop words were removed from dataset. The results suggest that short text of headlines of news can be used as an input for text categorization process.

긴급제동장치 작동 한계 특성에 대한 실험적 연구 (An Experimental Study on the Operating Limit Characteristics of Autonomous Emergency Braking System)

  • 김종혁;최지훈;박정우;박종진;박하선
    • 자동차안전학회지
    • /
    • 제14권3호
    • /
    • pp.23-29
    • /
    • 2022
  • Among the various functions of ADAS (Advanced Driver Assistance System), the most important and representative function to the safety of vehicle passengers is AEB (Autonomous Emergency Braking system). In South Korea, laws are in progress from 2022 for making it mandatory for passenger vehicles to be installed. And as AEB-equipped vehicles continues to increase in the future, the demand for accident analysis related to the AEB function is expected to increase in the future. In order to find out the operating limits of AEB, it is necessary to consider the situations exceeding the standards covered by EuroNCAP. Therefore we have performed four experiments in this study, including situations encountered in real-word traffic conditions, i.e., an oblique stop of Global Vehicle Target (GVT) and ADAS sensor failures. These experimental results are expected to be of great help in accurate and reliable accident analysis by considering them when analyzing traffic accidents for ADAS vehicles.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

양성 부분 간질 환아에서 간질 발생 위치에 따른 음성언어 분석 (Acoustic differences according to the epileptic focus in benign partial epilepsy with centrotemporal spikes patients)

  • 김정태;최상훈;김선준
    • Clinical and Experimental Pediatrics
    • /
    • 제50권9호
    • /
    • pp.896-900
    • /
    • 2007
  • 목 적 : 정량적인 분석으로 양성 로란딕 간질환자의 간질파 발생위치에 따른 음성 언어적 특성을 알아보고자 하였다. 방 법 : 항경련제를 사용한 적이 없고, 임상 증상과 검사 소견으로 양성 로란딕 간질 증후군에 합당한 초진 환자 23명을 대상으로 음성 언어 분석을 하였다. 음성언어평가는 Computerized Speech Lab을 사용하여 분석하였다. 결 과 : 간질파 위치가 좌뇌인 환자군에서 치환에 의한 조음 오류가 빈번하게 관찰되었다. 환자군의 VOT는 정상아동($46.7{\pm}10.2ms$)과 비교해 훨씬 길게 나타났으며 특히 간질파 발생위치가 좌뇌인 환자군에서($74.3{\pm}36.6ms$) 더욱 길게 나타났다. 억양형태를 비교분석한 결과, 간질파 발생위치가 우뇌인 환자군에서 간질파 발생위치가 좌뇌인 환자군 보다 억양변화가 적어 운율 변동 폭이 낮은 것으로 평가되었다. 숫자세기의 자발화 길이측정에서 간질파 발생위치가 좌뇌인 환자군이 간질파 발생위치가 우뇌인 환자군 보다 길게 측정되었다. 결 론 : 양성 경과를 보이는 양성 로란딕 간질 환자에서도 조음오류 및 유창성 등 음성 언어적 문제점을 정량적으로 확인하였다. 따라서 양성 로란딕 간질환자의 진단과 치료 과정 중 언어음성학적인 평가를 포함시킬 것을 추천하고자 한다.

스텝 애니메이션과 감성 표현 사이의 정량적 상호관계에 관한 연구 (A study of quantitative correlation between step animation and emotional expressions)

  • 이지성;정재욱
    • 디자인학연구
    • /
    • 제17권4호
    • /
    • pp.141-148
    • /
    • 2004
  • 본 논문은 스텝 애니메이션에서 표현되어지는 감성을 정의하고, 스텝 관련 감성 자극 요소들을 추출 측정, 분석하여 스텝의 직관적인 감성 표현을 정량화시키는 것을 목적으로 하고 있다. 실험 방법으로는 스텝 관련 27개의 감성 표현 어휘와 36개의 샘플 스텝 동영상의 상관관계를 설문 조사하였다. 통합된 데이터를 수량화 이론 III류를 이용하여 스텝의 감성적 멘털구조를 2차원 평면화 하였다. 이를 분석한 결과, 감성 스텝은 가로의 자신감 축과 세로의 안정감 축으로 형성되어 있음을 밝혀내었다. 감성 스텝의 2차원 분포도를 분석한 결과, <자신감, 불안감 쪽> 2사분면과 <자신감, 안정감 쪽> 3사분면은 데이터가 풍부한 반면 <소심함, 불안감 쪽> 1사분면과 <소심함, 안정감 쪽> 4사분면의 데이터 분포가 희박함을 보여주었다. 이러한 그래프 분석을 통해 불안감이 느껴지면서 소심한 감성과 안정감이 느껴지는 소심한 캐릭터의 감성은 스텝만으로 표현하기에는 난해한 감성 표현임을 파악할 수 있었다. 감성에 영향을 미치는 스텝의 신체 물리적 요소로는 <스텝의 간격> <스텝의 속도> <골반(Y축)의 움직임 각도> <팔 스윙 폭> <척추(x축)의 움직임 각도> <신체의 기울기> 6가지로 선정하여 분석하였다. 그 결과 <스텝의 속도>와 <신체의 기울기>가 스텝의 감성 자극에 가장 큰 영향을 미치는 요소임을 밝혀낼 수 있었다. 본 연구를 통해 캐릭터의 미묘한 감성 상태를 스텝 애니메이션에 자연스럽게 표현해 내는 과정에 있어 애니메이터들의 주관적인 가성 표현들을 객관화, 정량화시키고자 하였으며 향후 이 데이터들을 활용한 멀티컨텐츠의 적용을 목표로 하고 있다.

  • PDF

OPAC에 있어서 키워드/불연산자 탐색에 대한 이용자 지식수준 연구 (Knowledge Level of Users of Keyword/Boolean Searching on an Online Public Access Catalog : SELIS)

  • 구본영
    • 한국문헌정보학회지
    • /
    • 제32권4호
    • /
    • pp.249-274
    • /
    • 1998
  • SELIS(SEoul Women's University Library and Information System) OPAC에 대한 이용자의 키워드/불연산자 탐색의 지식수준을 알아보기 위하여 4가지 사항에 따라 질문지의 결과를 분석하였다. 분석한 결과를 보면 SELIS OPAC 이용시 키워드 탐색에서 불연산자의 사용이 쉽다고 생각하고 불연산자의 사용으로 검색결과를 만족하는 이용자는 그렇지 않다고 응답한 이용자 보다 키워드/불연산 탐색의 지식수준이 높은 것으로 요약할 수 있다. 설문문항에서 제시한 지식은 키워드 탐색의 특성(단일 키워드 사용, 2개 이상의 키워드 사용), 키워드 탐색 시 불연산자의 사용, 색인에 대한 지식, 불용어 리스트에 대한 지식(비통제 용어) 키워드 탐색기법(전방일치, 우측절단). 불연산자의 올바른 사용, 키워드의 브라우징으로 주제어 선정에 관한 것이다. 앞에서 제시한 이러한 지식들은 OPAC의 키워드/불연산자 탐색에서 중요한 요소로 볼 수 있다. 성공적인 탐색을 위해서는 정보검색과정에 대한 개념적인 지식 즉, 정보요구를 탐색 가능한 질의어로 바꾸는 것과 주어진 시스템에서 질문의 결과를 얻는 방법에 대한 어의적인 지식(시스템의 특징을 어떻게 언제 이용할 것인가 하는 지식) 그리고 이용자의 질문에 대한 과학적인 기술 즉, 기본적인 컴퓨터 기술과 상세한 탐색문을 작성하는 구문론적인 지식이 요구된다. 그러나 지금까지 이용자에 대한 온라인목록 탐색의 중요한 지식으로 간주해온 것은 과학적인 기술방법에 관한 지식에만 치중하고 어의적인 지식, 개념적인 지식을 강조하는 것은 부족하였다. 따라서 온라인목록 이용에 관한 교육을 너무 과학적인 기법에만 치중할 것이 아니라 어의적 지식, 구문에 관한 기술과 개념적인 지식 교육에 초점을 맞추어야 할 것이다.

  • PDF

Effect of Cinnamomum Cassia on Cartilage Protection in Rabbit and Human Articular Cartilage

  • Baek, Yong-Hyeon;Huh, Jeong-Eun;Lee, Jae-Dong;Choi, Do-Young;Park, Dong-Suk
    • 대한한의학회지
    • /
    • 제28권4호
    • /
    • pp.148-157
    • /
    • 2007
  • Background & Objective: Articular cartilage is a potential target for drugs designed to inhibit the activity of matrix metalloproteinases (MMPs) to stop or slow the destruction of the proteoglycanand collagen in the cartilage extracellular matrix. The purpose of this study was to investigate the effects of Cinnamomum cassia in inhibiting the release of glycosaminoglycan (GAG), the degradation of collagen, and MMP activity in rabbit and human articular cartilage explants. Methods: The cartilage-protective effects of Cinnamomum cassia were evaluated by using glycosaminoglycan degradation assay, collagen degradation assay, colorimetric analysis of MMP activity, measurement of lactate dehydrogenase activity and histological analysis in rabbit cartilage explants culture. Results: Interleukin-1a (IL-1a) rapidly induced GAG, but collagen was much less readily released from cartilage explants. Cinnamomum cassia significantly inhibited GAG and collagen release in a concentration-dependent manner. Cinnamomum cassia dose-dependently inhibited MMP-1, MMP-3 and MMP-13 activities from IL-1a-treated cartilage explants culture when tested at concentrations ranging from 0.02 to 1 mg/ml. Conclusion : These results indicate that Cinnamomum cassia inhibits the degradation of proteoglycan and collagen through the down regulation of MMP-1, MMP-3 and MMP-13 activities of IL-1a-stimulated rabbit and human articular cartilage explants.

  • PDF

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.