Search | Korea Science

Automatic Classification of Documents Using Word Correlation (단어의 연관성을 이용한 문서의 자동분류)

Sin, Jin-Seop;Lee, Chang-Hun
- The Transactions of the Korea Information Processing Society
- /
- v.6 no.9
- /
- pp.2422-2430
- /
- 1999
In this paper, we propose a new method for automatic classification of web documents using the degree of correlation between words. First, we select keywords from term frequency and inverse document frequency (TF*IDF) and compute the degree of relevance between the keywords in the whole documents,, using the probability model word that was closely connected with them and create a profile that characterizes each class. Finally, if we repeat the above process until lower than threshold value, we will make several profiles which are in keeping with users concern. And, we classified each document with the profiles and compared these with those of other automatic classification methods.
PDF

Deep Learning Application for Core Image Analysis of the Poems by Ki Hyung-Do (딥러닝을 이용한 기형도 시의 핵심 이미지 분석)

Ko, Kwang-Ho
- The Journal of the Convergence on Culture Technology
- /
- v.7 no.3
- /
- pp.591-598
- /
- 2021
It's possible to get the word-vector by the statistical SVD or deep-learning CBOW and LSTM methods and theses ones learn the contexts of forward/backward words or the sequence of following words. It's used to analyze the poems by Ki Hyung-do with similar words recommended by the word-vector showing the core images of the poetry. It seems at first sight that the words don't go well with the images but they express the similar style described by the reference words once you look close the contexts of the specific poems. The word-vector can analogize the words having the same relations with the ones between the representative words for the core images of the poems. Therefore you can analyze the poems in depth and in variety with the similarity and analogy operations by the word-vector estimated with the statistical SVD or deep-learning CBOW and LSTM methods.
https://doi.org/10.17703/JCCT.2021.7.3.591 인용 PDF KSCI

커버스토리 (주)HNC 임재영 대표 - 과감한 투자로 성공의 그림을 그리다 (주)HNC 임재영 대표

벤처기업협회
- Venture DIGEST
- /
- no.2 s.127
- /
- pp.18-20
- /
- 2009
혁신', '창조', '소통'. 이 세 단어는 여느 기업의 비전이 아니라 바로 임재영 대표를 수식하는 말이다. 경영의 혁신을 꾀하고, 비즈니스와 연계되는 모든 것을 창조하며, 인간과 기술의 소통공간을 창출하는 HNC(www.hnceng.com) 임재영 대표. 그의 성공비결을 들어본다.
PDF

A Study on Cluster Topic Selection in Hierarchical Clustering (계층적 클러스터링에서 분류 대표어 선정에 관한 연구)

Yi, Sang-Seon;Lee, Shin-Won;An, Dong-Un;Chung, Sung-Jong
- Proceedings of the Korea Information Processing Society Conference
- /
- 2004.05a
- /
- pp.669-672
- /
- 2004
정보의 양이 많아지면서 정보 검색 시스템에 검색 결과를 자동으로 구조화하는 계층적 클러스터링을 적용하는 시도가 늘고 있다. 계층적 클러스터링은 문서 간의 유사도를 통해 클러스터를 계층 구조로 만들어 검색 성능을 높이고 결과를 사용자에게 이해하기 쉽게 보여준다. 계층 구조는 검색 결과를 요약하는 것이기 때문에 클러스터의 내용을 효과적으로 함축할 수 있는 대표어의 선정이 중요하다. 각 클러스터의 대표어를 선정하기 위해 대표어에 명사인 단어만 추출하고 상위 클러스터 대표어에 사용된 단어는 하위 클러스터에 사용하지 않는 방법을 적용하여 대표어의 질을 높였다.
PDF

A Study on Comparative Analysis with High-Frequency Word and Keyword using Word Embedding (워드임베딩을 이용한 온라인 비디오 강의의 고빈도 단어와 키워드 간의 유사도 비교 연구)

Jo, Jaechoon;Lim, Heuiseok
- Proceedings of the Korea Information Processing Society Conference
- /
- 2017.04a
- /
- pp.385-386
- /
- 2017
무료 온라인 교육환경은 교육의 기회를 제공함으로써, 지속적으로 관심이 높아지고 있으며 배움에 대한 노력에 중시하고 있다. 따라서 본 연구는 배움에 대한 노력을 온라인에서 자동으로 판단할 수 있는 최소학습 판단 시스템을 제안해 왔다. 최소학습을 판단하기 위해 온라인 비디오 강의에서 고빈도 단어를 추출하여 단어게임을 통해 판단하는데, 이때 고빈도 단어가 최소학습을 판단하기 위한 키워드로 사용할 수 있는지에 대한 검증 실험이 요구되었다. 따라서 본 논문은 워드임베딩을 이용하여 고빈도 단어와 키워드간의 유사도를 비교하여 고빈도 단어에 대한 검증 실험을 실시하였다. 실험 결과, 고빈도 단어가 온라인 비디오 강의를 대표할 수 있는 키워드로 사용될 수 있는 긍정적인 결과를 보였고 최소 학습을 판단하기 위한 요소(Feature)로 충분히 사용가능함을 보였다.
https://doi.org/10.3745/PKIPS.y2017m04a.385 인용 PDF

Estimating the Number of Korean Words Based on Corpus (말뭉치를 이용한 한국어 단어 개수 추정)

Kim, Seong-Gi;Han, Geun-Sik
- The Transactions of the Korea Information Processing Society
- /
- v.5 no.7
- /
- pp.1774-1782
- /
- 1998
한 언어에서 사용된느 단어의 총 개수를 추정하는 것은 매우 어려운 작업이다. 최근 한 언어를 대표하는 것으로 생각되는 원문, 발화, 또는 기타 표본들의 뭉치인 말뭉치가 대규모로 구축됨으로 말뭉치를 기반으로 하여 한 언어의 총 단어 개수를 추정할 수 있게 되었다. 본 논문에서는 한국어 말뭉치에 나타난 단얼르 기반으로한국어 단어의 총 개수를 추정하는 방법을 제시하고 한국어 단어의 총 개수를 추정한다. 이와 더불어 한국어에서 가장 많은 수의 고유명사를 차지하는 한국사람 이름의 총 개수도 함께 추정한다. 단어 개수와 이름 개수의 추정방법은 빈도를 이용한 일반화된 선형모형을 적용하였다. 1000만 어절의 말뭉치를 이용하여 한국어의 총 단어를 추정한 결과 1,062,392개로 추정되었으며 한국사람 이름의 개수는 1,493,003개로 추정되었다.
PDF

A Classification Method for Deformed Words Using Multiple Sequence Alignment (다중서열정렬을 이용한 변형단어집합의 분류 기법)

Kim, Sung-Hwan;Cho, Hwan-Gue
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06b
- /
- pp.264-266
- /
- 2012
인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.

Neural Based Approach to Keyword Extraction from Documents (문서의 키워드 추출에 대한 신경망 접근)

조태호;서정현
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.10b
- /
- pp.317-319
- /
- 2000
문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.
PDF

실시간 동영상 분석 시스템 개발한 멀티서베이

Korea Venture Business Association
- Venture DIGEST
- /
- s.87
- /
- pp.26-26
- /
- 2005
도전정신으로 대표되는 벤처기업에 젊음만큼 잘 어울리는 단어가 또 있을까. 패기 넘치는 젊음으로 차근차근 벤처의 길을 밟아가는 경희대학교 학생벤처 멜티서베이(대표 송석규)를 찾아가 본다.
PDF

Word Cluster-based Mobile Application Categorization (단어 군집 기반 모바일 애플리케이션 범주화)

Heo, Jeongman;Park, So-Young
- Journal of the Korea Society of Computer and Information
- /
- v.19 no.3
- /
- pp.17-24
- /
- 2014
In this paper, we propose a mobile application categorization method using word cluster information. Because the mobile application description can be shortly written, the proposed method utilizes the word cluster seeds as well as the words in the mobile application description, as categorization features. For the fragmented categories of the mobile applications, the proposed method generates the word clusters by applying the frequency of word occurrence per category to K-means clustering algorithm. Since the mobile application description can include some paragraphs unrelated to the categorization, such as installation specifications, the proposed method uses some word clusters useful for the categorization. Experiments show that the proposed method improves the recall (5.65%) by using the word cluster information.
https://doi.org/10.9708/jksci.2014.19.3.017 인용 PDF KSCI

Search Result 248, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)