• Title/Summary/Keyword: 텍스트 연구

Search Result 3,471, Processing Time 0.03 seconds

Vorbereitende Bemerkungen zur kulturvergleichenden Untersuchung der Textsorte 'Todesanzeige' (텍스트종류 '부음'의 한$\cdot$독 비교 연구 시론 - 텍스트의 통보적 기능과 거시구조의 텍스트유형학적 차이를 중심으로 -)

  • Lee Seong-Man
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.2
    • /
    • pp.307-342
    • /
    • 2000
  • Die Arbeit zeigt an, dass die kulturspezifische Textsortenkonvention der Gebrauchstextsorte 'Todesanzeige' im Mittelpunkt steht, wobei anhand von Sprachgemeinschaften vorgegangen wird. Das setzt bestimmte $Verst\"{a}ndnisse$ von Text und Textlinguistik einerseits und von Textsorte und Textsortenlinguistik andererseits voraus. Zuerst versuche ich einen Standort der Todesanzeige im Rahmen der Gebrauchstextsorte zu bestimmen. Danach erstelle ich eine Typologie der Todesanzeige. Die Wahl der klassischen Todesanzeige erlaubt die Kon-stituierung eines zweisprachigen Korpus, das als Grundlage $f\"{u}r$ die in Kapiteln $4\~6$ angestellte Paralleltextanalyse dient. Im Mittelpunkt steht dabei die Makrostruktur und die Textfunktion, also die kommunikative Funktion im Text der $ausgew\"{a}hlten$ Anzeigen, deren Einzelteile auf Struktur und Funktion untersucht werden. Die Gesamtstruktur der Todesanzeigen ist von der Zeitung und dem damit zusammenhangenden Kulturraum $abh\"{a}ngig.\;Au{\ss}er$ dem obligato-rischen Mitteilungs- und Abschlussteil finden sich in beiden $Kulturra\"{u}men$ nicht alle makrostrukturellen Elemente. Kulturbedingte Unterschiede zwischen den koreanischen und deutschen Anzeigen gibt es auch in der $Vorkommensh\"{a}ufigkeit$ einzelner Elemente und in ihren inhaltlichen und syntaktischen Merkmalen sowie in der Handlungsstruktur des Textes. Unterschiede gibt es auch in der H\"{a}ufigkeit$, im Umfang und lnhalt der verschiedenen Elemente sowie in ihrer sprachlichen Formulierung.

  • PDF

A Study on the Extraction of E-mail Region in Unconstraint Calling Card Images (무제약 명함 영상에서의 E-mail 영역 검출에 관한 연구)

  • 신상철;정재영
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.7 no.5
    • /
    • pp.183-189
    • /
    • 2002
  • In this paper, we propose an algorithm to extract the E-mail address in calling card images. Firstly, text regions are separated from background. in the image. To do this, the properties of e-mail addresses and the texture features in the image is used. And then, each text region is explored to find the candidates of e-mail region. Finally, each candidate is divided into characters to find at-symbol(@), that is, e-mail region. The experimental results show hit-ratio over 93.3% for the various kind of calling cards containing different fonts, background images, caricatures.

  • PDF

Automated Answer Recommendation System Using Convolutional Neural Networks For Efficient Customer Service Based on Text (텍스트 기반 상담시스템의 효율성 제고를 위한 합성곱신경망을 이용한 자동답변추천 시스템)

  • Na, Hunyeob;Seo, Sanghyun;Yun, Jisang;Jung, Changhoon;Jeon, Yongjin;Kim, Juntae
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.272-275
    • /
    • 2017
  • 대면 서비스보다 비대면 서비스를 선호하는 소비자들의 증가로 인해 기업의 고객 응대의 형태도 변해가고 있다. 기존의 전화 상담보다는 인터넷에 글을 쓰는 형식으로 문의를 하는 고객이 증가하고 있으며, 관련 기업에서는 이와 같은 변화에 효율적으로 대처하기 위해, 텍스트 기반의 상담시스템에 대한 다양한 연구 및 투자를 하고 있다. 특히, 입력된 질의에 대해서 자동 답변하는 챗봇(ChatBot)이 주목받고 있으나, 낮은 답변 정확도로 인해 실제 응용에는 어려움을 겪고 있다. 이에 본 논문에서는 상담원이 중심이 되는 텍스트 기반의 상담시스템에서 상담원이 보다 쉽게 답변을 수행할 수 있도록 자동으로 답변을 추천해주는 자동답변추천 시스템을 제안한다. 실험에서는 기존 질의응답 시스템 구축에 주로 사용되는 문장유사도 알고리즘과 더불어 합성곱신경망을 이용한 자동답변추천 기법의 답변추천 성능을 비교한다. 실험 결과, 문장유사도 기반의 답변추천 기법보다 본 논문에서 제안한 합성곱신경망(Convolutional Neural Networks) 기반의 답변추천시스템이 더 뛰어난 답변추천 성능을 나타냄을 보였다.

  • PDF

Hypertext Networks Restructure using User Browsing Behaviors on WWW (웹 상에서 사용자 브라우징 행위를 이용한 하이퍼텍스트 네트워크 재구성)

  • 백영태;이세훈
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.11
    • /
    • pp.1365-1372
    • /
    • 2001
  • We have suggested three learning rules and implemented an experimental system that automatically restructures hypertext networks according to their user browsing behavior. The system applies link weights to the hypertext networks and updates these weights according to the learning rules. The learning rules are based on how often a particular hyperlink is being traversed and operate on strictly local information of link traversals. Changes in network structure are fed back to users by dynamic link ordering according to descending link weight. This approach is used collaborative filtering and navigation support techniques. The system has been investigation to be able to structure random hypertext networks into valid representations of their user browsing preferences in experiments.

  • PDF

Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data (RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로)

  • Ha, Ji-Eun;Shin, Hyun-Chul;Lee, Zoon-Ky
    • The Journal of Bigdata
    • /
    • v.2 no.2
    • /
    • pp.95-104
    • /
    • 2017
  • In 2014, Seoul Metropolitan Government launched a response service aimed at responding promptly to civil complaints. The complaints received are categorized based on their content and sent to the department in charge. If this part can be automated, the time and labor costs will be reduced. In this study, we collected 17,700 cases of complaints for 7 years from June 1, 2010 to May 31, 2017. We compared the XGBoost with RandomForest and confirmed the suitability of Korean text classification. As a result, the accuracy of XGBoost compared to RandomForest is generally high. The accuracy of RandomForest was unstable after upsampling and downsampling using the same sample, while XGBoost showed stable overall accuracy.

  • PDF

Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents (Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화)

  • Chang, Jeong-Ho;Eom, Jae-Hong;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

Construction of Full-text Database by SGML (문서기술언어 SGML에 의한 전문 데이터베이스의 구축)

  • Kim, Chang-Bong
    • Journal of Information Management
    • /
    • v.27 no.4
    • /
    • pp.35-56
    • /
    • 1996
  • SGML(Standard Generalized Markup Language) and its application to full-text database including a table, a figure and a picture are explained. A structure of SGML based full-text database Is defined by DTD(document type definition) written in SGML, and full-text itself is described with generalized markup depending on DTD. This article explains how to represent a document structure : a hierarchical structure like a chapter, a section, or a paragraph, or non-hierarchical(referencial) structure like a note, a table, a figure or a picture. Merits of SGML, electronic publishing, a retrieval system or hypertext and SGML tools are also described.

  • PDF

A Hypertext Categorization Model Exploiting Link and Incrementally Available Category Information (점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델)

  • Oh, Hyo-Jung;Lim, Jeong-Mook;Lee, Mann-Ho;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.89-96
    • /
    • 1999
  • 본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 하이퍼링크는 문서간의 관계를 나타내는 유용한 정보로서 링크를 통해 연결된 두 문서는 내용적으로 관련이 있어 검색에 도움을 준다는 것은 이미 밝혀진바 있다. 본 논문에서는 이러한 과거 연구를 바탕으로 새로운 문서 분류 모델을 제안하는데, 이 모델의 주안점은 대상 문서와 링크로 연결된 이웃 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 문서의 범주를 결정한다. 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이 모델은 이웃한 문서의 범주가 미리 할당되어 있지 않은 경우 용어 기반 분류 방법으로 가용 범주를 할당하고, 이렇게 할당된 분류 정보가 다시 새로운 문서의 범주를 결정할 때 사용됨으로써, 문서 집합 전체의 분류가 점진적으로 이루어지며 그 정확도를 더해 나가는 효과를 가져올 수 있다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRI-Kyemong) 자료를 대상으로 실험한 결과 18.5%의 성능 향상을 얻었다.

  • PDF

Application of Text Mining for Legal Information System: Focusing on Defamation Precedent (법률정보시스템을 위한 텍스트 마이닝 적용 방안 - 명예 훼손 판례를 대상으로 -)

  • Kim, Yong Hwan
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.54 no.1
    • /
    • pp.387-409
    • /
    • 2020
  • Precedents are data containing various types of information. In this study, I proposed a method to be utilized as legal information system for the public using automatic text analysis performed on precedents. It is carried out to analyze the defamation precedent using reference provision, judgment issues, major points of judgment, and reference precedents. As a result of the analysis, legal provisions used in defamation, key issues covered by defamation, and key cases are extracted. Although only applied to the Supreme Court case regarding defamation, the proposed methodology could be applied to various legal topics.

Performance Evaluations of Text Ranking Algorithms

  • Kim, Myung-Hwi;Jang, Beakcheol
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.2
    • /
    • pp.123-131
    • /
    • 2020
  • The text ranking algorithm is a representative method for keyword extraction, and its importance is emphasized highly. In this paper, we compare the performance of recent research and experiments with TF-IDF, SMART, INQUERY and CCA algorithms, which are used in text ranking algorithm.. After explaining each algorithm, we compare the performance of each algorithm based on the data collected from news and Twitter. Experimental results show that all of four algorithms can extract specific words from news data equally. However, in the case of Twitter, CCA has the best performance to extract specific words, and INQUERY shows the worst performance. We also analyze the accuracy of the algorithm through six comparison metrics. The experimental results present that CCA shows the best accuracy in the news data. In case of Twitter, TF-IDF and CCA show similar performance and demonstrate good performance.