• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.03 seconds

트리즈 기법을 활용한 인터넷 웹 페이지의 프린터 인쇄에 따른 광고 Filtering 방법에 관한 연구

  • Baek, Jong-Geun;Kim, Ho-Jong
    • Proceedings of the Korean Society Of Semiconductor Equipment Technology
    • /
    • 2007.06a
    • /
    • pp.287-292
    • /
    • 2007
  • 네이버, 야후 등의 각종 포털 사이트 및 신문, 잡지 등의 매체 사이트의 거의 모든 웹 페이지에 광고가 삽입되어 있다. 물론 구글과 같이 광고를 게재하지 않는 검색 사이트도 있기는 하지만 국내외에서 사용되는 거의 모든 포털 및 매체 사이트는 광고를 게재하여 웹 사이트의 각 페이지마다 표시하고 있다. 그러나, 유저가 어떤 정보를 검색한 후 해당 웹 페이지의 내용을 프린터로 출력할 경우 상기 웹 페이지에 삽입되어 표시되는 광고들도 같이 인쇄되는 문제가 있다. 다시 말해 실제로 유저는 검색 결과인 텍스트 정보와 그것에 관련된 이미지 정보만 인쇄되기를 원하는 경우가 대부분일 것이다. 본 논문에서는 실용트리즈의 6단계창의성을 적용하여 인터넷 웹 페이지 프린터 인쇄에 따른 광고 Filtering 방법을 설명하고 문제해결에 대한 기술적인 평가를 실시하고자 한다.

  • PDF

A Relational Information Extraction System from Biomedical Literature (생의학 문헌에서의 관계 정보 추출 시스템)

  • Lim, Joon-Ho;Lim, Jase-Soo;Jang, Hyun-Chul;Park, Soo-Jun
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.932-937
    • /
    • 2007
  • 생의학 분야 문헌의 양이 빠르게 증가함에 따라, 생의학 연구자들이 필요로 하는 정보를 얻기가 어렵게 되었다. 이를 해결하기 위해, 인간-컴퓨터 상호작용 분야에서는 생의학 문헌 검색 시스템, 또는 생의학 문헌의 정보 추출 시스템 등에 대한 연구가 진행되고 있다. 본 논문에서는 생의학 문헌으로부터 정보를 자동으로 추출하기 위한 관계정보 추출 시스템에 대해 소개한다. 소개하는 시스템은 크게 요약 수집 모듈, 관계 추출 모듈, 관계 가시화 모듈로 구성되어 있다. 우선, 요약 수집 모듈에서는 특정 주제의 문헌들을 검색 및 수집한다. 그리고, 관계 추출 모듈에서는 수집된 문헌들에 대해서, 단백질/유전자 등의 생물학 개체를 인식하고, 구문분석을 통하여 인식된 개체들 사이의 관계를 추출한다. 마지막으로, 관계 가시화 모듈에서는 추출된 관계를 통합하여 네트워크 형태로 가시화한다. 이 시스템은 생물학 실험 이전의 문헌 기반 타당성 검사, 단백질-단백질 상호작용 또는 특정 질병과 유전자의 조절관계 분석, 또는 대용량 문헌 처리를 통한 패스웨이 데이터베이스 구축 등에 활용될 수 있다.

  • PDF

Word Sense Disambiguation for Coarse-grained Medical Corpus (의료 문서의 특성을 고려한 단어 모호성 해소 연구)

  • Song, Sa-Kwang;Jang, Jae-Won;Lim, Myung-Eun;Myaeng, Sung-Hyon;Park, Soo-Jun
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.943-948
    • /
    • 2007
  • 진료 기록 문서(CDA)가 의사들에 의해 작성되기 때문에 많은 전문용어, 약어, 숫자, 기호 등을 포함하고 있다. 본 논문에서는 이러한 특성을 고려하여 문서 내에서 여러 의미로 해석될 수 있는 약어, 중의어 등의 단어 모호성을 해소하고자 의미적 등가 부류를 이용하여 모호성을 해소하였다. 특히 의료문서가 많은 비율의 숫자, 기호를 사용하고 있고 문서 내에서 많은 의미적 유의성을 포함하고 있기 때문에 이들을 불용어로 처리하지 않고 의미적 등가 부류에 포함시킴으로써 진료문서 특성을 반영하였다.

  • PDF

Clustering gene expression data using Non -Negative matrix factorization (Non-negative matrix factorization 을 이용한 마이크로어레이 데이터의 클러스터링)

  • Lee, Min-Young;Cho, Ji-Hoon;Lee, In-Beum
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2004.11a
    • /
    • pp.117-123
    • /
    • 2004
  • 마이크로어레이 (microarray) 기술이 개발된 후로 연관된 유전자 클러스터 (cluster)를 찾는 문제는 깊이 연구되어왔다. 이 문제는 핵심적인 과제 중 하나는 생물학적으로 타당한 클러스터의 수를 결정하는 데 있다. 본 논문은 최적의 클러스터 수를 결정하는 기준을 제시하고, non-negative factorization (NMF)를 이용해 클러스터 centroid의 패턴을 찾는 방법을 제안한다. NMF에 의해 발견된 각각의 패턴은 생물학적 프로세스의 특정 부분으로 해석될 수 있다. NMF는 factor matrix의 entity를 non-negative로 제약 (constraint)하고, 이 제약은 오직 additive combination만 허용하기 때문에 이러한 부분적인 패턴을 찾아낼 수 있다. NMF의 유용성은 이미지 분석과 텍스트 분석에서 이미 입증되어 있다. 본 논문에서 제안한 방법에 의해 위의패턴과 유사한 발현 패턴을 갖는 유전자를 모을 수 있었다. 제안된 방법은 human fibroblast데이터와 yeast cell cycle 데이터에 적용해 성능을 입증하였다.

  • PDF

Automatic Generatio of Korean Pronunciation Variants (TTS 시스템을 위한 한국어 발음열 자동 생성)

  • 차선화
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.413-418
    • /
    • 1998
  • 음성 합성 시스템의 한 모듈로서 한국어 문자열을 음소열로 자동 변환하는 시스템을 구현하였다. 문자열을 음소열로 변환할 때에는 한국어 음운현상에 대한 체계적인 분석 과정이 필요하다. 한국어의 음운 변화 현상은 단일 형태소 내부와 여러 형태소가 결합하여 한 어절을 이루는 경우 그 형태소 경계, 그리고 어절 경계에서 서로 다른 음운규칙이 적용된다. 따라서 언절이나 문장 등의 입력을 음소열로 변환하기 위해서는 형태소 분석, 태깅작업이 반드시 수행되어야 올바른 발음열을 유도할 수 있다. 본 논문에서 제안한 시스템은 한국어의 형태음운현상을 반영하기 위해 형태소 분석을 선행한 후, 한국어에서 빈번하게 발생하는 음운 변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 선택적으로 적용하여 형태소, 어절, 언절 또는 문장 등의 다양한 형태의 입력에 대해 발음열을 생성한다. 기존의 연구에서 분리되어 있던 형태소 태거와 변환시스템을 통합하여 사용자 편의성을 높였으며 텍스트 기반의 형태소 분석기를 사용하기 때문에 원형이 복원되는 형태소들에 대한 처리 루틴을 두어 오류를 감소 시켰다.

  • PDF

A Study on the Text-Independent Speaker Recognition from the Vowel Extraction (모음 검출을 통한 텍스트 독립 화자인식에 관한 연구)

  • 김에녹;복혁규;김형래
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.10
    • /
    • pp.82-91
    • /
    • 1994
  • In this thesis, we perform the experiment of speaker recognition by identifying vowels in the pronounciation of each speaker. In detail, we extract the vowels from the pronounciation of each speaker first. From it, we check the frequency energgy of 29 channels. After changing these into fuzzy values, we employ the fuzzy inference to recognize the speaker by text-dependent and text-independent methods. For this experiment, an algorithm of extracting vowels is developed, and newly introduced parameter is the frequency energy of the 29 channels computed from the extracted vowels. It shows the features of each speakers better than existing parameters. The advanced point of this paramter is to use the reference pattern only without the help of any codebook. As a rewult, test-dependent method showed about 95.5% rate of recognition, and text-independent method showed about 94.2% rate of recognition.

  • PDF

Identification of Characteristics of a Concept through Linguistic Analysis (언어학적 분석을 통한 개념의 특성 정보 인식)

  • Paik, Hae-Seung;Kang, Young-Soo;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.233-238
    • /
    • 2001
  • 개념은 그 개념을 나타내기 위한 특성들이 결합된 지식의 단위이며 각 특성은 개념에 속한 개체들의 성질을 축약한 것으로 정의될 수 있다[4]. 이 논문은 백과사전 설명문 텍스트를 분석하여 개념을 구성하는데 필요한 정보를 몇 개의 대표적인 특성으로 분류하고, 이를 개념의 특성정보로 구축하였으며, 이를 관련 개념 문서에 적용하여 특성 정보를 인식하는 것을 보여준다. 본 연구는 백과사전이 세계 지식(world knowledge) 전반을 함축적으로 표현하고 있다는 가정에서 출발하였으며 적은 양의 데이터에 대한 수동 분석 결과를 통해 많은 양의 코퍼스를 분석한 것과 같은 의미있는 결과를 얻었다. 백과사전에 표현된 많은 개념 중 "질병"에 관하여 실험한 결과 평균 81%의 정확율로 질병의 특성 정보인 원인, 증상, 치료를 자동 인식함을 보여주었다. 개념의 요소 정보 인식은 정보의 이나 질의 응답과 같은 분야에 적용될 수 있다.

  • PDF

Sense tagged Corpus and Definition Information in MRD (의미주석말뭉치와 전자사전의 의미기술정보)

  • Seo, Sang-Kyu;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.252-259
    • /
    • 2001
  • 의미주석말뭉치는, 문맥에 출현하는 각 어휘의 의미를 특정 사전의 세부의미항목(sense)에 대응시켜 주석함으로써 구축한 말뭉치이다. 이 말뭉치 구축에 있어서의 태그셋은, '연세 한국어 전자사전'의 각 의미기술정보를 기호화하여 사용하였다. 사람에 의한 실제 주석 작업 단계에서, 전자사전 정보의 불완전함 때문에 발생한 문제를 해결함으로써 본래의 사전 정보가 대폭 수정되었다. 즉, 의미 주석 과정에서 문제가 되는 요소에 대한 검토를 통해서 품사 정보, 문법 정보 등을 수정하고 기존 sense를 통합, 추가, 재배열함으로써 기존의 사전 정보를 개선할 수 있었다. 이와 같은 말뭉치와 전자사전, 자연언어 처리 시스템의 활발한 상호 작용을 통해서 언어정보처리 분야 연구의 질적 향상이 가능하다. 나아가, 인간이 직접 판단하여 주석한 대규모의 의미주석말뭉치를 분석하여 응용함으로써 텍스트내의 단어와 전자사전의 세부의미항목을 연결시키는 태거를 개발할 수 있을 것이다.

  • PDF

Implementation of A Browser for SGML-based Text Documents (SGML 기반의 텍스트 문서 브라우저의 구현)

  • Jang, Myung-Gil;Lee, He-Ran;Zhoo, Zong-Cheol;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.499-504
    • /
    • 1994
  • 기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.

  • PDF

Query-based User Emotion Prediction (질의 기반 사용자 감정상태 예측)

  • Min, Hye-Jin;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.211-214
    • /
    • 2014
  • 본 연구에서는 질의를 기반으로 사용자의 감정상태를 예측하는 방법을 제안한다. 제안방법은 자극-감정 규칙베이스 구축, 규칙확률 값 기반 질의 랭킹, 질의 랭킹 기반 사용자 감정예측의 단계로 구성된다. 방법의 적절성을 검증하기 위하여 힘들다와 심심하다에 대한 결과로 사용자평가를 실시하였다. 힘들다의 결과에서는 힘들다 정도에 대한 점수가 높은 질의들을 지속적으로 검색하는 사용자들을 힘들다라고 판단할 수 있다고 분석되었다. 심심하다의 결과에서는 방법 간 유의미한 차이를 보이지 않았으나, 특정 개별질의의 지속적인 패턴을 분석하는 것이 좀 더 높은 점수를 얻은 것으로 평가되었다.

  • PDF