• 제목/요약/키워드: 말은 기법

검색결과 760건 처리시간 0.021초

위키피디아를 이용한 반자동 학습 기반의 cQA 서비스 주제 분류 시스템 (A Topic Classification System in cQA Services Based on Semi-Automatic Learning Using Wikipedia)

  • 김태현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2015
  • 본 논문은 커뮤니티 기반의 질의-응답 서비스에서 사용자 질의의 주제를 분류하는 시스템을 소개한다. 커뮤니티 기반의 질의-응답 서비스는 분야에 따라 다양한 주제를 가질 수 있으며 오늘 날 사용자 질의의 주제 분류에는 통계 기반의 분류 방법이 많이 이용되고 있다. 통계 기반의 분류 방법으로 사용자 질의를 분류하기 위해서는 주제에 적합한 대량의 학습 말뭉치가 필요하다. 주제에 적합한 대량의 학습 말뭉치를 사람이 직접 구축하는 것은 많은 시간과 비용이 든다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 위키피디아 문서를 Supervised K-means Clustering 기법으로 주제별로 분류함으로써 학습 말뭉치를 반자동으로 구축하는 방법을 제안한다. 그 다음, 생성된 학습 말뭉치로 지지 벡터 기계를 학습하여 사용자 질의의 주제를 분류하게 된다. 위키피디아 문서와 사용자 질의는 다른 도메인의 문서임에도 불구하고 본 논문의 시스템으로 사용자 질의의 주제를 분류한 결과 77.33%의 정확도를 보였다.

  • PDF

합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법 (Semi-automatic Expansion for a Chatting Corpus Based on Similarity Measure Using Utterance Embedding by CNN)

  • 안재현;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2018
  • 채팅 시스템을 잘 만들기 위해서는 양질, 대량의 채팅 말뭉치가 굉장히 중요하지만 구축 시 많은 비용이 발생한다는 어려움이 있었다. 따라서 본 논문에서는 영화 자막, 극대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅쌍이라고 판단하였다. 그리고 길이가 매우 짧은 채팅성 발화의 채팅 유사도를 효과적으로 계산하기 위해 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 실험 결과 기본 발화 단위 표상 생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5.16%p, 6.09%p, 5.73%p 상승하여 61.28%, 53.19%, 56.94%의 성능을 가지는 채팅 말뭉치 반자동 구축 모델을 생성할 수 있었다.

  • PDF

기계학습 기법을 이용한 한국어 구문분석 (Korean Parsing using Machine Learning Techniques)

  • 이용훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.285-288
    • /
    • 2008
  • 최근의 구문분석 연구는 컴퓨터 성능 향상과 사용 가능한 대량의 구문분석 말뭉치 증가, 견고한 기계학습 기법 개발 등에 힘입어 통계적인 모델 연구가 꾸준히 증가하고 있다. 본 논문에서는 기존에 개발된 다양한 기계학습 기법 중 ME(Maximum Entropy) 모델과 SVM(Support vector machine) 모델을 이용한 한국어 구문분석 방법을 제안한다. 국어정보베이스(KIBS) 구문분석 말뭉치를 가지고 실험한 결과 SVM 모델을 이용한 한국어 구문분석기가 기존의 확률 기반 통계적 한국어 구문분석기의 성능보다도 최대 1.84% 높은 87.46%의 의존관계 결정 정확률을 보였다. 추후 언어지식을 반영한 다양한 자질들을 이용할 경우 성능 향상이 기대된다.

  • PDF

한글 말뭉치를 이용한 한글 표절 탐색 모델 개발 (Developing of Text Plagiarism Detection Model using Korean Corpus Data)

  • 류창건;김형준;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.231-235
    • /
    • 2008
  • 최근 들어 각종 창작물에 대한 표절 사건이 빈번하게 발생하고 있다. 특히 문서들 간의 표절은 현재 많은 이슈가 되고 있다. 영어에 관한 표절연구는 서양에서 오래전부터 이뤄져 왔지만 한글은 구조적인 어려움으로 인해 아직 많은 연구가 이뤄지지 않고 있다. 한글은 영어와 구조적인 특징이 많이 다르기 때문에 영어기반의 탐색 기법을 한글 문서에 적용하기는 어렵다. 본 논문에서는 한글의 특성에 맞는 새로운 표절 탐색 기법을 소개하고 한글 말뭉치를 이용하여 그 성능을 실험해본다. 제안된 기법은 "k-mer"와 "지역정렬" 방법을 기반으로, 문서들 간의 표절구간을 매우 빠르고 정확하게 찾아낸다. 또한 우리는 천만어절 이상의 크기를 가진 한글 말뭉치를 이용하여 표절이 일어나지 않은 일반적인 문서에서 우연히 나타나게 될 유사 확률에 관한 모형을 만들었다. 시스템을 이용하여 성능을 측정해 본 결과, 표절 문서를 매우 정확하게 찾는 것을 알 수 있었다.

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현 (Implementation of the Text Abstraction System using the Statistical Information of Korean Documents)

  • 강상배;조혁규;권혁철;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-33
    • /
    • 1997
  • 이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

  • PDF

원거리 감독과 능동 배깅을 이용한 개체명 인식 (Named Entity Recognition Using Distant Supervision and Active Bagging)

  • 이성희;송영길;김학수
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.269-274
    • /
    • 2016
  • 개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

정렬기법을 이용한 미등록 대역어의 자동 추출 (Automatically Extracting Unknown Translations Using Phrase Alignment)

  • 김재훈;양성일
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.231-240
    • /
    • 2007
  • 이 논문은 정렬 기법을 이용한 미등록 대역어 추출 모델을 제안하고 그 추출 시스템을 구현한다. 제안된 미등록 대역어 추출 모델은 일종의 구절정렬 모델로서 경계모델과 언어모델 그리고 번역 모델로 구성된다. 제안된 추출 시스템은 병렬말뭉치 구축, 단어정렬, 미등록어 추출로 구성된다. 이 논문에서는 제안된 시스템을 평가하기 위해서 약 1,500여 개의 미등록어가 포함된 2,200문장의 평가말뭉치를 구축하여 다양한 실험을 수행하였다. 실험을 통해서 제안된 모델이 미등록 대역어 추출에 매우 유용함을 알 수 있었다. 앞으로 좀 더 객관적인 평가를 위해 대량의 평가말뭉치 구축이 선행되어야 하며 좀 더 양질의 병렬말뭉치의 구축이 필요할 것이다. 또한 미등록어 추출 모델을 개선하기 다양한 연구가 추진되어야 할 것이다.

한국 포타쉬 유리구슬의 조성 분류에 따른 특성 비교 (Characteristic Comparison of the Composition Classification on Potash Glass Beads Excavated in Korea)

  • 김나영;김규호
    • 보존과학회지
    • /
    • 제31권3호
    • /
    • pp.255-265
    • /
    • 2015
  • 본 연구에서는 지금까지 자연과학적 분석을 통해 확인된 30개 유적의 281점 포타쉬유리에 대하여 화학 조성에 따라 유형을 분류하고 색상, 크기, 제작 기법 그리고 유통 시기를 비교하였다. 한국의 포타쉬유리는 안정제 함량에 따라 3가지 유형으로 구분된다. I, II형은 CaO와 $Al_2O_3$ 함량이 모두 5% 미만으로 상대적으로 I형은 CaO 함량이 높고 II형은 $Al_2O_3$ 함량이 높다. 이와 달리 III형은 CaO를 5% 이상 포함한다. 이들은 융제를 첨가하기 위해 I, II형이 초석, III형이 식물 재를 원료로 사용한 것으로 추정된다. 유형별 특성에서, I형은 감청색, 벽색 및 청록색, 자색을 띠고 외경이 1.4~7.4mm까지 다양한 크기가 확인된다. 늘인 기법에 의해 제작되었으며 가장 빠른 BC 1C경 출현하여 AD 6C까지 지속적으로 유통된 것으로 나타났다. 반면 II형은 벽색 및 청록색을 띠며, 외경이 1.9~3.6mm 정도의 소형 구슬이다. 제작 기법은 I형과 동일하며 AD 1C경 나타나 4C경 단절되는 양상을 보인다. 마지막으로 III형은 갈색, 무색, 황색을 띠며 외경이 대략 10mm 전후에 달하는 대형 구슬이다. 말은 기법에 의해 성형되었으며 고려 및 조선시대 민묘에서 등장한다. 이상의 결과에서 한국에서 유통된 3가지 유형의 포타쉬유리는 각기 다른 생산지에서 다양한 교역 루트를 통해 유입된 것으로 판단된다.

수직구조 기반의 빈발 이동 객체 패턴 탐색 기법 (A Pattern Retrieval Method of Frequent Moving Objects Using Vertical-Based Framework)

  • 홍성한;황병연
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2005년도 추계학술대회
    • /
    • pp.75-79
    • /
    • 2005
  • 최근에 모바일 기기의 급속한 발전과 더불어 다양한 서비스들이 개발되고 있다. 그 중에서도 위치 기반 서비스는 사용자에게 위치와 관련된 유용한 정보를 제공하는 서비스를 말한다. 효과적인 서비스를 제공하기 위해서는 먼저 위치정보를 나타내는 이동 객체 관련기술 연구가 선행되어야 한다. 이러한 연구의 핵심 기술로 현재 빈발한 이동 객체 탐사를 위한 마이닝 기법들에 관한 연구가 진행되고 있다. 본 연구에서는 기존의 수평적 마이닝 기법에서 문제시되었던 많은 후보 이동 객체 발생을 줄이기 위해 새로운 수직적 마이닝 기법을 적용한 방법을 제안한다.

  • PDF