통합 검색 | Korea Science

이상탐지(Anomaly Detection) 및 오용탐지(Misuse Detection) 분석의 정확도 향상을 위한 개선된 데이터마이닝 방법 연구 (Reinforcement Mining Method for Anomaly Detection and Misuse Detection using Post-processing and Training Method)

최윤정;박승수
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
- /
- pp.238-240
- /
- 2006
네트워크상에서 발생하는 다양한 형태의 대량의 데이터를 정확하고 효율적으로 분석하기 위해 설계되고 있는 마이닝 시스템들은 목표지향적으로 훈련데이터들을 어떻게 구축하여 다룰 것인지에 대한 문제보다는 대부분 얼마나 많은 데이터 마이닝 기법을 지원하고 이를 적용할 수 있는지 등의 기법에 초점을 두고 있다. 따라서, 점점 더 에이전트화, 분산화, 자동화 및 은닉화 되는 최근의 보안공격기법을 정확하게 탐지하기 위한 방법은 미흡한 실정이다. 본 연구에서는 유비쿼터스 환경 내에서 발생 가능한 문제 중 복잡하고 지능화된 침입패턴의 탐지를 위해 데이터 마이닝 기법과 결함허용방법을 이용하는 개선된 학습알고리즘과 후처리 방법에 의한 RTPID(Refinement Training and Post-processing for Intrusion Detection)시스템을 제안한다. 본 논문에서의 RTPID 시스템은 active learning과 post-processing을 이용하여, 네트워크 내에서 발생 가능한 침입형태들을 정확하고 효율적으로 다루어 분석하고 있다. 이는 기법에만 초점을 맞춘 기존의 데이터마이닝 분석을 개선하고 있으며, 특히 제안된 분석 프로세스를 진행하는 동안 능동학습방법의 장점을 수용하여 학습효과는 높이며 비용을 감소시킬 수 있는 자가학습방법(self learning)방법의 효과를 기대할 수 있다. 이는 관리자의 개입을 최소화하는 학습방법이면서 동시에 False Positive와 False Negative 의 오류를 매우 효율적으로 개선하는 방법으로 기대된다. 본 논문의 제안방법은 분석도구나 시스템에 의존하지 않기 때문에, 유사한 문제를 안고 있는 여러 분야의 네트웍 환경에 적용될 수 있다.더욱 높은성능을 가짐을 알 수 있다.의 각 노드의 전력이 위험할 때 에러 패킷을 발생하는 기법을 추가하였다. NS-2 시뮬레이터를 이용하여 실험을 한 결과, 제안한 기법이 AOMDV에 비해 경로 탐색 횟수가 최대 36.57% 까지 감소되었음을 알 수 있었다.의 작용보다 더 강력함을 시사하고 있다.TEX>로 최고값을 나타내었으며 그 후 감소하여 담금 10일에는 $1.61{\sim}2.34%$였다. 시험구간에는 KKR, SKR이 비교적 높은 값을 나타내었다. 무기질 함량은 발효기간이 경과할수록 증하였고 Ca는 $2.95{\sim}36.76$, Cu는 $0.01{\sim}0.14$, Fe는 $0.71{\sim}3.23$, K는 $110.89{\sim}517.33$, Mg는 $34.78{\sim}122.40$, Mn은 $0.56{\sim}5.98$, Na는 $0.19{\sim}14.36$, Zn은 $0.90{\sim}5.71ppm$을 나타내었으며, 시험구별로 보면 WNR, BNR구가 Na만 제외한 다른 무기성분 함량이 가장 높았다.O to reduce I/O cost by reusing data already present in the memory of other nodes. Finally, chunking and on-line compression mechanisms are included in both models. We demonstrate that we can obtain significantly high-performanc
PDF

토핑 모델링을 활용한 동해안 관광의 변화 분석 (The Analysis of Changes in East Coast Tourism using Topic Modeling)

정은희
- 한국정보전자통신기술학회논문지
- /
- 제13권6호
- /
- pp.489-495
- /
- 2020
4차혁명이 진행되고 있는 초연결사회에선 다양한 IT기기를 통해 데이터량이 증가하고 있고, 이렇게 생산된 데이터를 분석하여 새로운 가치를 창출 할 수 있다. 본 연구에서는 빅카인즈에서 2017년부터 2019년까지 중앙지, 경제지, 지역조합지, 주요방송사 등에서 "(동해안 관광 또는 동해안 여행) 그리고 강원도"라는 키워드로 기사를 총 1,526건을 수집하였다. 수집된 1,526건의 기사를 분석하기 위해 R언어로 구현된 LDA 알고리즘을 이용하여 토픽 모델링을 수행하였다. 2017년부터 2019년까지 각각의 년도별 키워드를 추출하고, 각 년도별로 빈도수가 높은 키워드를 분류하여 비교하였다. Log Likelihood와 Perplexity를 이용하여 최적의 토픽 수를 8로 설정한 후, 깁스 샘플링 방법으로 8가지의 토픽을 추론하였다. 추론된 토픽들은 강릉과 해변, 고성과 금강산, KTX와 동해북부선, 주말바다여행, 속초와 통일전망대, 양양과 서핑, 체험관광, 교통망 인프라이다. 추론된 8개의 토픽의 비중을 이용해 동해안 관광에 대한 기사들의 변화를 분석하였다. 그 결과, 통일전망대와 금강산의 비중은 큰 변화가 없는 것으로 나타났고, KTX와 체험관광의 비중은 증가하였고, 그 외의 토픽들의 비중은 2017년에 비해 2018년에 감소하였다. 2019년에는 KTX와 체험관광의 비중은 감소하였으나, 나머지 토픽들의 비중은 큰 변화가 없는 것으로 나타났다.
https://doi.org/10.17661/jkiiect.2020.13.6.489 인용 PDF KSCI

CHAID분석을 이용한 나들목 주변 지가의 공간분포 영향모형 개발 - 서울외곽순환고속도로를 중심으로 - (Development of Selection Model of Interchange Influence Area in Seoul Belt Expressway Using Chi-square Automatic Interaction Detection (CHAID))

김태호;박제진;김영일;노정현
- 대한토목학회논문집
- /
- 제29권6D호
- /
- pp.711-717
- /
- 2009
본 연구는 고속도로 나들목의 접근성이 주변 아파트 지가형성에 미치는 영향 관계를 규명하기 위해서 서울외곽순환고속도로를 중심으로 분석하였다. 분석을 위해서는 데이터마이닝(CHAID분석), 추세선 분석(Trend Analysis) 등을 활용하여 고속도로의 나들목(IC) 주변 아파트가격과 관련된 지가경사 모형을 개발하였다. 분석결과, 첫째, 고속도로 나들목이 위치한 지역별(외측 : 경기도, 내측 : 서울시)로 아파트 가격에 차이가 있으며, 일반적인 주택가격과 교통결절점이 가지는 선형 관계가 아닌 비선형적 관계(2차 다항식)를 가지는 것으로 나타났다. 둘째, CHAID분석을 이용한 공간분포 검토 결과, 외측지역(경기도)의 경우 2.6km를 전후하여 2개의 상이한 공간분포를 가지며, 내측지역(서울시)의 경우 1.4km와 3.8km를 전후하여 3개의 상이한 공간분포를 가지는 것으로 나타났다. 이는 아파트 가격이 도로결절점(고속도로 나들목)으로부터 첫 번째 임계점까지 는 점차 상승하다가 일정거리 이후부터 서서히 감소하는 복합적인 공간분포를 가지는 것으로 나타나 교통접근성이 좋다고 하여 주택가격이 높지만은 않으며, 주거환경(고속도로 소음, 지역단절 등)과 교통접근성간의 상호 교환 작용(Trade Off Effect)에 의한 현상이라 할 수 있다. 향후 본 연구의 고속도로 나들목 주택가격 영향모형을 이용하여 고속도로 주변에 지속적으로 건설되고 있는 신도시 주택가격 산정에 활용이 가능할 것으로 판단된다.
https://doi.org/10.12652/Ksce.2009.29.6D.711 인용 PDF

고창군 명사십리 조간대 표층 퇴적물의 계절 변화 (Seasonal Variation of Surface Sediments in the Myeongsasipri Tidal Flat, Gochanggun, SW Korea)

소광석;양우헌;권이균
- 한국해양학회지:바다
- /
- 제14권3호
- /
- pp.181-188
- /
- 2009
한반도서남해안의 고창군 명사십리 대조차조간대에서 계절에 따른 퇴적물 조직과 퇴적 환경 변화를 연구하였다. 표층 퇴적물은 연구지역 3개 측선(각 측선 당 15개) 45지점에서 겨울철(2월), 여름철(8월)에 채취하였다. 개방형 명사십리의 표층 퇴적물은 세립사와 중립사가 우세하며 해안선과 평행한 띠 모양으로 분포한다. 입도 분포 곡선은 복모드 분포를 보이며, 겨울철 조간대의 입도분포가 여름철에 비하여 조립하다. 겨울철에 중립사가 상부 조간대에 집중되고 세립사가 하부 조간대에 집중된다. 이는 겨울철 동안 조석작용보다 파랑 에너지가 크게 작용함을 의미한다. 겨울철과 비교하여 여름철에 상대적으로 세립한 평균입도와 조직변수들 간의 상관관계는 여름철에 조석 에너지의 영향이 상대적으로 크게 작용한다는 것을 의미한다. 명사십리 조간대에 대한 연구는 퇴적환경이 해안으로 불어오는 바람과 파랑 강도의 계절별 변화로 겨울철 파랑-우세 환경에서 여름철 조석-우세 환경으로 변화한다는 것을 보여준다.
https://doi.org/10.7850/jkso.2009.14.3.181 인용 PDF KSCI

직원을 위한 내부마케팅이 기업의 시가 총액 변동률에 미치는 영향 분석: 잡플래닛 기업 리뷰를 중심으로 (An Analysis of the Internal Marketing Impact on the Market Capitalization Fluctuation Rate based on the Online Company Reviews from Jobplanet)

최기철;이상용
- 경영정보학연구
- /
- 제20권2호
- /
- pp.39-62
- /
- 2018
컴퓨터 연산능력의 향상과 데이터를 수집하고 가공해 분석이 가능하도록 데이터를 정형화 시키는 기술이 발달함에 따라, 소셜미디어 및 인터넷 공간에서 생산되는 다양한 텍스트 데이터를 수집하고 그것을 분석하는 시도가 늘고 있다. 본 연구는 이와 같은 기술의 발전과 새롭게 시도되고 있는 분석법을 활용해 텍스트 데이터를 분석하여 과거에 설문조사 방법을 통해 확인했던 "내부마케팅"의 효과를 기존과는 다른 방식으로 확인해 보고자 하였다. 이와 같은 분석을 위해, 전/현직자들이 해당 기업의 구직자들에게 기업의 리뷰를 제공하는 플랫폼 잡플래닛(www.jobplanet.co.kr)의 리뷰 데이터를 웹크롤러를 생성하여 약 4만 건을 수집하였다. 또한 수집된 비정형 데이터를 정형화하기 위한 형태소 분석을 진행하여 명사만을 추출한 후, 미리 생성해 놓은 단어주머니에 들어있는 단어와 같을 경우 그 숫자를 세어 분류화를 진행하였다. 분류화된 내부마케팅 영역별 단어 수의 변화를 독립변수로, 시가총액 변동률을 종속변수로 활용하여, 내부마케팅과 시가총액간의 관계를 확인하고자 하였다. 그 결과, 대부분의 기존 연구와는 다르게 내부마케팅의 효과는 제한적인 영역에서만 기업의 성과에 긍정적인 영향을 미치며 대부분의 환경에서는 음의 영향을 미치는 것으로 나타났다. 산업군으로 나누었을 때, 제조업에서는 여성지원과 교육 훈련 부문에서 기업성과에 긍정의 영향을 미치는 것으로 나타났으나, 유통업에서는 직원 복지, 일-가정 양립 그리고 바이오/제약 업종에서는 직원 복지, 일-가정 양립, 사내 커뮤니케이션 그리고 보상 부문에서 모두 기업성과에 음의 영향을 미치는 것으로 나타났다. 또한 기업의 규모가 크고 역사가 오래된 기업에서는 직원 복지가 기업성과에 악영향을 미치는 것으로 나타났으나, 교육 훈련 부문에서는 종속변수에 긍정적 영향을 미치는 것을 확인할 수 있었으며, 기업의 규모가 작고 역사가 짧은 기업에서는 직원 복지, 사내 커뮤니케이션 그리고 일-가정 양립에서 종속변수와 음의 관계를, 여성지원 에서는 종속변수와 양의 관계를 갖는 것으로 나타났다. 본 연구는 이러한 결과들을 분석하여 이론적 의미뿐만 아니라, 실무적 함의를 제시하고자 하였다.
https://doi.org/10.14329/isr.2018.20.2.039 인용 PDF

고해상탄성파탐사자료에 의한 한국남동대륙붕의 퇴적사 및 조구조운동 (Sedimentary History and Tectonics in the Southeastern Continental Shelf of Korea based on High Resolution Shallow Seismic Data.)

민건홍;박용안
- 한국석유지질학회지
- /
- 제5권1_2호
- /
- pp.1-8
- /
- 1997
한국남동해 대륙붕에서 획득된 고해상탄성파탐사자료의 탄성파층서적 해석에 의하면 본 연구해역의 퇴적층은 서로 다른 4개의 퇴적층, 즉 하부로부터 퇴적층 D,퇴적층 C,퇴적층 B 및 퇴적층 A로 구성된다. 양산단층 연장부의 서쪽에 발달하는 퇴적층 D는 분지가 침강함에 따라 천해환경에서 퇴적된 것이나, 동쪽에 발달하는 것은 사면전면 충진형태로 형성되었다. 퇴적과 동시에 경동조구조운동이 일어나 육지쪽에 발달하는 사면전면 충진 퇴적층은 침식되어 인접한 사면에 퇴적되었다. 이 조구조운동은 울릉분지의 닫힘과 수반되어 일어난 것으로 보인다. 양산단층 연장부의 서쪽에 발달하는 퇴적층 C는 저해수면 하성퇴적물, 해침퇴적물, 그리고 고해수면 해성퇴적물이 겹쳐 쌓여서 형성된 것으로 추측된다. 동쪽에 발달하고 있는 퇴적층 C는 대륙붕단에서 퇴적된 것으로 해석되며, 이러한 작용으로 대륙붕단 외해로 전진하게 되었다. 퇴적층 C가 형성되는 동안에도 경동조구조운동은 계속되었으나, 퇴적층 D가 형성되는 동안에 있었던 것보다는 약하였다. 퇴적층 B가 형성되기 시작하면서 경동조구조운동은 멈추고, 선근원에서 점근원의 퇴적이 일어나기 시작하였다. 연구지역에 발달하는 본 퇴적층은 고해수면퇴적계, 저해수면퇴적계 그리고 해침퇴적계로 구분된다. 고해수면퇴적계는 욕지도주위에 부분적으로 보존되어 있으며, 저해수면퇴적계는 대한해곡에 비교적 잘 발달되어 있다. 해침퇴적계는 욕지도 및 거제도 남쪽앞 바다에 잘 보존되어 있다. 경동조구조운동이 멈추면서, 울릉분지의 닫힘작용에 의한 압축력은 주향단층들에 의해 해소되는 것으로 보인다./투스칼루사(Tuscaloosa) 사암층, 테일러(Taylor) 나바로(Navarro) 사암층과 오스틴(Austin) 백악 및 탄산염암층이 있다. 이 저류암층에 탄화수소를 공급했던 근원암층으로는 경사방향 하부의 셰일층이, 그리고 덮개암층은 경사방향 상부의 계일층이 그 역할을 담당했던 것으로 해석된다. 뗘악기 하부와 상부 퇴적층의 주요 트랩(trap)으로는 완만한 기둥형(pillow)으로부터 복잡한 다이아피어(diapir) 형태의 암염층 관련 배사구조와 하단 단층블록위에 놓여 있으며 롤오버(rollover) 배사구조를 갖는 성장단층이 있다. 투수 장애(permeability barrier), 상부 경사방향으로 첨멸하는 사암체(up-dip pinch-out sand body깥 침식부정합면(unconformity truncation)도. 걸프만 석유부존에 중요한 역할을 한 트랩들이다. 백악기의 주요한 저류암층들은 범세계 해수면곡선의 하강시기와 잘 일치하고 있는데 이는 백악기동안 형성된 걸프만의 퇴적층서가 범세계 해수면곡선을 전반적으로 잘 반영하고 있음을 의미한다. 즉 퇴적작용을 주로 지배하는 세 즌요 변수인 지구조적인 분지의 침강운동,퇴적물의 공급,해수면 변동오그÷중에서 해수면 변동요소가 이 시기동안 가장 중요한 역할을 했음을 의미한다.
PDF

키르키스스탄 촌아슈 지역 화강섬록암질암 및 사질원 퇴적암의 지화학적 특징 (Geochemical Characteristics of Granodiorite and Arenaceous Sedimentary Rocks in Chon-Ashuu Area, Kyrgyzstan)

김수영;지세정;박성원
- 자원환경지질
- /
- 제44권4호
- /
- pp.273-288
- /
- 2011
연구지역의 조구조 위치는 북부 천산지괴 남단의 이식쿨 미세지각 연변부 봉합선 북부에 위치한다. 지구조적으로는 카지흐 만곡조산대에 속한다. 암층은 알타이드 조산복합대 이전의 대륙지각이나 대륙호 및 화산호에 발달되는 고 지각 (Paleo- continent) 조각들과 지각 퇴적물의 부가복합체(Accretionary complex)등으로 구성되어 있다. 이들은 대부분 후기 원생대 및 고생대층으로 구성되어 있다. 중앙아시아 조산대의 마그마 활동은 고 생대 초부터 화강암류가 관입하기 시작하여 고기-테티스 해양(Paleo-Tethys ocean)의 소멸과 함께 시베리아 지괴 (Siberia- Kazakhstan 미세대륙)와 타림-북중국 지괴의 대륙 충돌기(期)인 후기 데본기에서 전기 석탄가까지의 기간 동안 가장 활발하게 진행되었다. 이 기간에 키르기즈스탄의 광화작용이 집중적으로 일어났는데 주로 조산운동과 관련된 금광화작용(Orogenic gold deposit)과 섭입작용과 관련된 반암 동광화작용 및 스카론 광화작용이다. 촌아슈에 분포하는 화강암류의 암석지화학 특징은 전술한 섭입작용과 관련된 도호(Island arc)나 화산호(Volcanic arc)의 화학적 특정을 갖는 영역에 해당한다. 이들은 대부분 과알루미나(per -aluminous) 내지 메타알루미나(metaluminous) 계열의 암체들로서 동시 혹은 후 충돌 마그마호에서 유래된 특정을 보이고 있다. 촌아슈 광구지역의 지질은 캠브리아기에서 오도뷔스기의 해양 분지에서 형성된 육성 화산퇴적물로 구성된 Sokolot suite, Ashuairyk suite 층과 석회석， 이질암 등으로 구성된 캠브리아기의 Turgenaksuu suite 및 오도뷔스기의 Tashtambektan suite로 형성되었다. Pangea 육괴와 Angarida 대륙 충돌 단계인 중기 고생대에는 내해(內海) 퇴적층인 석탄기의 투룩층군(Turuk Stratum)이 형성되었다. 사암과 이질암은 해양 도호(島弧)나 활동성 대륙 연변부 환경에서 퇴적된 층으로 분류된다. 이 지역의 동 광화대 모암이 되고 있는 관입암체로는 석영섬록암-몬조섬록암-섬록암과 토날라이트-화강섬록암 계열의 암석이 있다. 촌아슈 광구에는 주로 적철석으로 되어 있는 철산화대가 광범위하게 발달하고 있다. 이 철산화대는 타쉬탐백토르스크 섬록암 복합체와 상부 리피안기와 캠브리아기의 변성 및 퇴적암 층군의 NE와 NW의 공액구조나 산포상으로 분포한다. 동 광화작용은 철 광화작용 이후 섬록암의 카리 변질작용과 규화작용 및 탄산염화 작용을 수반하면서 전기 타쉬탐백토르스크 섬록암 복합체 및 상부 리피안기와 캠브리아기의 변성 및 퇴적암 층군에 망상 또는 산포상의 열수 세맥군으로 배태된다.
https://doi.org/10.9719/EEG.2011.44.4.273 인용 PDF KSCI

탄자니아산 루비의 열처리에 의한 보석·광물학적 품질개선 연구 (A Mineralogical and Gemological Studies for the Enhancement of Tanzania Ruby by Heat Treatment)

김선옥;왕수균;오설미;박희율;박맹언
- 자원환경지질
- /
- 제47권6호
- /
- pp.563-569
- /
- 2014
루비는 유색보석 중에서 가장 선호도가 높은 보석인 동시에 열처리에 의해 부가가치를 높일 수 있어 학문적인 연구 대상으로서도 그 관심이 높다. 세계적으로 많은 지역에서 루비가 산출되고 있음에도 불구하고, 고품질의 천연 루비는 미얀마, 스리랑카, 태국, 탄자니아 등 일부 제한된 국가에서만 산출되며, 오랜 기간 채광으로 인해 고품질의 원석이 고갈되어가고 있는 실정이다. 이 연구에서는 최근 새로운 산지가 확인되어 관심이 높은 탄자니아산 루비 원석을 사용하여 전통적인 단순 열처리방법과 화학적 열처리 방법에 의한 광물학적 및 보석학적 특성을 파악하고, 열처리에 의한 탄자니아산 루비의 품질개선 효과를 검토하였다. 미얀마의 Mogok산과 Mong Hsu산 루비에 효과적인 방법으로 알려진 전통적인 단순 열처리 실험은 T=$1,600^{\circ}C$에서 6시간 동안 실시하였다. 그 결과, 비교적 균일한 암적색을 지닌 탄자니아산 루비의 색상과 투명도는 색채 색차계와 자외선-가시광선 분광분석(UV-Vis Spectrometry) 결과, CIE 1931 color space 상의 적색과 청색의 좌표값(X, Y)이 원시료 (0.365, 0.321) 및 (0.346, 0.363)에서 (0.337, 0.322)로 감소함이 확인되어, 전통적인 단순 열처리 방법이 탄자니아산 루비의 품질개선에 적합하지 않은 것으로 판단되었다. 단순 열처리를 수행한 탄자니아산 루비의 X-선형광분석(XRF) 결과, 루비의 적색을 발현 시키는 $Cr^{3+}$함량이 0.72~1.04 wt.%로 증가 되었으나, 갈색의 보조색상을 발현시키는 Fe의 함량이 함께 증가되어 순수한 적색이 아닌 어두운 적색을 띄는 것으로 확인되었다. 이러한 결과는 단순 열처리에 의해 루비에 함유되어 있는 $Fe_2O_3$의 응집현상으로 어두운 색으로 변한 것이라 판단된다. 또한 열처리에 의해 $SiO_2$의 함량이 특징적으로 높게 나타났는데, 이는 열처리 과정동안 용융되었다가 다시 재결정화 되면서 생기는 현상으로 투명도의 개선에 효과적이지 않음을 알 수 있었다. 탄자니아산 루비 중 표면에 균열이 있는 시료를 선별하여 납(Pb)을 주성분으로 하는 화학적 첨가제를 사용한 열처리 실험 결과, 색상 뿐 만아니라, 투명도가 현저하게 개선되었다. CIE 1931 color space 상의 적색과 청색의 좌표값이 원시료 (0.386, 0.304) 및 (0.395, 0.313)에서 (0.405, 0.308)로 적색영역에 도시되었다. 이는 첨가제가 열처리 과정동안 용융되어 루비의 균열부분을 채워준 것으로 확대경으로도 관찰이 가능하다. 또한 루비의 표면과 균열부분에 대한 전자현미분석(EPMA)의 선분석(line scanning)에 의해서도 확인되었다. 이 첨가제는 균열부분을 충진함으로써 내구성과 투명도가 개선되었다. 첨가제의 용융체는 루비와 굴절률이 매우 비슷하기 때문에 입사된 빛이 루비 내부로 더 쉽게 통과하여 전반적으로 색상이 향상된 것으로 판단된다. 이 연구에서 화학적 열처리가 탄자니아산 루비의 품질향상에 적합한 방법임을 확인할 수 있었으며, 사파이어 등 강옥군 광물의 유색보석에 대한 색과 투명도 개선에 매우 유용할 것으로 생각된다.
https://doi.org/10.9719/EEG.2014.47.6.563 인용 PDF KSCI

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

조원진;노상규;윤지영;박진수
- Asia pacific journal of information systems
- /
- 제21권1호
- /
- pp.103-122
- /
- 2011
Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.
PDF KSCI

검색결과 129건 처리시간 0.03초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)