• Title/Summary/Keyword: 텍스트 수집

검색결과 704건 처리시간 0.028초

음성 인식 기반 쇼핑 어플리케이션 개발을 위한 데이터 전처리 알고리즘 (Data Preprocessing Algorithm for Developing Voice Recognition-based Shopping Applications)

  • 구연우;박은비;추서연;김유정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.1006-1008
    • /
    • 2022
  • 시각장애인이 이미지로 구성된 온라인 쇼핑몰에서 정보를 얻기 어려운 문제를 해결하기 위해, 본 논문에서는 이미지 텍스트 변환 알고리즘 연구를 진행하였다. 해당 연구를 기반으로 개발한 어플리케이션 <들리네>는 쇼핑몰 홈페이지로부터 정보를 수집하고, 이미지 속 텍스트를 추출하여 전처리 및 음성 변환 과정을 거쳐 사용자에게 제공한다. <들리네>는 사용자가 이미지 정보로 이루어진 온라인 쇼핑몰에서 명확한 정보를 편리하게 얻는 것을 목표로 한다.

대규모 언어 모델 기반 한국어 휴지 예측 연구 (A Study on Korean Pause Prediction based Large Language Model)

  • 나정호;이정;나승훈;정정범;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

텍스트 마이닝을 활용한 '경제안보' 담론 분석 ('Economic Security' Discourse Analysis Using Text Mining)

  • 오정주;임예람;천혜수;박원형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.513-516
    • /
    • 2024
  • 미·중 기술 패권 경쟁이 심화되면서 경제안보는 국가안보의 핵심 요소로 부상하였다. 주요국들은 각국이 도입한 경제안보 개념에 따라 입법과 정책을 추진하고 있다. 그러나 우리나라에서 경제안보 개념은 아직까지 불분명한 상황이다. 이에 본 연구는 국내 뉴스 빅데이터를 통해 경제안보 관련 담론을 파악하여 한국식 경제안보 개념화를 위한 토대를 만드는 것을 목적으로 하였다. 빅카인즈를 통해 경제안보 관련 뉴스 기사를 수집하고 텍스트 마이닝을 활용하여 분석하였다. TF-IDF 분석과 LDA 토픽 모델링이 분석에 활용되었다. 그 결과 세 개의 주요 토픽이 도출되었고, 경제안보의 이중 구조를 확인할 수 있었다. 본 연구는 향후 한국식 경제안보를 개념화하고 그에 대한 전략을 마련하기 위한 기초자료로 활용할 수 있을 것으로 기대한다.

환자의 주관적 증상 텍스트에 대한 진료과목 분류 모델 구축 (Classification Modeling for Predicting Medical Subjects using Patients' Subjective Symptom Text)

  • 이서희;강주영
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.51-62
    • /
    • 2021
  • 의료 인공지능 분야에서 의사의 판단에 도움을 줄 수 있는 질환 예측 및 분류 알고리즘에 대해선 많은 연구가 이뤄져왔지만, 의료 소비자의 정보 획득과 판단에 도움을 줄 수 있는 인공지능에 대해선 상대적으로 관심이 적다. 네이버 지식인에 지난 1년 간 자신의 증상엔 어떤 병원을 가야할 지 질문하는 질문 건수만 해도 15만 건이 넘는다는 사실은 의료소비자들에게 적합한 의료정보의 제공이 필요하다는 반증이기도 하다. 따라서 본 연구에선 의료소비자들이 자신의 증상에 대한 진료과목을 선택하는데 도움을 줄 수 있도록 네이버 지식인에서 환자들이 직접 서술한 증상 텍스트를 수집하여 8개 진료과목을 분류하는 분류모델을 구축했다. 우선 환자의 주관이 개입된 데이터의 타당성과 객관성을 확보하기 위해 객관적 증상 텍스트(서울응급의료 정보센터에서 정리한 진료과목 별 주요 질환 증상)와 주관적 증상 텍스트(지식인 데이터) 간 유사도 측정을 수행하였다. 유사도 측정 결과, 두 텍스트가 동일한 진료과목의 증상일 경우 상이한 진료과목의 증상 텍스트에 비해 상대적으로 높은 유사성을 가진다는 것을 입증했다. 상기 절차를 따라 타당성을 확보한 주관적 증상 텍스트를 대상으로 릿지회귀모델을 사용하여 분류모델을 구축한 결과 0.73의 정확도를 확보할 수 있었다.

Multi-channel CNN 기반 온라인 리뷰 유용성 예측 모델 개발에 관한 연구 (A multi-channel CNN based online review helpfulness prediction model)

  • 이흠철;윤효림;이청용;김재경
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.171-189
    • /
    • 2022
  • 온라인 리뷰는 소비자의 구매 의사결정 과정에서 중요한 역할을 담당하고 있으므로 소비자에게 유용하고 신뢰성이 있는 리뷰를 제공하는 것이 중요하다. 기존의 온라인 리뷰 유용성 예측 관련 연구는 주로 온라인 리뷰의 텍스트와 평점 정보 간의 일관성을 바탕으로 리뷰 유용성을 예측하였다. 그러나 기존 연구는 평점 정보를 스칼라로 표현했기 때문에 표현 수용력이 제한적이거나 평점 정보와 리뷰 텍스트 정보와의 상호작용을 제한적으로 학습하는 한계가 존재한다. 본 연구에서는 기존 연구의 한계점을 보완하기 위해 리뷰 텍스트와 평점 정보 간의 상호작용을 효과적으로 학습할 수 있는 CNN-RHP(CNN based Review Helpfulness Prediction) 모델을 제안하였다. 먼저, 리뷰 텍스트의 의미론적 특성을 추출하기 위해 multi-channel CNN을 적용하였다. 다음으로, 평점 정보는 텍스트 특성과 동일한 차원을 나타내는 독립된 고차원 임베딩 특성 벡터로 변환하였다. 최종적으로 요소별(Element-wise) 연산을 통해 리뷰 텍스트와 평점 정보 간의 일관성을 학습하였다. 본 연구에서는 제안된 CNN-RHP 모델의 성능을 평가하기 위해 Amazom.com에서 수집된 온라인 소비자 리뷰를 사용하였다. 실험 결과, 본 연구에서 제안한 CNN-RHP 모델이 기존 연구에서 제안된 여러 모델과 비교했을 때 우수한 예측 성능을 나타내는 것을 확인하였다. 본 연구의 결과는 온라인 전자상거래 플랫폼에서 소비자들에게 리뷰 유용성 예측 서비스를 제공할 때 유의미한 시사점을 제공할 수 있다.

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

빅데이터 분석을 통한 발명 교육 센터에 대한 사회적 인식 (Social Perception of the Invention Education Center as seen in Big Data)

  • 이은상
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.71-80
    • /
    • 2022
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 발명 교육 센터에 대한 사회적 인식을 확인해 보는 데 있다. 이를 위해 TEXTOM 사이트를 이용하여 네이버와 다음 사이트의 블로그, 카페, 뉴스 채널에서 '발명+교육+센터'를 검색 키워드로 2014년 1월부터 2021년 9월까지의 데이터를 수집하였다. 수집된 데이터는 TEXTOM 사이트에서 정제하였으며, 텍스트 마이닝 분석과 의미 연결망 분석을 위해 TEXTOM 사이트, Ucinet 6, Netdraw 프로그램을 이용하였다. 수집된 데이터는 1차와 2차의 정제 과정을 거쳐 단어빈도를 바탕으로 주요 키워드 60개를 선정하였으며, 선정된 주요 키워드는 매트릭스 데이터로 변환하여 의미 연결망 분석을 실시하였다. 이 연구의 텍스트 마이닝 분석 결과 '학생', '운영', '한국발명진흥회', '특허청' 등이 의미 있는 키워드임을 확인하였다. 의미 연결망 분석 결과 발명 교육 센터와 관련된 '교육 운영', '발명 대회', '교육 과정 및 진행', '사업 모집 및 지원', '주관 및 선정 기관' 등 5개의 군집을 확인할 수 있었다. 이 연구의 결과는 발명 교육 센터에 대한 연구를 수행하는 연구자나 정책 입안자의 학술 연구에 활용될 수 있을 것이다.

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

교사로서의 정체성을 형성해가는 교육실습생에 대한 내러티브 탐구 (Narrative Inquiry on Student Teacher Searching for Identity as a Teacher)

  • 진형란;유태명
    • 한국가정과교육학회지
    • /
    • 제26권1호
    • /
    • pp.81-99
    • /
    • 2014
  • 교육실습은 산란(産卵) 직전의 알이다. 해를 거듭할수록 사범대생에게 교사가 필수가 아니라는 목소리가 증가하고 있다. 그들은 어떤 존재로 부화될 것인가? 닭일까? 오리일까? 나는 55명의 교육실습생이 4주의 교육실습 기간에 교사로 존재 지향점을 찾아가는 과정을 Clandinin과 Connelly(2000)의 내러티브 탐구 방법에 따라 전개하였다. 절차는 현장 들어가기, 현장 텍스트 쓰기, 연구 텍스트 쓰기의 3단계로 이루어졌다. 교육실습생들은 현장에서 관찰한 것과 자극 받은 것 그리고 현장 교사 및 학생들과 인터뷰한 내용을 중심으로 교사로서의 정체성을 찾아가는 주 별 저널을 써 나갔다. 교육실습 카페에서 이루어진 자유롭고 진정성 있는 이야기 220부가 현장 텍스트로 수집되었다. 그리고 연구 텍스트는 각 주별로 탐색, 성장, 반성, 다짐에 대한 시적글쓰기를 통하여 다시 살아내고 다시 이야기하며 내러티브 탐구를 기술해 나갔다. 가정교육과 교육실습생을 비롯한 절대다수의 교육실습생이 교사로서의 삶을 지향하며 부화를 기다리고 있었다.

  • PDF