Skip to Main Content
한양대학교 ERICA 학술정보관 (Hanyang University ERICA Library)

ERICA학술정보관: Dataset 만들기

- 학술정보관 가이드 - 학술정보활용 가이드 - 학습 및 연구 지원

ProQuest TDM Studio : 텍스트 데이터 마이닝 솔루션

 

TDM Studio는 연구, 교육 및 학습을 위한 텍스트 및 데이터 마이닝 솔루션입니다. 수천 개 혹은 수백만 개의 문서를 분석해야 하는 작업은 어떤 사람에게도 불가능한 작업이며, TDM(텍스트 및 데이터 마이닝)이 필요한 영역이기도 합니다. ProQuest의 TDM Studio를 통해 연구자들은 방대한 데이터의 수집, 정리, 분석에 필요한 시간을 절약할 수 있습니다. TDM Studio는 새로운 발견을 위한 다음 두 가지 방법을 지원합니다. TDM Studio Workbench는 자체 코딩 방법을 사용하는 숙련된 연구자를 위해, TDM Studio Visualization은 모든 레벨의 사용자가 신속하게 추세를 파악하고 통찰력을 얻을 수 있도록 설계되었습니다. 

Dataset 만들기

로그인을 하게되면 나타나는 랜딩 페이지를 Workbench 대시보드라고 합니다. 연구자는 Workbench 대시보드에서 데이터 집합을 만들 수 있는 데이터셋을 생성할 수 있으며,  "Open Juypter Notebook" 버튼을 통해 개발 환경에 접근할 수 있습니다. 데이터셋 생성은  "+Create New Dataset" 드롭다운 메뉴에서,  "Select Publication Tilte" or "Select ProQuest Database" 중 하나를 선택하여 실행합니다.

  • Select Publication Titles : 뉴욕 타임즈, 워싱턴 포스트와 같은 특정 신문, 저널, 매거진, 뉴스 등을 검색하여 데이터셋 구성
  • Select ProQuest Databases : ProQuest에서 제공하는 데이터베이스(PQDT Global, ProQuest Central 등)를 검색하여 데이터셋 구성

 

Select Publication Titles로 데이터셋 생성하기

Publication 목록은 학술정보관에서 구독하는 것과 ProQuest가  Text & Data Mining 권리를 획득한 콘텐츠 등 두 종류의 아이템을 기반으로 합니다. 데이터셋을 생성할 특정 출판물이 있다면 검색을 통해 찾을 수 있습니다. 그리고 검색 결과 리스트에서 동일한 출판물이 여러 개 검색될 수 있는데 이때는 Source Type, Subject, Data Range, Full Text 유무 등을 확인한 후 선택하는 것이 좋습니다.(복수선택 가능) 선택을 완료한 후 "Refine Content"를 클릭하여 검색화면으로 이동합니다.

 

Select ProQuest Database로 데이터셋 생성하기

ProQuest에서 제공하는 데이터베이스 중에서 필요한 것을 선택하여 Dataset을 생성할 수 있습니다. 학위논문 데이터베이스인 ProQuest Dissertations & Theses Global(PQDT Global) 및 뉴스, 신문 데이터베이스 등을 선택할 수 있으며(복수선택 가능), 나머지 과정은 출판물에서 데이터셋을 생성하는 방법과 같습니다. 

 

Refine Content로 검색결과 제한하기

Refine Content단계에서는 연구자가 선택한 출판물 또는 데이터베이스와 검색된 문서의 수를 확인할 수 있습니다. 1개의 데이터셋은 최대 2백만 건의 데이터만 처리할 수 있기때문에 이 단계에서 연구 목적과 일치하는 주제나 단어를 검색하여 검색 결과를 제한합니다. 불리언 연산자를 통해 키워드를 조합하거나, 좌측의 필터(Full text, dates, Source Type, Document Type)를 이용하여 검색 결과를 제한할 수 있습니다.

  • 검색어 입력 Tips

           AND / OR / NOT 연산자 및  쌍따옴표(" ") 활용

          예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색
          예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색
          예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색
          예) “healthy eating” → 하나의 구문으로 검색

  • 검색 결과 제한 및 분류

           Date Published(연월일) 제한 및  Source Type(자료유형), Document Type(문서유형)에 따라 결과를 필터링 하면서 생성된 데이터셋을 확인합니다. 그리고 원하는 데이터셋이 나오면 우측하단의 "Review Dataset"을 클릭하여 데이터셋 생성 프로세스를 시작합니다. 

  

 

Dataset 등록 및 완료

생성하려고 하는 데이터셋에 대한 요약이 상단에 표시됩니다. 만약 생성된 데이터셋을 수정하고 싶으면 진행 표시 막대에서 "Refine Content"를 클릭합니다. Dataset Details에서 데이터셋의 Name(영문만 가능하며 문자 사이에는 공백(space)이 아닌 "_"(언더바)를 사용해야 합니다)과 Description(한글 입력가능) 입력 후 "Create Dataset" 클릭합니다.

 

생성된 데이터셋의 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요 될 수 있으며, 최초 데이터셋의 Status는 Queued 상태이고, 데이터처리 완료 후 Complete으로 상태가 자동 변경됩니다.


 

Copyright(C) 2021 HANYANG UNIVERSITY ALL RIGHTS RESERVED.