Guides: ERICA학술정보관: Dataset 만들기

ProQuest TDM Studio란?
계정 생성 방법
Dataset 만들기
Jupyter Notebook 이용
Visualization
참고자료

Dataset 만들기

로그인을 하게되면 나타나는 랜딩 페이지를 Workbench 대시보드라고 합니다. 연구자는 Workbench 대시보드에서 데이터 집합을 만들 수 있는 데이터셋을 생성할 수 있으며, "Open Juypter Notebook" 버튼을 통해 개발 환경에 접근할 수 있습니다. 데이터셋 생성은 "+Create New Dataset" 드롭다운 메뉴에서, "Select Publication Tilte" or "Select ProQuest Database" 중 하나를 선택하여 실행합니다.

Select Publication Titles : 뉴욕 타임즈, 워싱턴 포스트와 같은 특정 신문, 저널, 매거진, 뉴스 등을 검색하여 데이터셋 구성
Select ProQuest Databases : ProQuest에서 제공하는 데이터베이스(PQDT Global, ProQuest Central 등)를 검색하여 데이터셋 구성

Select Publication Titles로 데이터셋 생성하기

Publication 목록은 학술정보관에서 구독하는 것과 ProQuest가 Text & Data Mining 권리를 획득한 콘텐츠 등 두 종류의 아이템을 기반으로 합니다. 데이터셋을 생성할 특정 출판물이 있다면 검색을 통해 찾을 수 있습니다. 그리고 검색 결과 리스트에서 동일한 출판물이 여러 개 검색될 수 있는데 이때는 Source Type, Subject, Data Range, Full Text 유무 등을 확인한 후 선택하는 것이 좋습니다.(복수선택 가능) 선택을 완료한 후 "Refine Content"를 클릭하여 검색화면으로 이동합니다.

Select ProQuest Database로 데이터셋 생성하기

ProQuest에서 제공하는 데이터베이스 중에서 필요한 것을 선택하여 Dataset을 생성할 수 있습니다. 학위논문 데이터베이스인 ProQuest Dissertations & Theses Global(PQDT Global) 및 뉴스, 신문 데이터베이스 등을 선택할 수 있으며(복수선택 가능), 나머지 과정은 출판물에서 데이터셋을 생성하는 방법과 같습니다.

Refine Content로 검색결과 제한하기

Refine Content단계에서는 연구자가 선택한 출판물 또는 데이터베이스와 검색된 문서의 수를 확인할 수 있습니다. 1개의 데이터셋은 최대 2백만 건의 데이터만 처리할 수 있기때문에 이 단계에서 연구 목적과 일치하는 주제나 단어를 검색하여 검색 결과를 제한합니다. 불리언 연산자를 통해 키워드를 조합하거나, 좌측의 필터(Full text, dates, Source Type, Document Type)를 이용하여 검색 결과를 제한할 수 있습니다.

검색어 입력 Tips

AND / OR / NOT 연산자 및 쌍따옴표(" ") 활용

예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색
예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색
예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색
예) “healthy eating” → 하나의 구문으로 검색

검색 결과 제한 및 분류

Date Published(연월일) 제한 및 Source Type(자료유형), Document Type(문서유형)에 따라 결과를 필터링 하면서 생성된 데이터셋을 확인합니다. 그리고 원하는 데이터셋이 나오면 우측하단의 "Review Dataset"을 클릭하여 데이터셋 생성 프로세스를 시작합니다.

Dataset 등록 및 완료

생성하려고 하는 데이터셋에 대한 요약이 상단에 표시됩니다. 만약 생성된 데이터셋을 수정하고 싶으면 진행 표시 막대에서 "Refine Content"를 클릭합니다. Dataset Details에서 데이터셋의 Name(영문만 가능하며 문자 사이에는 공백(space)이 아닌 "_"(언더바)를 사용해야 합니다)과 Description(한글 입력가능) 입력 후 "Create Dataset" 클릭합니다.

생성된 데이터셋의 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요 될 수 있으며, 최초 데이터셋의 Status는 Queued 상태이고, 데이터처리 완료 후 Complete으로 상태가 자동 변경됩니다.

ERICA학술정보관: Dataset 만들기

ProQuest TDM Studio : 텍스트 데이터 마이닝 솔루션

Table of Contents

Dataset 만들기