본문으로 건너뛰기

데이터 출처

PRSinsight 의 모든 데이터는 공개 학술 인덱스에서 약관에 따라 합법적으로 가져옵니다. 출처별 범위·갱신 주기·라이선스를 투명하게 공개합니다.

PubMed (NCBI Entrez E-utilities)

역할: 1차 메타데이터 (제목·저자·저널·연도·MeSH·초록).
API: https://eutils.ncbi.nlm.nih.gov/entrez/eutils/
: NCBI API key 사용 (초당 10회 제한 준수).
갱신: 매주 신규 PMID 자동 수집.
약관: NCBI Policies

PubMed Central (PMC) Open Access Subset

역할: OA 라이선스 논문의 PDF 전문 캐시.
범위: PMC OA 서브셋만 (모든 PMC 가 아님).
약관: PMC Copyright

📖 무료 전문 (OA) 5단계 cascade

저작권 합법 범위 안에서만 무료 전문에 접근하도록 다음 5단계를 매 시간 cron 으로 순차 시도합니다 (Sci-Hub/Libgen 등 미인가 소스는 절대 미포함):

실제 cascade 단계별 누적 OA 수 · 총 15,291편
Unpaywall 15,285 · 100% Europe PMC 6 · 0%
라이선스 분포 15,291편 · text-mining 적합성 기준
🟢 Permissive
7,590편 49.6%
🟡 Non-commercial
1,731편 11.3%
🟠 No-derivatives
3,899편 25.5%
⚪ Unknown
2,071편 13.5%
cc-by 7,448 · 48.7% cc-by-nc-nd 3,888 · 25.4% unknown 2,071 · 13.5% cc-by-nc 1,643 · 10.7% other-oa 92 · 0.6% cc-by-nc-sa 88 · 0.6% cc-by-sa 27 · 0.2% pd 17 · 0.1% cc-by-nd 11 · 0.1% gold-oa 3 · 0% free-access 3 · 0%
  1. PMC EFetch (JATS XML) — pmc_id 가 있는 논문의 본문 추출.
  2. Unpaywall — DOI → best OA location + 라이선스 정규화 (cc-by, cc-by-nc-*, cc0, pd, implied-oa, publisher-free). 폴라이트 풀, mailto 식별.
  3. Europe PMC — Unpaywall 누락 케이스 보강 (search?query=EXT_ID:{pmid}+SRC:MED).
  4. Crossref relation.has-preprint — bioRxiv/medRxiv 매칭 (10.1101/* preferred).
  5. CORE — 기관 리포지터리(self-archive) 보강.

📖 무료 전문 통계 → · 📡 신규 OA RSS · API 엔드포인트

📖 OA cascade FAQ

왜 PMC ID 가 있는데 풀텍스트가 보이지 않나요?

PMC 에 등재되어 있어도 OA 서브셋이 아니거나 (저자가 OA 옵트인 안 함) JATS XML body 가 비어 있는 경우가 있습니다. cascade 가 자동으로 다음 단계 (Unpaywall → EPMC) 로 넘어가며, 모두 실패하면 abstract + 외부 링크만 표시됩니다. /admin/fulltext 에서 재시도 가능 (관리자).

Unpaywall 라이선스가 "implied-oa" 면 안전한가요?

Unpaywall 분류상 출판사 사이트에서 무료 공개되어 있지만 명시적 CC 라이선스가 부재한 경우입니다. PRSinsight 는 이 경우 본문을 캐싱하지 않고 best OA URL 만 표시합니다 — 저작권 안전 마진을 위해.

Europe PMC vs PMC 차이는?

EPMC 는 PMC 의 미러 + 추가 EBI 기관 컨텐츠 (preprint, agricola, NICE 가이드라인 등) 를 포함합니다. cascade 3단계는 PMC ID 가 없는 PMID 를 EPMC 검색으로 보강합니다.

Preprint (bioRxiv/medRxiv) 는 동료심사를 거쳤나요?

아닙니다. preprint_doi 가 노출된 논문은 저자가 게재 전에 OA 로 공개한 원고 버전입니다. 동료심사 통과 버전 (정식 publish) 과 다를 수 있어 paper detail 에 ⚠️ 라벨이 붙습니다.

CORE 는 어떤 단계에서 끼어드나요?

cascade 1-4 단계가 모두 실패한 PMID 에 대해서만 CORE 기관 리포지터리 (self-archive) 를 시도합니다. PRSinsight 는 CORE PDF URL 만 저장하며 본문은 캐싱하지 않습니다 (각 기관 정책 존중).

OpenAlex

역할: Work ID, primary topic, fields_of_study, 저자(ORCID/Author ID/소속), 연도별 인용 수.
API: https://api.openalex.org/ (polite pool — mailto 파라미터 사용)
라이선스: CC0 (Public Domain).
약관: OpenAlex About

Semantic Scholar Graph API

역할: S2 paperId, TLDR (모델 생성 영문 요약), 인용 그래프.
API: https://api.semanticscholar.org/graph/v1 (API key 사용)
속도: tier 1 req/s 누적.
약관: S2 API Terms

NIH iCite

역할: Relative Citation Ratio (RCR), NIH percentile, is_clinical 플래그.
API: https://icite.od.nih.gov/api/
라이선스: U.S. Government Public Domain.
약관: iCite About

PRSinsight 자체 생산물

  • 한글 요약 (summary_ko): LLM (Claude/OpenAI) 으로 영문 초록을 한국 성형외과 임상 컨텍스트에 맞게 번역·요약
  • 도메인 NER 카테고리: 큐레이션된 7종 72카테고리 도메인 사전 + scispaCy 컨셉
  • 트렌드 분석: counts_by_year_json 기반 토픽 모멘텀 / 인용 급상승 점수 산출
  • 지식 그래프 분석: LPA 클러스터, 모듈러리티 Q, God Nodes, Surprises

위 자체 생산물은 CC-BY-4.0 으로 공개되며, 외부 RAG/연구 목적의 자유로운 인용을 허용합니다. 출처: PRSinsight (https://prs-insight.online) 명시 부탁드립니다.

개발자 API 로 데이터 가져가기

크롤링 대신 안정적인 공개 REST API 를 사용해 주세요.