데이터 출처
PRSinsight 의 모든 데이터는 공개 학술 인덱스에서 약관에 따라 합법적으로 가져옵니다. 출처별 범위·갱신 주기·라이선스를 투명하게 공개합니다.
PubMed (NCBI Entrez E-utilities)
역할: 1차 메타데이터 (제목·저자·저널·연도·MeSH·초록).
API: https://eutils.ncbi.nlm.nih.gov/entrez/eutils/
키: NCBI API key 사용 (초당 10회 제한 준수).
갱신: 매주 신규 PMID 자동 수집.
약관: NCBI Policies
PubMed Central (PMC) Open Access Subset
역할: OA 라이선스 논문의 PDF 전문 캐시.
범위: PMC OA 서브셋만 (모든 PMC 가 아님).
약관: PMC Copyright
📖 무료 전문 (OA) 5단계 cascade
저작권 합법 범위 안에서만 무료 전문에 접근하도록 다음 5단계를 매 시간 cron 으로 순차 시도합니다 (Sci-Hub/Libgen 등 미인가 소스는 절대 미포함):
cc-by
7,448 · 48.7%
cc-by-nc-nd
3,888 · 25.4%
unknown
2,071 · 13.5%
cc-by-nc
1,643 · 10.7%
other-oa
92 · 0.6%
cc-by-nc-sa
88 · 0.6%
cc-by-sa
27 · 0.2%
pd
17 · 0.1%
cc-by-nd
11 · 0.1%
gold-oa
3 · 0%
free-access
3 · 0%
- PMC EFetch (JATS XML) — pmc_id 가 있는 논문의 본문 추출.
- Unpaywall — DOI → best OA location + 라이선스 정규화 (cc-by, cc-by-nc-*, cc0, pd, implied-oa, publisher-free). 폴라이트 풀, mailto 식별.
- Europe PMC — Unpaywall 누락 케이스 보강 (search?query=EXT_ID:{pmid}+SRC:MED).
- Crossref relation.has-preprint — bioRxiv/medRxiv 매칭 (10.1101/* preferred).
- CORE — 기관 리포지터리(self-archive) 보강.
📖 무료 전문 통계 → · 📡 신규 OA RSS · API 엔드포인트
📖 OA cascade FAQ
왜 PMC ID 가 있는데 풀텍스트가 보이지 않나요?
PMC 에 등재되어 있어도 OA 서브셋이 아니거나 (저자가 OA 옵트인 안 함) JATS XML body 가 비어 있는 경우가 있습니다. cascade 가 자동으로 다음 단계 (Unpaywall → EPMC) 로 넘어가며, 모두 실패하면 abstract + 외부 링크만 표시됩니다. /admin/fulltext 에서 재시도 가능 (관리자).
Unpaywall 라이선스가 "implied-oa" 면 안전한가요?
Unpaywall 분류상 출판사 사이트에서 무료 공개되어 있지만 명시적 CC 라이선스가 부재한 경우입니다. PRSinsight 는 이 경우 본문을 캐싱하지 않고 best OA URL 만 표시합니다 — 저작권 안전 마진을 위해.
Europe PMC vs PMC 차이는?
EPMC 는 PMC 의 미러 + 추가 EBI 기관 컨텐츠 (preprint, agricola, NICE 가이드라인 등) 를 포함합니다. cascade 3단계는 PMC ID 가 없는 PMID 를 EPMC 검색으로 보강합니다.
Preprint (bioRxiv/medRxiv) 는 동료심사를 거쳤나요?
아닙니다. preprint_doi 가 노출된 논문은 저자가 게재 전에 OA 로 공개한 원고 버전입니다. 동료심사 통과 버전 (정식 publish) 과 다를 수 있어 paper detail 에 ⚠️ 라벨이 붙습니다.
CORE 는 어떤 단계에서 끼어드나요?
cascade 1-4 단계가 모두 실패한 PMID 에 대해서만 CORE 기관 리포지터리 (self-archive) 를 시도합니다. PRSinsight 는 CORE PDF URL 만 저장하며 본문은 캐싱하지 않습니다 (각 기관 정책 존중).
OpenAlex
역할: Work ID, primary topic, fields_of_study, 저자(ORCID/Author ID/소속), 연도별 인용 수.
API: https://api.openalex.org/ (polite pool — mailto 파라미터 사용)
라이선스: CC0 (Public Domain).
약관: OpenAlex About
Semantic Scholar Graph API
역할: S2 paperId, TLDR (모델 생성 영문 요약), 인용 그래프.
API: https://api.semanticscholar.org/graph/v1 (API key 사용)
속도: tier 1 req/s 누적.
약관: S2 API Terms
NIH iCite
역할: Relative Citation Ratio (RCR), NIH percentile, is_clinical 플래그.
API: https://icite.od.nih.gov/api/
라이선스: U.S. Government Public Domain.
약관: iCite About
PRSinsight 자체 생산물
- 한글 요약 (summary_ko): LLM (Claude/OpenAI) 으로 영문 초록을 한국 성형외과 임상 컨텍스트에 맞게 번역·요약
- 도메인 NER 카테고리: 큐레이션된 7종 72카테고리 도메인 사전 + scispaCy 컨셉
- 트렌드 분석: counts_by_year_json 기반 토픽 모멘텀 / 인용 급상승 점수 산출
- 지식 그래프 분석: LPA 클러스터, 모듈러리티 Q, God Nodes, Surprises
위 자체 생산물은 CC-BY-4.0 으로 공개되며, 외부 RAG/연구 목적의 자유로운 인용을 허용합니다. 출처: PRSinsight (https://prs-insight.online) 명시 부탁드립니다.
개발자 API 로 데이터 가져가기
크롤링 대신 안정적인 공개 REST API 를 사용해 주세요.