跳转至

数据来源

概览

项目使用来自多个来源的诺贝尔奖和学术出版物数据。

主数据集(data/26963326/

核心数据集包含关于诺贝尔奖得主及其科学出版物的结构化数据,来源于 OpenAlex 和诺贝尔奖档案。

CSV 表格(data/26963326/db_data/

laureate.csv — 诺贝尔奖得主

字段 类型 说明
laureate_id int 唯一得主标识符
name string 全名
gender string 性别
nationality string 国籍
education string 教育背景
wikipedia_url string 维基百科页面 URL
wikidata_id string Wikidata 实体 ID

记录数: 757 位得主

award_info.csv — 奖项详情

字段 类型 说明
laureate_id int 得主标识符
year int 获奖年份
category_id int 类别标识符
motivation string 获奖理由
prize_amount float 奖金金额

记录数: 761 项奖项

nobel_prize_category.csv — 奖项类别

字段 类型 说明
category_id int 类别标识符
category_name string 类别名称

类别: 物理学、化学、生理学/医学、经济学

work.csv — 出版物

字段 类型 说明
openalex_work_id string OpenAlex 论文标识符
title string 论文标题
keywords string 分号分隔的关键词
abstract_inverted_index JSON OpenAlex 倒排索引格式
referenced_works string 引用的论文 ID
doi string 数字对象标识符
publication_year int 发表年份

记录数: ~245,000 篇论文

work_authorship.csv — 作者关系

字段 类型 说明
openalex_work_id string 论文标识符
author_id string 作者标识符
institution_id string 机构标识符
position string 作者位置(第一、中间、最后)

记录数: ~167 万条关系

work_citation_by_year.csv — 引用计数

字段 类型 说明
openalex_work_id string 论文标识符
year int 引用年份
cited_by_count int 该年被引次数

记录数: ~900 万条

其他表格

  • author.csv — ~297K OpenAlex 作者 ID
  • institution.csv — ~13K 机构(名称、ROR、地理位置)
  • source.csv — ~11.5K 期刊/出版商
  • laureate_openalex_matching.csv — ~840 条得主 ↔ OpenAlex ID 匹配
  • laureate_location_info.csv — ~2K 条得主地理信息

JSON 数据(data/26963326/json/

publication_records.json(2.3 GB)

行分隔 JSON(JSONL),包含 253K 篇论文的完整元数据:

{
  "id": "W2078536640",
  "title": "The ubiquitin-proteasome proteolytic pathway",
  "publication_year": 1998,
  "cited_by_count": 1250,
  "authorships": [...],
  "referenced_works": ["W...", "W..."],
  "abstract_inverted_index": {...},
  "keywords": [...]
}

laureate_info.json(924 KB)

得主详情,包含出生地、获奖地和去世地的地理坐标。

award_details.json(664 KB)

奖项详情,包含地理坐标。

外部 API 来源

OpenAlex API

  • 用途: 补充论文的概念、主题和领域分类
  • 端点: https://api.openalex.org
  • 缓存: output/openalex_cache/
  • 文档: OpenAlex API 文档

Semantic Scholar API

  • 用途: 获取摘要和 TLDR 摘要
  • 缓存: output/openalex_cache/semantic_scholar/
  • 文档: S2 API 文档

Unpaywall API

  • 用途: 查找开放获取 PDF URL
  • 缓存: output/openalex_cache/unpaywall/
  • 文档: Unpaywall API 文档

数据覆盖率

信号 覆盖率 备注
论文标题 ~100% 几乎所有论文均有
关键词 ~70% 分号分隔的关键词串
摘要(倒排索引) ~57% OpenAlex 格式,可解码
引用网络 大部分 可用引用文献
逐年引用 ~900万条 全面的引用追踪

已知缺口

缺失数据 影响 缓解措施
论文全文 无法深度提取概念细节 使用摘要 + LLM 增强
学科分类 无法直接对论文分类 OpenAlex API + LLM 推断
概念本体 无预建层级结构 通过 LLM + 种子概念构建
跨领域标注 无直接标签 引文网络分析 + LLM