数据来源¶
概览¶
项目使用来自多个来源的诺贝尔奖和学术出版物数据。
主数据集(data/26963326/)¶
核心数据集包含关于诺贝尔奖得主及其科学出版物的结构化数据,来源于 OpenAlex 和诺贝尔奖档案。
CSV 表格(data/26963326/db_data/)¶
laureate.csv — 诺贝尔奖得主¶
| 字段 | 类型 | 说明 |
|---|---|---|
laureate_id |
int | 唯一得主标识符 |
name |
string | 全名 |
gender |
string | 性别 |
nationality |
string | 国籍 |
education |
string | 教育背景 |
wikipedia_url |
string | 维基百科页面 URL |
wikidata_id |
string | Wikidata 实体 ID |
记录数: 757 位得主
award_info.csv — 奖项详情¶
| 字段 | 类型 | 说明 |
|---|---|---|
laureate_id |
int | 得主标识符 |
year |
int | 获奖年份 |
category_id |
int | 类别标识符 |
motivation |
string | 获奖理由 |
prize_amount |
float | 奖金金额 |
记录数: 761 项奖项
nobel_prize_category.csv — 奖项类别¶
| 字段 | 类型 | 说明 |
|---|---|---|
category_id |
int | 类别标识符 |
category_name |
string | 类别名称 |
类别: 物理学、化学、生理学/医学、经济学
work.csv — 出版物¶
| 字段 | 类型 | 说明 |
|---|---|---|
openalex_work_id |
string | OpenAlex 论文标识符 |
title |
string | 论文标题 |
keywords |
string | 分号分隔的关键词 |
abstract_inverted_index |
JSON | OpenAlex 倒排索引格式 |
referenced_works |
string | 引用的论文 ID |
doi |
string | 数字对象标识符 |
publication_year |
int | 发表年份 |
记录数: ~245,000 篇论文
work_authorship.csv — 作者关系¶
| 字段 | 类型 | 说明 |
|---|---|---|
openalex_work_id |
string | 论文标识符 |
author_id |
string | 作者标识符 |
institution_id |
string | 机构标识符 |
position |
string | 作者位置(第一、中间、最后) |
记录数: ~167 万条关系
work_citation_by_year.csv — 引用计数¶
| 字段 | 类型 | 说明 |
|---|---|---|
openalex_work_id |
string | 论文标识符 |
year |
int | 引用年份 |
cited_by_count |
int | 该年被引次数 |
记录数: ~900 万条
其他表格¶
author.csv— ~297K OpenAlex 作者 IDinstitution.csv— ~13K 机构(名称、ROR、地理位置)source.csv— ~11.5K 期刊/出版商laureate_openalex_matching.csv— ~840 条得主 ↔ OpenAlex ID 匹配laureate_location_info.csv— ~2K 条得主地理信息
JSON 数据(data/26963326/json/)¶
publication_records.json(2.3 GB)¶
行分隔 JSON(JSONL),包含 253K 篇论文的完整元数据:
{
"id": "W2078536640",
"title": "The ubiquitin-proteasome proteolytic pathway",
"publication_year": 1998,
"cited_by_count": 1250,
"authorships": [...],
"referenced_works": ["W...", "W..."],
"abstract_inverted_index": {...},
"keywords": [...]
}
laureate_info.json(924 KB)¶
得主详情,包含出生地、获奖地和去世地的地理坐标。
award_details.json(664 KB)¶
奖项详情,包含地理坐标。
外部 API 来源¶
OpenAlex API¶
- 用途: 补充论文的概念、主题和领域分类
- 端点:
https://api.openalex.org - 缓存:
output/openalex_cache/ - 文档: OpenAlex API 文档
Semantic Scholar API¶
- 用途: 获取摘要和 TLDR 摘要
- 缓存:
output/openalex_cache/semantic_scholar/ - 文档: S2 API 文档
Unpaywall API¶
- 用途: 查找开放获取 PDF URL
- 缓存:
output/openalex_cache/unpaywall/ - 文档: Unpaywall API 文档
数据覆盖率¶
| 信号 | 覆盖率 | 备注 |
|---|---|---|
| 论文标题 | ~100% | 几乎所有论文均有 |
| 关键词 | ~70% | 分号分隔的关键词串 |
| 摘要(倒排索引) | ~57% | OpenAlex 格式,可解码 |
| 引用网络 | 大部分 | 可用引用文献 |
| 逐年引用 | ~900万条 | 全面的引用追踪 |
已知缺口¶
| 缺失数据 | 影响 | 缓解措施 |
|---|---|---|
| 论文全文 | 无法深度提取概念细节 | 使用摘要 + LLM 增强 |
| 学科分类 | 无法直接对论文分类 | OpenAlex API + LLM 推断 |
| 概念本体 | 无预建层级结构 | 通过 LLM + 种子概念构建 |
| 跨领域标注 | 无直接标签 | 引文网络分析 + LLM |