知识图谱 Schema
概览
知识图谱采用有向图模型,包含 5 种节点类型和 9 种边类型,旨在捕获诺贝尔奖得主、其出版物、技术概念和跨学科启发之间的关系。
节点类型
Laureate(得主)
表示一位诺贝尔奖得主。
┌─────────────────┐
│ Laureate │
│─────────────────│
│ id: string │ "laureate_779"
│ type: "Laureate" │
│ name: string │ "Aaron Ciechanover"
│ nationality: str │ "Israeli"
│ birth_year: int │ 1947
│ gender: string │ "male"
└─────────────────┘
Award(奖项)
表示一次具体的诺贝尔奖颁奖事件。
┌─────────────────┐
│ Award │
│─────────────────│
│ id: string │ "award_2004_3_779"
│ type: "Award" │
│ year: int │ 2004
│ category: string │ "Chemistry"
│ motivation: str │ "for the discovery of ubiquitin-mediated..."
│ prize_amount: int│
└─────────────────┘
Work(论文)
表示一篇科学出版物。
┌──────────────────┐
│ Work │
│──────────────────│
│ id: string │ "W2078536640"
│ type: "Work" │
│ title: string │ "The ubiquitin-proteasome..."
│ year: int │ 1998
│ abstract: string │
│ keywords: string │
│ citation_count: int│ 1250
│ doi: string │
└──────────────────┘
Concept(概念)
表示从出版物中抽取的技术或科学概念。
┌────────────────────┐
│ Concept │
│────────────────────│
│ id: string │ "concept_ubiquitin_proteasome_pathway"
│ type: "Concept" │
│ name: string │ "Ubiquitin-Proteasome Pathway"
│ field: string │ "Biology"
│ subfield: string │ "Molecular Biology"
│ confidence: float │ 0.95
│ first_appeared: int │ 1980
└────────────────────┘
Field(领域)
表示一个科学学科或领域。
┌────────────────────┐
│ Field │
│────────────────────│
│ id: string │ "field_biology"
│ type: "Field" │
│ name: string │ "Biology"
│ parent_field: str │ null
└────────────────────┘
边类型
关系映射
graph LR
L[得主] -->|WON_AWARD| A[奖项]
L -->|AUTHORED| W[论文]
W -->|CITES| W2[论文]
W -->|INTRODUCES| C[概念]
W -->|APPLIES| C
C -->|BELONGS_TO| F[领域]
C -->|DERIVED_FROM| C2[概念]
C -->|CROSS_INSPIRED| C3[概念]
C -->|ENABLED| C4[概念]
A -->|AWARDED_FOR| C
边定义
WON_AWARD(获奖)
| 属性 |
值 |
| 源 |
Laureate |
| 目标 |
Award |
| 边属性 |
year、portion |
| 语义 |
得主获得该诺贝尔奖 |
AUTHORED(撰写)
| 属性 |
值 |
| 源 |
Laureate |
| 目标 |
Work |
| 边属性 |
position |
| 语义 |
得主撰写该论文 |
CITES(引用)
| 属性 |
值 |
| 源 |
Work |
| 目标 |
Work |
| 边属性 |
— |
| 语义 |
论文 A 引用论文 B |
INTRODUCES(引入)
| 属性 |
值 |
| 源 |
Work |
| 目标 |
Concept |
| 边属性 |
confidence |
| 语义 |
论文首次提出或引入该概念 |
APPLIES(应用)
| 属性 |
值 |
| 源 |
Work |
| 目标 |
Concept |
| 边属性 |
confidence |
| 语义 |
论文应用或使用了该概念 |
BELONGS_TO(属于)
| 属性 |
值 |
| 源 |
Concept |
| 目标 |
Field |
| 边属性 |
— |
| 语义 |
概念属于该科学领域 |
DERIVED_FROM(衍生自)
| 属性 |
值 |
| 源 |
Concept |
| 目标 |
Concept |
| 边属性 |
year、description |
| 语义 |
概念从同领域另一概念演化而来 |
CROSS_INSPIRED(跨学科启发)⭐
| 属性 |
值 |
| 源 |
Concept |
| 目标 |
Concept |
| 边属性 |
year、source_field、target_field、description |
| 语义 |
跨学科迁移 — 一个领域的概念启发了另一个领域的概念 |
这是知识图谱的核心边类型。示例:
| 源概念 |
目标概念 |
迁移 |
| 优化理论 |
随机梯度下降 |
数学 → AI(~1960s) |
| Transformer |
AlphaFold |
AI → 结构生物学(2018) |
| X射线衍射 |
DNA双螺旋结构 |
物理 → 分子生物学(1953) |
| 统计力学 |
玻尔兹曼机 |
物理 → 机器学习(1985) |
| 量子力学 |
量子化学 |
物理 → 化学(1930s) |
ENABLED(使能)
| 属性 |
值 |
| 源 |
Concept |
| 目标 |
Concept |
| 边属性 |
description |
| 语义 |
一个概念使另一个概念成为可能 |
AWARDED_FOR(因此获奖)
| 属性 |
值 |
| 源 |
Award |
| 目标 |
Concept |
| 边属性 |
— |
| 语义 |
诺贝尔奖因该概念的研究而颁发 |
JSON 序列化
完整图谱格式
{
"nodes": [
{
"id": "laureate_779",
"type": "Laureate",
"name": "Aaron Ciechanover",
"nationality": "Israeli",
"birth_year": 1947,
"gender": "male"
},
{
"id": "concept_ubiquitin",
"type": "Concept",
"name": "Ubiquitin-Proteasome Pathway",
"field": "Biology",
"subfield": "Molecular Biology"
}
],
"edges": [
{
"source": "laureate_779",
"target": "award_2004_3_779",
"type": "WON_AWARD",
"year": 2004
},
{
"source": "concept_a",
"target": "concept_b",
"type": "CROSS_INSPIRED",
"year": 2001,
"source_field": "Physics",
"target_field": "Biology",
"description": "光谱技术应用于蛋白质分析"
}
]
}
GraphML 导出
图谱同时导出为 GraphML(knowledge_graph.graphml)格式,兼容:
- Gephi — 开源图可视化工具
- Cytoscape — 网络分析平台
- yEd — 图编辑器
- NetworkX — Python 图库
概念图谱 Schema
概念图谱是知识图谱的简化表示,专注于概念及其关系,旨在突出跨学科的思想流动及其联系。
Schema 详情
- 节点:
id:概念的唯一标识符。
name:概念的可读名称。
paper_count:与该概念相关的论文数量。
total_citations:与该概念相关的论文收到的总引用数。
- 边:
source:源概念 ID。
target:目标概念 ID。
type:关系类型(例如 CONCEPT_CITES)。
total_citations:连接的概念之间的总引用数。
构建过程
- 从论文中提取概念。
- 跨论文去重概念。
- 基于引用和共享概念建立关系。
- 将图谱导出为 JSON 和 GraphML 格式。
示例 JSON 结构
{
"nodes": [
{
"id": "concept_1",
"name": "量子力学",
"paper_count": 120,
"total_citations": 4500
}
],
"edges": [
{
"source": "concept_1",
"target": "concept_2",
"type": "CONCEPT_CITES",
"total_citations": 300
}
]
}