跳转至

知识图谱 Schema

概览

知识图谱采用有向图模型,包含 5 种节点类型和 9 种边类型,旨在捕获诺贝尔奖得主、其出版物、技术概念和跨学科启发之间的关系。

节点类型

Laureate(得主)

表示一位诺贝尔奖得主。

┌─────────────────┐
│    Laureate      │
│─────────────────│
│ id: string       │  "laureate_779"
│ type: "Laureate" │
│ name: string     │  "Aaron Ciechanover"
│ nationality: str │  "Israeli"
│ birth_year: int  │  1947
│ gender: string   │  "male"
└─────────────────┘

Award(奖项)

表示一次具体的诺贝尔奖颁奖事件。

┌─────────────────┐
│      Award       │
│─────────────────│
│ id: string       │  "award_2004_3_779"
│ type: "Award"    │
│ year: int        │  2004
│ category: string │  "Chemistry"
│ motivation: str  │  "for the discovery of ubiquitin-mediated..."
│ prize_amount: int│
└─────────────────┘

Work(论文)

表示一篇科学出版物。

┌──────────────────┐
│      Work         │
│──────────────────│
│ id: string        │  "W2078536640"
│ type: "Work"      │
│ title: string     │  "The ubiquitin-proteasome..."
│ year: int         │  1998
│ abstract: string  │
│ keywords: string  │
│ citation_count: int│  1250
│ doi: string       │
└──────────────────┘

Concept(概念)

表示从出版物中抽取的技术或科学概念。

┌────────────────────┐
│     Concept         │
│────────────────────│
│ id: string          │  "concept_ubiquitin_proteasome_pathway"
│ type: "Concept"     │
│ name: string        │  "Ubiquitin-Proteasome Pathway"
│ field: string       │  "Biology"
│ subfield: string    │  "Molecular Biology"
│ confidence: float   │  0.95
│ first_appeared: int │  1980
└────────────────────┘

Field(领域)

表示一个科学学科或领域。

┌────────────────────┐
│     Field           │
│────────────────────│
│ id: string          │  "field_biology"
│ type: "Field"       │
│ name: string        │  "Biology"
│ parent_field: str   │  null
└────────────────────┘

边类型

关系映射

graph LR
    L[得主] -->|WON_AWARD| A[奖项]
    L -->|AUTHORED| W[论文]
    W -->|CITES| W2[论文]
    W -->|INTRODUCES| C[概念]
    W -->|APPLIES| C
    C -->|BELONGS_TO| F[领域]
    C -->|DERIVED_FROM| C2[概念]
    C -->|CROSS_INSPIRED| C3[概念]
    C -->|ENABLED| C4[概念]
    A -->|AWARDED_FOR| C

边定义

WON_AWARD(获奖)

属性
Laureate
目标 Award
边属性 yearportion
语义 得主获得该诺贝尔奖

AUTHORED(撰写)

属性
Laureate
目标 Work
边属性 position
语义 得主撰写该论文

CITES(引用)

属性
Work
目标 Work
边属性
语义 论文 A 引用论文 B

INTRODUCES(引入)

属性
Work
目标 Concept
边属性 confidence
语义 论文首次提出或引入该概念

APPLIES(应用)

属性
Work
目标 Concept
边属性 confidence
语义 论文应用或使用了该概念

BELONGS_TO(属于)

属性
Concept
目标 Field
边属性
语义 概念属于该科学领域

DERIVED_FROM(衍生自)

属性
Concept
目标 Concept
边属性 yeardescription
语义 概念从同领域另一概念演化而来

CROSS_INSPIRED(跨学科启发)⭐

属性
Concept
目标 Concept
边属性 yearsource_fieldtarget_fielddescription
语义 跨学科迁移 — 一个领域的概念启发了另一个领域的概念

这是知识图谱的核心边类型。示例:

源概念 目标概念 迁移
优化理论 随机梯度下降 数学 → AI(~1960s)
Transformer AlphaFold AI → 结构生物学(2018)
X射线衍射 DNA双螺旋结构 物理 → 分子生物学(1953)
统计力学 玻尔兹曼机 物理 → 机器学习(1985)
量子力学 量子化学 物理 → 化学(1930s)

ENABLED(使能)

属性
Concept
目标 Concept
边属性 description
语义 一个概念使另一个概念成为可能

AWARDED_FOR(因此获奖)

属性
Award
目标 Concept
边属性
语义 诺贝尔奖因该概念的研究而颁发

JSON 序列化

完整图谱格式

{
  "nodes": [
    {
      "id": "laureate_779",
      "type": "Laureate",
      "name": "Aaron Ciechanover",
      "nationality": "Israeli",
      "birth_year": 1947,
      "gender": "male"
    },
    {
      "id": "concept_ubiquitin",
      "type": "Concept",
      "name": "Ubiquitin-Proteasome Pathway",
      "field": "Biology",
      "subfield": "Molecular Biology"
    }
  ],
  "edges": [
    {
      "source": "laureate_779",
      "target": "award_2004_3_779",
      "type": "WON_AWARD",
      "year": 2004
    },
    {
      "source": "concept_a",
      "target": "concept_b",
      "type": "CROSS_INSPIRED",
      "year": 2001,
      "source_field": "Physics",
      "target_field": "Biology",
      "description": "光谱技术应用于蛋白质分析"
    }
  ]
}

GraphML 导出

图谱同时导出为 GraphML(knowledge_graph.graphml)格式,兼容:

  • Gephi — 开源图可视化工具
  • Cytoscape — 网络分析平台
  • yEd — 图编辑器
  • NetworkX — Python 图库

概念图谱 Schema

概念图谱是知识图谱的简化表示,专注于概念及其关系,旨在突出跨学科的思想流动及其联系。

Schema 详情

  • 节点
  • id:概念的唯一标识符。
  • name:概念的可读名称。
  • paper_count:与该概念相关的论文数量。
  • total_citations:与该概念相关的论文收到的总引用数。
  • source:源概念 ID。
  • target:目标概念 ID。
  • type:关系类型(例如 CONCEPT_CITES)。
  • total_citations:连接的概念之间的总引用数。

构建过程

  1. 从论文中提取概念。
  2. 跨论文去重概念。
  3. 基于引用和共享概念建立关系。
  4. 将图谱导出为 JSON 和 GraphML 格式。

示例 JSON 结构

{
  "nodes": [
    {
      "id": "concept_1",
      "name": "量子力学",
      "paper_count": 120,
      "total_citations": 4500
    }
  ],
  "edges": [
    {
      "source": "concept_1",
      "target": "concept_2",
      "type": "CONCEPT_CITES",
      "total_citations": 300
    }
  ]
}