跳转至

阶段 6:洞见分析

模块: src/insight_analyzer.py
预计耗时: ~1 天

目标

使用图算法分析知识图谱,识别跨学科模式、枢纽概念、领域影响力动态,并生成结构化的 Markdown 报告。

分析组件

1. 枢纽概念分析

识别连接最多不同科学领域的桥梁概念

  • 统计每个概念连接的不同领域数
  • 按跨领域连接度排名
  • 顶级概念列为"跨学科枢纽"

示例结果:

概念 连接领域数
Protein Degradation Mechanisms Biology, Chemistry, Physics
Ubiquitin-Proteasome Pathway Biology, Chemistry
Fixed Cost Analysis Economics, Business

2. 领域影响力分析

衡量哪些领域向其他领域输出概念,哪些引入概念:

  • 统计每个源领域的 CROSS_INSPIRED 出边数
  • 统计每个目标领域的 CROSS_INSPIRED 入边数
  • 识别概念的净输出者和净引入者

3. 时间模式分析

提取跨学科迁移事件的时间线:

  • 列出所有带时间戳的 CROSS_INSPIRED
  • 识别跨领域启发的加速趋势
  • 追踪哪些年代跨学科交叉最活跃

4. 关键路径分析

查找跨领域边界的概念间最短路径:

  • 使用 NetworkX 最短路径算法
  • 过滤长度 3-6 跳的路径
  • 要求路径沿途至少涉及 2 个不同领域

报告结构

生成的报告(output/reports/insight_report.md)包含 6 个章节:

  1. 图谱概览 — 节点/边计数、节点类型分布
  2. 顶级枢纽概念 — 跨学科桥梁概念排名列表
  3. 领域影响力 — 按领域的引入/输出分析
  4. 跨学科时间线 — 迁移事件的时间列表
  5. 关键路径 — 重要的跨领域概念路径
  6. 方法论 — 分析方法说明

输出文件

文件 格式 说明
insight_report.md Markdown 人类可读的分析报告
insight_report.json JSON 机器可读的分析数据

JSON 结构

{
  "graph_overview": {
    "total_nodes": 97,
    "total_edges": 181,
    "node_types": {"Laureate": 5, "Work": 25, "Concept": 51, ...},
    "edge_types": {"WON_AWARD": 5, "AUTHORED": 25, ...}
  },
  "hub_concepts": [...],
  "field_influence": {...},
  "temporal_patterns": [...],
  "key_pathways": [...]
}

运行

# 通过流水线
uv run python main.py --phase 6

# 独立运行
uv run python -m src.insight_analyzer