阶段 6:洞见分析¶
模块: src/insight_analyzer.py
预计耗时: ~1 天
目标¶
使用图算法分析知识图谱,识别跨学科模式、枢纽概念、领域影响力动态,并生成结构化的 Markdown 报告。
分析组件¶
1. 枢纽概念分析¶
识别连接最多不同科学领域的桥梁概念:
- 统计每个概念连接的不同领域数
- 按跨领域连接度排名
- 顶级概念列为"跨学科枢纽"
示例结果:
| 概念 | 连接领域数 |
|---|---|
| Protein Degradation Mechanisms | Biology, Chemistry, Physics |
| Ubiquitin-Proteasome Pathway | Biology, Chemistry |
| Fixed Cost Analysis | Economics, Business |
2. 领域影响力分析¶
衡量哪些领域向其他领域输出概念,哪些引入概念:
- 统计每个源领域的
CROSS_INSPIRED出边数 - 统计每个目标领域的
CROSS_INSPIRED入边数 - 识别概念的净输出者和净引入者
3. 时间模式分析¶
提取跨学科迁移事件的时间线:
- 列出所有带时间戳的
CROSS_INSPIRED边 - 识别跨领域启发的加速趋势
- 追踪哪些年代跨学科交叉最活跃
4. 关键路径分析¶
查找跨领域边界的概念间最短路径:
- 使用 NetworkX 最短路径算法
- 过滤长度 3-6 跳的路径
- 要求路径沿途至少涉及 2 个不同领域
报告结构¶
生成的报告(output/reports/insight_report.md)包含 6 个章节:
- 图谱概览 — 节点/边计数、节点类型分布
- 顶级枢纽概念 — 跨学科桥梁概念排名列表
- 领域影响力 — 按领域的引入/输出分析
- 跨学科时间线 — 迁移事件的时间列表
- 关键路径 — 重要的跨领域概念路径
- 方法论 — 分析方法说明
输出文件¶
| 文件 | 格式 | 说明 |
|---|---|---|
insight_report.md |
Markdown | 人类可读的分析报告 |
insight_report.json |
JSON | 机器可读的分析数据 |
JSON 结构¶
{
"graph_overview": {
"total_nodes": 97,
"total_edges": 181,
"node_types": {"Laureate": 5, "Work": 25, "Concept": 51, ...},
"edge_types": {"WON_AWARD": 5, "AUTHORED": 25, ...}
},
"hub_concepts": [...],
"field_influence": {...},
"temporal_patterns": [...],
"key_pathways": [...]
}