更新日志¶
本项目的所有重要变更都将记录在此文件中。
格式基于 Keep a Changelog。
[0.1.0] — 2025-01-01¶
新增¶
-
阶段 1: 数据加载和清洗流水线(
data_loader.py)- 使用 Polars 加载 CSV 和 JSONL 数据
- OpenAlex 倒排索引摘要解码
- Parquet 输出格式
- 含 5 位代表性得主的样本模式
-
阶段 1.5: 内容富化(
content_enricher.py)- Semantic Scholar API 集成
- 开放获取 PDF 下载和文本提取(PyMuPDF)
- Unpaywall API 用于 OA 链接发现
- 多策略富化与缓存
-
阶段 2a: OpenAlex 富化(
openalex_enricher.py)- 通过 OpenAlex API 进行概念和主题富化
- 领域分类
- 响应缓存
-
阶段 2b: LLM 概念抽取(
concept_extractor.py)- GPT-4o-mini 驱动的概念抽取
- 带置信度分数的结构化 JSON 输出
- INTRODUCES 与 APPLIES 关系检测
- 跨学科来源识别
-
阶段 3+4: 知识图谱构建(
graph_builder.py)- 5 种节点类型:Laureate、Award、Work、Concept、Field
- 9 种边类型,包含 CROSS_INSPIRED
- JSON 和 GraphML 导出格式
- 跨学科迁移检测
-
阶段 5: 可视化(
visualize.py)- 交互式网络图(Pyvis/vis.js)
- 概念时间轴(Plotly)
- 跨领域热力图(Plotly)
-
阶段 6: 洞见分析(
insight_analyzer.py)- 枢纽概念识别
- 领域影响力分析
- 时间模式检测
- 关键路径发现
- Markdown + JSON 报告生成
-
基础设施:
- 基于 YAML 的配置(
config/settings.yaml) - 环境变量支持(
.env) - 带阶段选择的流水线编排器(
main.py) - 支持国际化的完善文档
- 基于 YAML 的配置(