跳转至

更新日志

本项目的所有重要变更都将记录在此文件中。

格式基于 Keep a Changelog

[0.1.0] — 2025-01-01

新增

  • 阶段 1: 数据加载和清洗流水线(data_loader.py

    • 使用 Polars 加载 CSV 和 JSONL 数据
    • OpenAlex 倒排索引摘要解码
    • Parquet 输出格式
    • 含 5 位代表性得主的样本模式
  • 阶段 1.5: 内容富化(content_enricher.py

    • Semantic Scholar API 集成
    • 开放获取 PDF 下载和文本提取(PyMuPDF)
    • Unpaywall API 用于 OA 链接发现
    • 多策略富化与缓存
  • 阶段 2a: OpenAlex 富化(openalex_enricher.py

    • 通过 OpenAlex API 进行概念和主题富化
    • 领域分类
    • 响应缓存
  • 阶段 2b: LLM 概念抽取(concept_extractor.py

    • GPT-4o-mini 驱动的概念抽取
    • 带置信度分数的结构化 JSON 输出
    • INTRODUCES 与 APPLIES 关系检测
    • 跨学科来源识别
  • 阶段 3+4: 知识图谱构建(graph_builder.py

    • 5 种节点类型:Laureate、Award、Work、Concept、Field
    • 9 种边类型,包含 CROSS_INSPIRED
    • JSON 和 GraphML 导出格式
    • 跨学科迁移检测
  • 阶段 5: 可视化(visualize.py

    • 交互式网络图(Pyvis/vis.js)
    • 概念时间轴(Plotly)
    • 跨领域热力图(Plotly)
  • 阶段 6: 洞见分析(insight_analyzer.py

    • 枢纽概念识别
    • 领域影响力分析
    • 时间模式检测
    • 关键路径发现
    • Markdown + JSON 报告生成
  • 基础设施:

    • 基于 YAML 的配置(config/settings.yaml
    • 环境变量支持(.env
    • 带阶段选择的流水线编排器(main.py
    • 支持国际化的完善文档