关于 arXiv 学术档案

项目简介

arXiv 学术档案是一个自动化的学术论文采集和分析系统,专注于计算机科学和机器学习领域的最新研究。 系统每天自动从 arXiv 获取最新发表的论文,提供专业中文翻译、学术贡献分析和资源关联, 帮助研究人员快速了解领域动态。

核心功能

  • 自动采集 - 定期从 arXiv API 获取最新论文
  • 中文翻译 - 使用 LLM 提供专业学术中文翻译
  • 贡献分析 - 自动识别论文的主要贡献和创新点
  • 资源关联 - 识别与现有数据集、工具、理论的关联
  • 智能搜索 - 支持中英文混合全文搜索
  • 可视化仪表板 - 实时数据分析和趋势展示

技术架构

后端
  • Python 3.10+
  • Flask Web 框架
  • SQLite 数据库(FTS5 全文搜索)
  • feedparser arXiv API
  • OpenAI 兼容 LLM(Qwen2.5)
前端
  • Bootstrap 5
  • Chart.js 数据可视化
  • 响应式设计

使用方式

运行采集和分析流程
python src/main.py 50

参数为每次采集的最大论文数(默认50)

启动 Web 服务
python src/app.py

服务将在 http://localhost:5172 启动

配置 LLM
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export LLM_MODEL=qwen2.5:14b

支持任何 OpenAI 兼容的 API 端点

数据来源

所有论文数据来自 arXiv.org, 遵循 arXiv API 使用条款。中文翻译和分析由 AI 生成,仅供参考。

项目代码托管在 daydream2 服务器: /home/temple/daydream2/projects/172-arxiv-archive