会话轮次 | 目标 | 主要任务描述(可能进行了多轮对话去补充信息) |
1 | 初步完成论文爬取页 | 这是一个 electron 项目,实现从 arxiv 上自动爬取论文信息,并且支持分析。
预期会有 3 个 tab:最新论文爬取、论文分析、设置。
Settings 已经开发完成;
现在主要开发最新论文爬取页,用户可以通过下拉列表选择 arxiv 的主题、获取的最新论文数量、日期(默认是今天的日期),然后后台会进行爬取,并且每个pdf单独下载到设置里的 essayProcessPath 下,以日期和领域加上现在的时间戳作为文件夹 |
2 | 部分代码结构优化 | 抽离 main.ts 里面的 pdf 爬取和 pdf 下载功能到 pdf_worker.ts 里吧
从 arxiv 爬取的也抽离过去,以及 config 可以抽取到 config.ts 里 |
3 | 前后台进度信息同步 | 基于channel,实现前后台的进度同步。
如下载论文时给前台一些进度信息,下载中、下载完成等 |
4 | 论文信息初步汇总成HTML文件(不使用大模型) | 批量下载完,顺便写一个好看的 origin_info.html 文件,存储papers的信息,也存储在对应目录里 |
5 | 初步完成论文分析页 | 完成论文分析的功能:
1、支持查看essayProcessPath下的文件夹,然后点开每个文件夹,可以看到其下的文件
2、如果是html文件,则用electron内置的浏览器渲染打开
3、如果是pdf文件,则可以打开,也可以选择用模型总结其内容成html文件
4、另外还有个整体总结按钮,点了之后,会根据所有的html文件,用模型进行总结成总体版的html
用模型总结的部分可以先mock,在deepseek.ts里写mock函数即可 |
6 | 前后台信息同步 | 论文分析部分,与论文爬取类似,也加个进度展示能力吧,分析过程里也不断向前台反馈执行进度 |
7 | deepseek请求真实实现 | -(该部分手写了 System Prompt 和 User Prompt) |
8 | 前后台信息同步 | deepseek改成流式请求,并且每隔一段时间统计一下token消耗,反馈给前台(每隔几个chunk统计一次就行) |
9 | UI优化 | 论文爬取页,优化一些UI
1、使用 Arco Design 组件库,并替代一些组件
2、进度展示放在标题下吧
3、以及开始爬取、开始下载的按钮点了之后,提供一个message消息,运行中的时候置灰不可以再点 |
10 | UI优化 | 使用 Arco Design 的 Tabs 组件,优化首页的导航栏和菜单 |
11 | UI优化 | 论文分析页,
1、文件列表以及操作用表格或者List组件展示吧
2、后台运行任务期间,所有的按钮置灰不允许再次点击触发 |
12 | 性能优化 | 国内请求arxiv下载pdf很慢;但是浏览器会走cdn,能用 electron 内置的浏览器进行下载来提速么(webContents.downloadURL) |