chinaxiv全量爬虫
February 27, 2024 · View on GitHub
一个简单的脚本实现chinaxiv网站全量论文数据爬虫。 爬虫规则为先按类别爬取,后根据时间遍历所有文章下载链接。并将下载链接保存至pdf_links文件夹中。
启动命令
python chinaixv_crawl.py
输出格式
{
"link": ["..."], //下载链接
"title": "xxx", //论文标题
"author": "xxx" //作者信息
}