最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方。 先上图: 其实逻辑也蛮简单的,医学类的期刊分了16个大类,那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型 …
最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方。 先上图: 其实逻辑也蛮简单的,医学类的期刊分了16个大类,那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型 …