经常有朋友需要帮忙做公众号文章爬取,这次来做一个各种方法的汇总说明。目前爬取微信公众号的方法主要有3种:
可以直接搜索公众号或者文章的关键字,一些热门的公众号更新还是很及时的,几乎做到了和微信同步。
所以,爬一些热门公众号可以使用搜狗微信的接口来做,但是一些小众公众号是搜索不到的,而且搜狗的防爬机制更新的比较勤,获取数据的接口变化的比较快,经常两三个月就有调整,导致爬虫很容易挂,这里还是建议使用 selenium爬比较省心。另外搜狗对每个ip也有访问限制,访问太频ip会被封禁24小时,需要买个ip池来做应对。还有一些其他公众号文章聚合网站(比如传送门)也都存在更新不及时或者没有收录的问题,毕竟搜狗这个亲儿子都不行。
通过微信公众平台引用文章接口
这个接口比较隐蔽而且没法匿名访问,所有得有一个公众号,建议新注册一个公众号比较好,免得被封。下面开始具体步骤:首先登录自己的微信公众号,在进去的首页选择 新建群发,然后再点击 自建图文,在文章编辑工具栏中找到 超链接,如下图:
点击这个超链接按钮,就会弹出一个对话框,链接输入方式这一项选中 查找文章,如下图:
到这里就可以输入公众号的名字,回车之后微信就会返回相匹配的公众号列表,接着点击你想抓取的公众号,就会显示具体的文章列表了,已经是按时间倒序了,最新的文章就是第一条了。
微信的分页机制比较奇怪,每个公众号的每页显示的数据条数是不一样的,分页爬的时候要处理一下。通过chrome分析网络请求的数据,我们想要的数据已经基本拿到了,文章链接、封面、发布日期、副标题等,如
由于微信公众平台登录验证比较严格,输入密码之后还必须要手机扫码确认才能登录进去,所以最好还是使用 selenium做自动化比较好。具体微信接口的分析过程我就不列了,直接贴代码了:
代码只是作为学习使用,没有做分页查询之类。实测过接口存在访问频次限制,一天几百次还是没啥问题,太快或者太多次访问就会被封24小时。