【小实验】豆瓣读书爬虫程序的设计与实现
鸣谢原作者:lanbing510
豆瓣读书爬虫,可以将特定“标签”下的图书爬取下来,排序按照评分进行,储存到Excel中,方便筛选。
更新
最近爬书发现豆瓣的页面规则发生了变化,导致不能爬到评价人数,由此对代码进行了相应的更新,并爬了一些新的数据。
实现功能 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封(更新于 2015-5-20) 效果截图 试着小小运行了下,爬了七八万本书,结果在book_list.xlsx中,截图如下:
笔者尝试(2016/12/9) 爬取豆瓣读书中关于“旅行”的图书,需要添加代码,如下图蓝色字体: 执行代码: 结束后出现的列表: 豆瓣读书中关于“旅行”的图书列表,截图如下: 详细源代码,请下载压缩包:
DouBanSpider-master.zip
(13.59 MB, 下载次数: 0, 售价: 20 纳金币)
|