软件技术

3ds Max Maya Rhino Unity Photoshop 技术达人 SOLIDWORKS UNREAL ENGINE(UE4)

工业设计

工业设计 3D打印 3D打印模型创意图片创意素材设计达人

人机交互

人工智能人机交互虚拟现实增强现实混合现实区块链

签到任务

纳金网»论坛 › 人机交互区 › 人工智能 › 【小实验】豆瓣读书爬虫程序的设计与实现 ...

发新帖

查看: 3646|回复: 0

上一主题

下一主题

[应用领域] 【小实验】豆瓣读书爬虫程序的设计与实现

智囊团

5472 主题	6 听众	1万积分

Rank: 7 Rank: 7 Rank: 7

纳金币: 76544
精华: 23

电梯直达

跳转到指定楼层

楼主

发表于 2018-3-15 15:27:57 |只看该作者 |倒序浏览

【小实验】豆瓣读书爬虫程序的设计与实现

鸣谢原作者：lanbing510

豆瓣读书爬虫，可以将特定“标签”下的图书爬取下来，排序按照评分进行，储存到Excel中，方便筛选。

更新

最近爬书发现豆瓣的页面规则发生了变化，导致不能爬到评价人数，由此对代码进行了相应的更新，并爬了一些新的数据。

实现功能

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封（更新于 2015-5-20）

效果截图

试着小小运行了下，爬了七八万本书，结果在book_list.xlsx中，截图如下：

笔者尝试（2016/12/9）

爬取豆瓣读书中关于“旅行”的图书，需要添加代码，如下图蓝色字体：

执行代码：

结束后出现的列表：

豆瓣读书中关于“旅行”的图书列表，截图如下：

详细源代码，请下载压缩包：

DouBanSpider-master.zip (13.59 MB, 下载次数: 0, 售价: 20 纳金币)

爬虫, 实验, 豆瓣, 源码

分享到: QQ好友和群 腾讯微博 腾讯朋友 微信

转播0 淘帖0 收藏0 支持0 反对0

相关帖子

回复

使用道具举报

发新帖

手机版|纳金网 ( 闽ICP备2021016425号-2/3 )

GMT+8, 2024-11-11 07:40 , Processed in 0.091314 second(s), 34 queries .

Powered by Discuz!-创意设计 X2.5

© 2008-2019 Narkii Inc.

回顶部