文章目录🌰
- 一、网站题目👨🎓
- 二、网站描述✍️
- 三、网站介绍📖
- 四、网站效果🌐
- 五、网站代码制作部分 📕
- HTML结构代码🧱
- CSS样式代码🏡
- 六、遇到问题及如何解决🔍
- 七、实训总结😊
- 八、更多干货🎁
对 http://bestcbooks.com/ 这个网站的书籍进行爬取
(爬取资源分享在结尾)
下面是通过一个URL获得其对应网页源码的方法
传入一个 url 返回其源码 (获得源码后,对源码进行解析,获得页面中其他的书籍地址和当前页面的书籍的百度网盘的链接,因为这个网站分享的书籍都是用网盘分享的)。
其实这里要讲的方法是按页面逐个去寻找书籍,还有一种比较暴力的是根据宽度优先遍历,找到所有的链接,不管是不是书籍的,然后再进行筛选。
宽度优先遍历可以看之前的一篇 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html