爬起点小说 day01-白红宇

爬起点小说 day01

阅读量：5346 次

发布时间：2019-06-15

本文共 727 字，大约阅读时间需要 2 分钟。

先介绍下我自己爬起点小说的思路：

1.爬取所有的类型列表

a.链接存redis中类型表：novel_list 具体每一种类型：bnovel_all_list（把novel_list和bnovel_list合并为bnovel_list）

b.名字存到mongodb中，构成树链表表名： bnovel_all_list

2.爬取小说的名字和链接(redis:all_novel_href （只需要novels 的id） mongodb:novels上一个id作为标签)

小说表：每次添加，去重（如果有就更新mongodb的数据(根据redis的id)，没有就添加到mongodb中）（可能没有重复的）

所有链接都放到redis（id(mongodb的id)+url）中，把小说名放到mongodb中

3.爬小说的首页：

1.爬取作者，书的状态（连载or完结）（更新到mongodb中）

4.根据目录去爬取所有的章节（mongodb中章名作为键，内容存的文件位置作为值）（在mongodb中可以把汉字作为键）（mongodb章节表）

vip:章节的处理，爬还是不爬？爬（要的只是书的数量，内容无所谓）

连载和完结的处理：将所有未完结书的最后一章链接都存到redis中，格式为书的id+链接

每天根据这个链接去查看有没有下一章，有就去爬取，并更改mongodb的数据库，并把链接更新（

redis的lrange or lpop操作?）

（先执行每天的查看，未完结的每次都去爬书的首页，完结就修改mongodb的数据，未完结就pass）

过几天介绍上代码

转载于:https://www.cnblogs.com/qieyu/p/7979184.html

你可能感兴趣的文章

C#中datatable导出excel(三种方法)

Ajax:js读取txt内容(json格式内容)

查看>>

Task 7 买书最低价格问题

查看>>

Selenium3+python自动化007-警告框

多校HDU5723 最小生成树＋dfs回溯

查看>>

ASP.NET MVC分页实现之改进版-增加同一个视图可设置多个分页

查看>>

关于ASP.NET MVC开发设计中出现的问题与解决方案汇总【持续更新】

查看>>

关于Entity Framework中的Attached报错的完美解决方案终极版

day 3 修改haproxy.cfg 作业

查看>>

UIScrollView —— 缩放实现案例（二）

查看>>