好友
阅读权限30
听众
最后登录1970-1-1
|
本帖最后由 onlyclxy 于 2021-11-18 16:54 编辑
小白问下大佬们, 我要用Python爬一个网址, 大约4800条下载地址. 要是用协程异步爬取的话, 也需要打开近5000个网页. 但是怕中途出错程序挂了再重新打开5k个页面. 就想着做个续传的功能.. 就想着做个表, 已经爬过的页面就标记一下, 这样再次开始爬取的时候, 略过已经爬过的页面就好.
但是因为一个没接触过数据库, 用什么记录已爬取就犯难了. 暂时用的是csv, 但是如果是协程异步记录的话, 会不会出现同时调用一个csv从而打架的情况? . 要是打架该怎么办呢?
之前已经把所有要爬的网址统计到一个csv表里了.
要是把已经爬取过直接记录在这个表的后面的列,又涉及csv增加列的问题. (要是xls处理速度就特别慢).要是新增加一个表,用a+的形式, 会不会就一个打开表后,另一个线程就不能写入了... 就感觉好头疼的样子...
大佬们对于这种情况一般是咋处理的呢? |
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|
|