我的采集站一般都是每天都会更新的,程序一开,每天采点。目的就是想让搜索引擎看到,这网站像正常网站一样,每天都在更新内容。因为程序都是用python写的,所以每天都的开一个命令行来运行python。网站一多,每天敲这些python命令也很麻烦。后来,我把每个网站的python运行命令写在了bat文件中,双击一下就可以运行了。如果是多个网站同时开始采集的话,选中对应的bat文件,右键->打开,就可以开始多个python采集进程了。
本来以为这样就OK了,但最近发现个问题,采集进度太慢了。主要原因是我的python程序写的不是很完美,由于各种原因,运行到某个地方就会卡。一卡就没法继续了,必须人工重启程序。而我最希望的是在晚上的时候程序自动采集,白天采集的话太影响网速了。但晚上人不在,程序运行个一两小时就全卡死了。六七万关键字的网站,运行了一个多月了,才跑了不到一万个词。
今天早晨研究了一下windows的计划任务和kill进程,发现正好能解决我现在的问题。我的想法是用windows计划任务每隔一个小时把所有的采集进程重启一下。
Win7的计划任务在控制面板->系统和安全->管理工具->计划任务,打开之后选择创建任务,然后在触发器中选择时间和间隔时间,操作中加入自己写好的bat文件就可以了。
bat文件真是个不错的东西。Start命令,可以通过一个bat文件启动多个bat文件。ping -n x 127.1>nul可以让bat文件等待x秒。taskkill /f /im python.exe可以一起杀死所有的python进程。通过一连串bat文件的组合,最后通过一个bat文件,实现了对N个采集进行的控制。在windows下的命令行还是很有必要好好学习一下的。
微信扫一扫 或 点击链接联系我
有朋友做采集站,还很好呢
身有同感
认真学习一下
已经采用DEDE插件形式 完美实现的飘过.
强沙发啦……
很是强大哦