首页 >> SEO优化, 网站技术 >> 采集网站的自动更新

采集网站的自动更新

Catagory:SEO优化, 网站技术, Date:2012年04月12日,Author: 工业品营销-贾定强

做SEO时间长了,总会觉得按正常套路没什么意思,总想来点省时又省力的方法。经过最近一段时间的摸索,发现采集是个不错的东西。我的思路是这样:找一个关键字列表,然后在百度或Google上进行搜索,对于搜索结果页内的网址再打开,提取正文内容,存储在数据库中。在前台网站,通过一些伪原创的手段进行伪原创。这样就实现了针对关键字列表的内容采集,而不是像火车头一样针对网站的内容采集。当然,这个采集程序暂时保密,我不想多说,我想说的是对于采集程序的一个补充:采集网站的自动更新。都说采集就像吸毒,一旦开始了就不能停下来。所以,更新对于采集站是非常重要的。

我的采集站一般都是每天都会更新的,程序一开,每天采点。目的就是想让搜索引擎看到,这网站像正常网站一样,每天都在更新内容。因为程序都是用python写的,所以每天都的开一个命令行来运行python。网站一多,每天敲这些python命令也很麻烦。后来,我把每个网站的python运行命令写在了bat文件中,双击一下就可以运行了。如果是多个网站同时开始采集的话,选中对应的bat文件,右键->打开,就可以开始多个python采集进程了。

本来以为这样就OK了,但最近发现个问题,采集进度太慢了。主要原因是我的python程序写的不是很完美,由于各种原因,运行到某个地方就会卡。一卡就没法继续了,必须人工重启程序。而我最希望的是在晚上的时候程序自动采集,白天采集的话太影响网速了。但晚上人不在,程序运行个一两小时就全卡死了。六七万关键字的网站,运行了一个多月了,才跑了不到一万个词。

今天早晨研究了一下windows的计划任务和kill进程,发现正好能解决我现在的问题。我的想法是用windows计划任务每隔一个小时把所有的采集进程重启一下。

Win7的计划任务在控制面板->系统和安全->管理工具->计划任务,打开之后选择创建任务,然后在触发器中选择时间和间隔时间,操作中加入自己写好的bat文件就可以了。

bat文件真是个不错的东西。Start命令,可以通过一个bat文件启动多个bat文件。ping -n x 127.1>nul可以让bat文件等待x秒。taskkill /f /im python.exe可以一起杀死所有的python进程。通过一连串bat文件的组合,最后通过一个bat文件,实现了对N个采集进行的控制。在windows下的命令行还是很有必要好好学习一下的。набор детской бытовой техникикупить пластыри металлокордовые

来源:工业品营销,原文地址:http://www.jiadingqiang.com/2394.html,欢迎分享本文,转载请保留出处!

Comments: 6 Responses to “ 采集网站的自动更新 ”
七月 17th, 2012

有朋友做采集站,还很好呢

[回复]

七月 4th, 2012
xinsanwei.com 说 Said:

身有同感

[回复]

六月 17th, 2012
牛肉干 说 Said:

认真学习一下

[回复]

六月 3rd, 2012
老牛 说 Said:

已经采用DEDE插件形式 完美实现的飘过.

[回复]

四月 12th, 2012
深圳珠宝 说 Said:

强沙发啦……

[回复]

四月 12th, 2012
深圳珠宝 说 Said:

很是强大哦

[回复]

你也来说几句:

名字*必填
邮箱*必填,不会被公开
网站
QQ群交流
最近文章
文章归档
  • 2017 (16)
  • 2016 (31)
  • 2015 (63)
  • 2014 (21)
  • 2013 (38)
  • 2012 (25)
  • 2011 (67)
  • 2010 (268)
  • 2009 (19)