本帖最后由 he911450 于 2024-10-10 02:16 编辑
根据大家的反应 我们原始版本的目录站群采集的文章都是一个目标站的,用的人太多了 造成了 采集回来的文章 重复率太高 收录比较困难 上权重到权重
3以后非常之难!本软件开发的目的 就是为了目录站群 包含(独立目录站群)等等 现在百度针对内容文章的要求越来越高! 一篇好的文章可以马上收录 立即有排名!所以我们要以文章为主来发展我们的目录站群。
软件介绍:
本软件的采集原理是根据 “织梦采集规则设计”如果你懂织梦采集规则的话 添加采集规则很简单。
1.自定义采集目标站!填写相关的采集标签
2.保存采集规则到软件下
3.设置 相关伪原创等操作和每次采集的数量
4.填写文章保存到哪个目录【重点如果用在目录站群 一定吧文章保存目录选择 目录站群 的caiji文件夹下的booy 文件里面】
5.采集完成访问自定网址【重点这个访问填写你的sheng.php链接 也就是我们以前说的要刷流量的链接 例如www.xunso.net/sheng.php】
不懂的多看看视频教程 好好研究下
记住在自己电脑上 写规则 然后在把规则传到服务器软件下 直接使用 软件可以在服务器上面挂机一直采集
rule 这个文件是保存和存放采集规则的
--------------------------------------------------------------------------------
(一) 列表规则 模式: 1、 文本导入 把待采集的列表页网址文本导入即可,每条网址一行。Txt 记事本一行一条 采集列表链接
2、 手动复制,适合少量列表页地址,直接把地址复制进入编辑框即可,一条一行。 3、 自定义规则。设置好匹配规则和页数范围,会自动生成。 数据范围设置: 这个设置主要提高取出文章链接的解析速度。一般列表页的所有文章链接会在一个ul中循环,设置了这个ul前后的关键代码数据后,软件会直接取出有效的文章链接数据,提高后续处理速度。 http://www.antimonopolylaw.org/youshi/list_21_5.html
(二) 文章链接规则 文章网址规则:<a href="{文章链接}" 找到列表页要取出的文章链接,用{文章链接}标签标示即可。 网址组合规则:针对有些链接不是完整的带http或https的,可以用此规则处理。例子:https:{文章链接}。这个处理结果是对取出的文章链接前面+https。根据需要运用即可。 网址必须含有/必须没有:针对采集的网址做判断,有效快速过滤无效数据。 多页链接规则:有的网站文章是多页,需要配置此项。一般例子:{文章链接}?page={页数}。 页码匹配规则:配合多页链接规则。找到文章的页码代码,用标签{页数}代替即可。一般例子:<span class="pc">{页数}</span>。注意此处取出的是最大页数。
(三) 文章内容规则 编码方式:右键网页,查看源代码即可查看。 标题规则:<h1 class="dc_title">{标题}</h1> 内容规则:<div id="xz360ArticleContent"class="dc_article_content">{内容}</div> 过滤规则:可以添加内置的过滤。也可以自定义过滤掉一些不需要的文本。 替换规则:自定义替换到文章内的指定内容。例子:星座-星象 (四) 采集配置 同义词替换:内置同义词文本,在目录tyc\tyc.txt下,可以自行添加完善修改。 简体转换繁体,插入ascii ,按需勾选即可。 循环间隔:单位分钟,不设置,则只执行一次。 数量限制:采集到指定数量停止运行。不设置则直到所有链接采集完毕。 保存目录:设置采集文章的保存路径。 完成访问:采集完成访问指定连接。一行一条即可。 PS:所有规则,配置完后,命名保存,存放位置:rule\规则名.ini。后续如需使用,直接读入已有规则即可。如果需要修改,读入后,修改保存即可。
标签:{页数} {文章链接} {标题} {内容}
|