转至繁体中文版     | 网站首页 | 图文教程 | 资源下载 | 站长博客 | 图片素材 | 武汉seo | 武汉网站优化 | 
最新公告:     敏韬网|教学资源学习资料永久免费分享站!  [mintao  2008年9月2日]        
您现在的位置: 学习笔记 >> 图文教程 >> 站长学院 >> Web开发 >> 正文
狂人采集器规则使用详解         ★★★

狂人采集器规则使用详解

作者:闵涛 文章来源:闵涛的学习笔记 点击数:1406 更新时间:2011/5/2 14:58:09
首先大家记住几个编写规则用的代码:
1、d000d加数字,为上一行,或下一行;
d000d加正数为往下一行(1、2、3……),如:d000d1或d000d2分别表示从某一关键词的下一行或下两行截取;
d000d加负数为往上一行(-1、-2、-3……),如:d000d-1、d000d-2分别表示从某一关键词的上一行或上两行截取;
d000d一般和关键词及分隔符配套使用,比如:“狂人*d000d1”或“短消息*d000d-2”分别表示:从关键词“狂人”所在那行的下一行开始截取内容;或从关键词“短消息”所在那行的上两行开始截取内容;
2、d333d 表示只截取当前一行,一般用来截取标题时用;
3、d111d加数字,为前一字符,或后一字符;
d111d加正数为后一字符(1、2、3……),如:d111d1或d111d2分别表示从某一关键词的后一个字符或后两个字符截取;
d111d加负数为往上一行(-1、-2、-3……),如:d111d-1、d111d-2分别表示从某一关键词的前一个字符或前两个字符截取;
d111d一般和关键词及分隔符配套使用,比如:“狂人*d111d1”或“短消息*d111d-2”分别表示:从关键词“狂人”后一个字符开始截取内容;或从关键词“短消息”前两个字符开始截取内容;
4、d222d加关键字   放在标题截取开始处.为整个文本只保留关键字前的文本.后面的全不要
5、d666d   换不换行
6、*  为隔开关键字的符号,关键字在前,代码在后,比如:“短消息*d111d-2”;“狂人*d000d1”等。
以上代码中1、2、6、为常用代码,所有代码根据需要可以任意组合使用,特别注意一点:内容截取的开始是从上到下找定位关键词,内容结束是从下往上找定位关键词!(定位关键词指的是采集过程中每个帖子或文章都出现的关键词,此关键词最好不要是变量,比如帖子中间的广告代码或随机图片等)
比如:
短消息*d000d1*狂人    表示内容截取从关键词“短消息”所在那行的下一行开始截取内容,如果下一行有关键词“狂人”,则内容从关键词“狂人”后面开始正式截取!
/top.gif*d000d-1*gline.gif*[ 本帖最     表示从关键词“/top.gif”的上一行开始截取,如果上一行有关键词“gline.gif”的话,就从关键词“gline.gif”前截取,如果关键词“gline.gif”前还有关键词“[ 本帖最”,那么就从关键词“[ 本帖最”前面截取!
各位记住上面的代码并充分理解后,我们开始拿实际案例来演示规则别写过程:
现在我们拿采集大挪移来实际演示,首先找一个您想要采集的网站或者论坛的版块,我们拿“BT神话论坛”的“东方丽人”板块来示范  http://www.iwuxue.com/forum-8-1.html
1、打开“东方丽人”板块
2、打开采集大挪移,点击“采集设置”
3、设置采集搬家来源论坛网站名称:填写“BT神话论坛  东方丽人”(此处并不要求一定要和目标论坛一致,可随意填写,只要自己知道即可,不过建议编号一下比较好:如“001BT神话论坛  东方丽人”,如果采集规则较多的话,比较好查找一点)
4、“帖子列表网址” 、“列表页号”、“列表尾缀”、“页号间隔的填写”
如果大家用过讯雷的批量下载的话应该知道这个意思,http://www.iwuxue.com/forum-61- 地址的前缀,该版块的地址都有这,.html,这个是地址的后缀,1这个是变化的参数,还不大清楚的话建议直接把该板块的第一、二、三页地址复制放到一起比较一下:
http://www.iwuxue.com/forum-8-1.html
http://www.iwuxue.com/forum-8-2.html
http://www.iwuxue.com/forum-8-3.html
发现只有1、2、3在变换,其他的不动,而且他们是以+1的方式递进的,所以对应参数的填写如下:
“帖子列表网址” 填写:http://www.iwuxue.com/forum-8-
“列表页号”     填写:1
“列表尾缀”     填写:.html
“页号间隔”     填写:1
5、列表帖子网址筛选的填写:
实际上就是如何把这个板块需要采集的帖子和其他无效信息或链接区分开来,也就需要找该板块所有需要采集的帖子列表的共同网址部分,而且这些网址还要是其他无效链接所没有的;此处的填写内容至关重要,决定时候能准确的采集到需要采集的帖子;
说的有点饶舌,我们干脆这样来操作,任意复制帖子列表第一页的三个帖子地址到下面,通过比较就很快能得出答案:
http://www.iwuxue.com/thread-1752-1-1.html
http://www.iwuxue.com/thread-1654-1-1.html
http://www.iwuxue.com/thread-1328-1-1.html
发现每个帖子都有“http://www.iwuxue.com/thread-”和“-1-1.html”
我们再看下回复帖子超过一页的:
http://www.iwuxue.com/thread-1752-2-1.html
http://www.iwuxue.com/thread-1753-2-1.html
当回复超过1页的时候这个是变的-1-,所以列表帖子网址筛选为-1-1.html,就是只有帖子主题地址有的,而多页回复地址和版块列表地址没有,这个的时候就不会采集到第二,第三页的回复了。
填写完上面的所有内容后,点击“添加保存修改”,特别说明,在设置采集规则时,最好是每设置两个地方就点一次“添加保存修改”,这样能防止操作失误而导致前功尽弃,一次性填写后点击添加修改保存还有可能造成参数填写错位!
然后点击“测试”,查看测试结果页左下角的帖子列表是否一致,如帖子列表地址不一致,请继续修改列表帖子网址筛选的填写或切换采集模式!
6、帖子地址错误替换,此功能极少使用,本次不做介绍,可到论坛查找使用方法!
7、采集搬家文章方式:普通、注册、引用、稳定
这四种采集方式并没有什么特别的含义,只要是有些论坛或网站程序的编写方式不一样,可能导致采集时候无法正常采集,这四种采集方式大家可以多试试,如果采集规则正确时一种采集不正常就换另外一种,填好上面的后点测试查看效果;如果四种都不能正常采集,建议检查采集规则,同时也不能排除有10%左右的网站论坛有防采集功能!
这里需要特别说明的是 注册 采集模式,这种采集模式主要是用在一些游客无法看帖,需要注册会员登录才能查看帖子的论坛使用:具体方法为,打开浏览器并输入需要采集的论坛网址并登录进去,然后打开软件采集,采集过程中不能关闭浏览器或退出该论坛的登录,否则会造成采集中断!
一般网站论坛推荐用 普通 模式采集即可,少用稳定模式采集,因为稳定模式采集方式会占用资源稍多,有时导致软件假死,采集速度和其他采集方式基本一致!
8、网站防盗内容破解:只要是指启用了干扰码的论坛,因每个论坛的干扰码模式和方法不一样,本处不做介绍,特别需要的可直接联系客服帮助解决即可;
9、帖子标题截取
在上面已经设置好了的基础上,点击“测试”;等测试结果出来后,复制界面右上角的网址到浏览器并打开网页;确定是主贴内容后,打开一个记事本,将测试结果页面右下角的文本内容复制粘贴到记事本;点击软件“关闭测试显示”,同时掉出先前打开的网页,开始对照查找标题并定位截取;
从网页上可以看出,该帖子标题为:[贴图] 意乱情迷的娇媚少妇[13P]
然后在记事本里找这个标题所在地方,并找出帖子标题开始的定位关键词,聪明的您一定发现了,帖子标题是从“标题:”这个关键词开始的,那么标题的截取开始就是以关键词“标题:”为标志后的内容;那么标题的结束是以什么为标志呢?呵呵 观察一下,发现帖子标题和关键词“标题:”在同一行,且标题只在这一行,那么只截取当前一行就可以了,代码是d333d;
标题截取开始填写   标题:
标题截取结束填写   d333d
意思是截取“标题:” 后面的字,然后只截取当前一行。
然后点击测试,查看左上角标题是否截取正确,如果不正确的话,重新编写,正确的话进行内容截取!
10、帖子内容截取
在网页中找内容开始的地方,结果发现内容的开始部分为:*****
然后到记事本中找这个部分,然后找他前面开始的关键词,发现是在“短消息”的下两行截取的,那么
内容截取开始填写    短消息*d000d2
接下来找内容结束的地方,发现内容在 /top.gif 的上一行结束,所以在截取结束填的代码应该是 /top.gif*d000d-1,如果我们只填那个的话,把别人的签名也截取了,如果不想要签名,只需在文章截取结束的代码后面在加上 gline.gif,用*隔开,所以截取结束的代码就应该填/top.gif*d000d-1*gline.gif
[img]http://www.iwuxue.com/images/common/si 这个是签名图片地址的前半部分,我们可以把它屏蔽掉,
特别说明,如果有的帖子后面有“本帖最近被***评分”这样的,那么截取代码可以填写“/top.gif*d000d-1*gline.gif*本帖最近”
有的帖子后面还有“[ 本帖最后被***编辑 ]”这样的,那么截取代码可以填写“/top.gif*d000d-1*gline.gif*本帖最近*[ 本帖最”
依次类推,再次说明一点:内容截取的开始是从上到下找定位关键词,内容结束是从下往上找定位关键词!千万别弄错了!
11、帖子回复截取:截取回复的内容和截取文章的内容是一样的,大家照上面方法截取就行了。
12、最后一个设置千万别忘记了:采集后帖子文章搬家到主论坛对应板块选取,也可以以后采集的时候选择!
13、采集帖子、发布帖子!整个采集编写过程就全部结束了
采集规则编写的代码就上面那几个,关键要靠大家灵活运用。一般一种论坛程序版本会有一个通用的采集规则模式!
采集维护王、采集大挪移以及同步采集器的采集规则基本一样,区别在于采集的地址和方式不一样,但是截取内容的代码是一样的,采集维护王主要用于采集网站最新的帖子和文章,采集大挪移主要是把别人网站或论坛好的版块内容全部按顺序搬到您的论坛上。同步采集器则主要是及时、实时的采集别人网站或论坛的最新帖子,实现您的论坛帖子内容和目标站内容同步更新。
[C语言系列]使用C#实现ADSL自动拨号  [C语言系列]C# Regex用法详解
[MySql]MySQL DELETE语法用法详解  [C语言系列]Messagebox.Show()常用参数用法实例详解
[Web开发]Apache访问日志详解  [Web开发]dede 调用自定义字段方法详解
[VB.NET程序]Combobox属性及使用方法详解  [C语言系列]C#中AxWebBrowser使用及制作浏览器详解
[Web开发]iis中的伪静态设置详解  [Web开发]WINDOWS系统IIS 伪静态重写方法详解
教程录入:mintao    责任编辑:mintao 
  • 上一篇教程:

  • 下一篇教程:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
      注:本站部分文章源于互联网,版权归原作者所有!如有侵权,请原作者与本站联系,本站将立即删除! 本站文章除特别注明外均可转载,但需注明出处! [MinTao学以致用网]
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)

    同类栏目
    · Web开发  · 网页制作
    · 平面设计  · 网站运营
    · 网站推广  · 搜索优化
    · 建站心得  · 站长故事
    · 互联动态
    更多内容
    热门推荐 更多内容
  • 没有教程
  • 赞助链接
    更多内容
    闵涛博文 更多关于武汉SEO的内容
    An error occurred on the server when processing the URL. Please contact the system administrator.

    If you are the system administrator please click here to find out more about this error.

    | 设为首页 |加入收藏 | 联系站长 | 友情链接 | 版权申明 | 广告服务
    MinTao学以致用网

    Copyright @ 2007-2012 敏韬网(敏而好学,文韬武略--MinTao.Net)(学习笔记) Inc All Rights Reserved.
    闵涛 投放广告、内容合作请Q我! E_mail:admin@mintao.net(欢迎提供学习资源)

    站长:MinTao 信息产业部ICP备案号:鄂ICP备11006601号

    闵涛站盟:医药大全-武穴网A打造BCD……
    咸宁网络警察报警平台