管理员你好,看到腾讯“社会万象”的文章很不错,想给采集过来,可是修改来修改去就是采集不到文章,还是采集规则不会啊,请ADMIN给帮忙改一下哈,先谢谢啦
社会万象的网址是http://news.qq.com/newssh/shwx/shehuiwanxiang.htm
<?php
/*以下为采集的规则,带“★★★★★”的项目,用户可以根据需要自行修改,其他的尽量不要修改。*/
//★★★★★ 开始采集的URL
$BEGIN_URL="http://news.qq.com/newssh/shwx/";
//★★★★★ 采集的数量,请勿填写过大,建议填写100
$COL_LIMIT_NUM = 100;
//被采集的网站的编码
$WEB_CHARSET="utf-8";
//获取文章URL的正则表达式
$VIEW_URL_P='/http:\/\/news.qq.com/newssh/shwx\/(\d{8,8})\/n(\d{5,5}).shtml/isU';
//★★★★★ 文章URL的正则匹配项的范围, array("1","100","999") 表示匹配的第一项的范围是100至999
$VIEW_URL_RANGE=array(
array("1","20110702","20110704"),
array("2","10000","99999"),
);
//获取文章URL的前缀
$VIEW_URL_PRE='';
//文章标题的正则表达式
$COL_TITLE_P='/<h1>(.*)<\/h1>/isU';
//文章标题的正则表达式的匹配项
$COL_TITLE_P_N=1;
//文章标题中需要替换的字符串,请使用正则表达式
$COL_TITLE_REPLACE_R=array(
"/6kbbs论坛/is"=>"6KBBS官方论坛",
);
//文章内容的正则表达式
$COL_CONTENT_P='/<div id=\"content\">(.*)<\/div>(.*)<\!--<div id=\"ckepop\">/isU';
//文章内容的正则表达式的匹配项
$COL_CONTENT_P_N=1;
//文章内容中需要替换的字符串,请使用正则表达式
$COL_CONTENT_REPLACE_R=array(
"/6kbbs论坛/is"=>"6k论坛",
);
$IS_DEBUG=false;
?>