吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 7631|回复: 15
收起左侧

[其他转载] 火车头采集新浪新闻php插件

  [复制链接]
yemoecom 发表于 2019-1-7 17:08
本帖最后由 yemoecom 于 2019-1-7 17:13 编辑

前几天看了下demo!比较简单就发下!新浪的新闻接口可以自己抓下包这里贴上插件

新闻列表地址:https://news.sina.com.cn/roll/?qq-pf-to=pcqq.group#pageid=153&lid=2968&k=&num=50&page=1

[PHP] 纯文本查看 复制代码
<?php
 function curl_sina($url){
    $header = array (
  0 => 'Accept: */*',
  1 => 'Accept-Encoding: gzip, deflate, br',
  2 => 'Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
  3 => 'Connection: keep-alive',
  4 => 'Host: feed.mix.sina.com.cn',
  5 => 'Referer: https://news.sina.com.cn/roll/?qq-pf-to=pcqq.group',
  6 => 'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:55.0) Gecko/20100101 Firefox/55.0 FirePHP/0.7.4',
  7 => 'x-insight: activate',
);
    $postData = '';
    // $cookie = 'Cookie: UOR=,news.sina.com.cn,; ULV=1545891095102:2:2:2:10.71.2.95_1545891091.345391:1545891089621; SINAGLOBAL=10.71.2.95_1545891091.345389; Apache=10.71.2.95_1545891091.345391; NEWSCENTER=78565b88b160488188f3c4bb7622647b; lxlrttp=1545098194'; //需要cookie的话去掉这行的注释
    $timeout = 10;

    $ch  = curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);       //返回数据不直接输出
    curl_setopt($ch, CURLOPT_ENCODING, "gzip");        //指定gzip压缩
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);    //302/301
    //SSL
    if(substr($url, 0, 8) === 'https://') {
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
        //error:14077458:SSL routines:SSL23_GET_SERVER_HELLO:reason(1112)解决
        //值有0-6,请参考手册,值1不行试试其他值
        //curl_setopt($ch, CURLOPT_SSLVERSION, 1);
    }
    //post数据
    if(!empty($postData)) {
        curl_setopt($ch, CURLOPT_POST, 1);               //发送POST类型数据
        curl_setopt($ch, CURLOPT_POSTFIELDS, $postData); //POST数据,$post可以是数组(multipart/form-data),也可以是拼接参数串(application/x-www-form-urlencoded)
    }
    if(!empty($cookie)) {
        $header[] = $cookie;
    }
    if(!empty($header)) {
        curl_setopt($ch, CURLOPT_HTTPHEADER, $header);     //使用header头信息
    }
    //超时时间
    curl_setopt($ch, CURLOPT_TIMEOUT, (int)$timeout);
    //执行
    $content = curl_exec($ch);
    if($error = curl_error($ch)) {
        //log error
        error_log($error);
    }
    curl_close($ch);

    // $content 是请求结果
return $content;
 }

 
 //$u='https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1';
 if($LabelArray['PageType']=='List'){         
        $content=curl_sina($LabelUrl); //获取到的当前列表源码内容
        $resarr = json_decode($content, true);
$resdata = $resarr['result']['data'];
$us='';
foreach($resdata as $k => $v){
        $us.='<b>'.$v['url'].'</b>';
        $LabelArray['Html']='str'.$us.'go';
}

 }
 //$LabelArray['Html']=curl_sina($LabelUrl); //获取到的当前列表源码内容
echo serialize($LabelArray);
?>


接口主要获取列表有限制!这个插件就是获取列表地址的

然后在列表页上使用下面的规则


至于内容页的信息采集你们就自己写吧!很简单的

免费评分

参与人数 3吾爱币 +3 热心值 +3 收起 理由
liu741741 + 1 + 1 热心回复!
15851080065 + 1 + 1 我很赞同!
javaxue + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| yemoecom 发表于 2019-1-18 19:34
本帖最后由 yemoecom 于 2019-1-18 19:35 编辑
flyxo 发表于 2019-1-18 12:29
您使用的火车头PHP插件存在语法或其他问题,请检查!

列表页:https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=(*)
列表规则


把上面的代码保存成php放到:你的火车头目录\Plugins\LocoySpider  下然后选择刚刚办成的php插件


返回列表页获取内容看看


内容页获取到了!内容规则就简单了!本来就是一个文章页面!标题 图片 内容 作者等等!

这里主要是获取列表的插件!
15851080065 发表于 2019-2-21 10:06
yemoecom 发表于 2019-1-18 19:34
列表页:https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=(*)
列表规则 ...

0221.png

果然报错!!
javaxue 发表于 2019-1-10 21:54
你好这个获取列表插件,怎么样和火车头进行连接,有没有详细的教程,谢谢
 楼主| yemoecom 发表于 2019-1-17 15:49
javaxue 发表于 2019-1-10 21:54
你好这个获取列表插件,怎么样和火车头进行连接,有没有详细的教程,谢谢



新浪的列表!火车头貌似获取不了!只能使用插件了
zhangziyu 发表于 2019-1-18 09:12
yemoecom 发表于 2019-1-17 15:49
新浪的列表!火车头貌似获取不了!只能使用插件了

规则上传一份 哈哈  我这提示语法错误 火车头的
头像被屏蔽
flyxo 发表于 2019-1-18 12:29
提示: 作者被禁止或删除 内容自动屏蔽
zhangziyu 发表于 2019-1-19 20:23
语法错误
zhangziyu 发表于 2019-1-19 20:26
你的火车头php环境发下~~~~~~~~~~
头像被屏蔽
liangxiaotao 发表于 2019-1-23 07:58
提示: 作者被禁止或删除 内容自动屏蔽
lxm808 发表于 2019-1-23 09:01 来自手机
采集软件不错,
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 00:53

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表