[PHP源码]文章原创度检测源码

无名小银 发表于 2020-8-16 14:23

本帖最后由无名小银于 2020-8-16 14:24 编辑

前言
本人去年写了一个PHP伪原创的工具，但是有时候还需要查看一下伪原创后的文章原创度，换句话说在搜索引擎上是否有类似的文章。

本次原创度检测源代使用百度搜索为准。

首先拼凑百度搜索的url，并且百度限制了搜索词在38个汉字以内，其他的会被丢弃。

https://www.baidu.com/s?ie=utf8&wd=关键词

php curl访问函数源代码
function curl($url){
            $ch = curl_init();
            curl_setopt($ch, CURLOPT_URL,$url);
            curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
            curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
            $httpheader[] = "Accept:*/*";
            $httpheader[] = "Accept-Encoding:gzip,deflate,sdch";
            $httpheader[] = "Accept-Language:zh-CN,zh;q=0.8";
            $httpheader[] = "Connection:close";
            curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader);
            curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0');
            curl_setopt($ch, CURLOPT_ENCODING, "gzip");
            curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
            $ret = curl_exec($ch);
            curl_close($ch);
            return $ret;    }

好了，现在百度搜索的url也有了，那怎么检查一篇文章的原创度了？

首先要把一篇文章的所有html标签去掉，那就需要使用以下代码
function ClearHtml($str)
{
$str = trim($str);
$str = strip_tags($str,"");
$str = preg_replace("/\t/","",$str);
$str = preg_replace("/\r\n/","",$str);
$str = preg_replace("/\r/","",$str);
$str = preg_replace("/\n/","",$str);
$str = preg_replace("/ /","",$str);
$str = preg_replace("//","",$str);
return trim($str);
}

然后就要把重新整理好的文章分隔成为每38个汉字为一组的数组，所使用的代码为

function mbStrSplit ($string, $len=38) {
$start = 0;
$strlen = mb_strlen($string);
while ($strlen) {
$array[] = mb_substr($string,$start,$len,"utf8");
$string = mb_substr($string, $len, $strlen,"utf8");
$strlen = mb_strlen($string);
}
return $array;
}
如果你的PHP环境为PHP7.4可直接使用以下内置函数把文章分割为38个汉字为一组，不过我这里是使用的上面的，暂时没有搭建最新的PHP环境。mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array

注:https://www.php.net/manual/zh/function.mb-str-split.php
以下为文章中其中一个38个汉字的原创度获取源代码，我就不一一解释了，我感觉我这里代码写的不太好，如果您有优化好的，请回复，谢谢。
function bdycl($content){

$info=curl('https://www.baidu.com/s?ie=utf8&wd='.urlencode($content));
preg_match_all("/<div class=\"c-abstract\">(.*?)<\/div>(.*?)href=\"(.*?)\"/is", $info,$baidu);

$count1=count($baidu['1']);

for($i=0;$i<$count1;$i++){
   preg_match_all("/<em>(.*?)<\/em>/is", $baidu['1'][$i],$baidu_em);
   $count=count($baidu_em);
            if($count>1){
            $baiduem='';
            foreach($baidu_em as $value){
                     $baiduem.=$value;
            }
            $bdem[]=[
            'content'=>$baiduem,
            'url'=>$baidu['3'][$i]
            ];
   }else{
            $bdem[]=[
            'content'=>@$baidu_em,
            'url'=>$baidu['3'][$i]
            ];
   }
}

if(is_array($bdem)){
   $count=count($bdem);
   $in=[];
   for($i=0;$i<$count;$i++){
            similar_text($content,$bdem[$i]['content'],$per);
            $ii=ceil($per);
            $similar[]=$ii;
            if($ii>90){
                     $in[]=[
                     'similar'=>$ii,
                     "content"=>$bdem[$i]['content'],
                     'url'=>$bdem[$i]['url']
                     ];
            }
   }
   array_multisort(array_column($in,'similar'),SORT_DESC,$in);

   if(isset($in['0'])){
                     $in=$in['0'];
            }

   return ['similar'=>(100-array_sum($similar)/count($bdem)),'content'=>$in];

}
}

单独一组38个汉字咱们已经写完了，现在需要来一个查询多组的。以下为源代码

function ycl($content){
   $info=mbStrSplit($content);
   $count=count($info)-1;
   if($count<11){
            $rand=$count+1;
   }else{
            $rand='10';
   }
   $tmp = range(0,$count);
   $array_rand=array_rand($tmp,$rand);

   foreach($array_rand as $v){
            $ycl[]=bdycl($info[$v]);

   }
   $count=count($ycl);
   for($i=0;$i<$count;$i++){
            $similar[$i]=$ycl[$i]['similar'];
   }
   $ycd=ceil(((array_sum($similar)/count($ycl))));

   if($ycd <=30){
            $str = "原创度非常低，不建议发布。";
   }else if($ycd <=60 && $ycd > 30){
            $str = "原创度比较低，建议修改后再发布。";
   }else if($ycd <=75 && $ycd > 60){
            $str = "原创度还可以，建议修改后再发布。";
   }else if($ycd <= 85 && $ycd > 75){
            $str = "原创度较好，属于原创文章，可以发布。";
   }else if($ycd > 85){
            $str = "原创度非常棒，属于原创文章，可以发布。";
   }
   return ['ycl'=>$ycd,'info'=>$str];

}
然后随便从网上找一篇文章，进行检测的结果为：

好了，到此结束，谢谢大家的观看。

无名小银 发表于 2020-8-17 16:34

huguo002 发表于 2020-8-17 11:11
有个新闻接口查询的，可以加上！

老哥最近在搞什么了？

什么意思，不太懂

简单i 发表于 2020-12-25 01:47

无名小银发表于 2020-8-17 16:37
可以啊，给我钱就行。

老哥发我一份咯有偿企鹅553399608 有偿有偿

额微粒波地 发表于 2020-8-16 15:11

感谢你的分享

paike100 发表于 2020-8-16 15:43

能分享一下完整源码吗？

无名小银 发表于 2020-8-16 16:39

paike100 发表于 2020-8-16 15:43
能分享一下完整源码吗？

上面的就是啊

paike100 发表于 2020-8-16 18:37

无名小银发表于 2020-8-16 16:39
上面的就是啊

关键不知道咋用

未闻听心 发表于 2020-8-17 08:12

感谢发布原创作品，吾爱破解论坛因你更精彩！

huguo002 发表于 2020-8-17 11:11

有个新闻接口查询的，可以加上！

老哥最近在搞什么了？

xiaomim123 发表于 2020-8-17 15:10

啥时候把那个聚合程序给我一份啊

无名小银 发表于 2020-8-17 16:37

xiaomim123 发表于 2020-8-17 15:10
啥时候把那个聚合程序给我一份啊

可以啊，给我钱就行。

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

[PHP源码]文章原创度检测源码