吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3189|回复: 34
收起左侧

[已解决] 爬取政府机关的网站遇到一些问题

[复制链接]
hj170520 发表于 2020-11-20 18:09
本帖最后由 hj170520 于 2020-11-20 22:14 编辑

请问各位大佬们,
“https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemList.html?itemPId=1851&itemId=1855&itemUrl=ItemListRightList.html&itemName=%E8%A1%8C%E6%94%BF%E5%A4%84%E7%BD%9A#2”
想爬取该网站的一些“处罚信息”,但这个网站返回来得值好像全是“JS”格式的代码??
根本抓不到网站的源代码啊!

请问怎么回事呢



这是爬取的源文件,和网站内容相差甚远呢!
[HTML] 纯文本查看 复制代码
<!DOCTYPE html>
<html lang="zh-cn">

<head>
    <meta charset="UTF-8">
    <title>&#228;&#184;-&#229;&#8250;&#189;é“&#182;è&#161;&#338;&#228;&#191;&#157;é&#8482;&#169;&#231;&#8250;‘&#231;&#157;£&#231;&#174;&#161;&#231;&#144;&#8224;&#229;§”&#229;‘&#732;&#228;&#188;&#353;</title>
    <meta name="author" content="">
    <meta name="description" content="">
    <meta name="keywords" content="">
    <meta name="SiteName" content="">
    <meta name="SiteDomain" content="">
    <meta name="SiteIDCode" content="">
    <meta name="ColumnName" content="">
    <meta name="ColumnDescription" content="">
    <meta name="ColumnKeywords" content="">
    <meta name="ColumnType" content="">
    <meta http-equiv="Window-target" content="_top">
    <link rel="Shortcut Icon" href="favicon.ico">
    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <link href="/branch/css/common/base.css?v=20200108" rel="stylesheet" />
    <link href="/branch/css/common/Common.css?v=20200108" rel="stylesheet" />
    <!--[if lt IE 9]>
       <script src="/branch/js/common/html5shiv.min.js"></script>
       <script src="/branch/js/common/respond.js"></script>
    <![endif]-->
</head>

<body>
    <div class="main ng-cloak" ng-app="myApp">

        <tpl src="/branch/view/components/Header.html"></tpl>
        <div class="content" ng-controller="itemListCtrl">
            <link href="/branch/css/common/share.css?v=20200108" rel="stylesheet" />
            <!-- <div class="breadcrumb">
                <ul>
                    <li>&#229;&#189;“&#229;‰&#141;&#228;&#189;&#141;&#231;&#189;&#174;&#239;&#188;&#353;
                        <span id="currentLocation"></span>
                    </li>
                </ul>
            </div> -->
            <div class="breadcrumb">
                <ul>
                    <li>&#229;&#189;“&#229;‰&#141;&#228;&#189;&#141;&#231;&#189;&#174;&#239;&#188;&#353;
                        <a ng-href="{{breadcrumb_shouye}}">é|–é&#161;μ</a>
                    </li>
                    <li ng-repeat="x in breadcrumb_detail">
                        <a>{{x.itemName}} </a>
                    </li>
                </ul>
            </div>
            <div class="main">
                <div class="row container">
                    <div class="caidan-left-div">
                        <tpl src="/branch/view/pages/ItemListSide.html"></tpl>
                    </div>
                    <div class="caidan-right-div">
                        <tpl id="itemList"></tpl>
                    </div>
                </div>
            </div>
        </div>

        <tpl src="/branch/view/components/Footer.html"></tpl>
    </div>
    <script src="/branch/js/common/jquery/jquery-1.11.2.min.js"></script>
    <script>
        function queryParam(name) {
            var reg = new RegExp("(^|&)" + name + "=([^&]*)(&|$)");
            var r = window.location.search.substr(1).match(reg);
            if (r != null) return unescape(r[2]); return null;
        };
        $("#itemList").attr("src", "/branch/view/pages/common/" + queryParam("itemUrl"));
    </script>
    <script src="/branch/js/common/angular.1.2.32.min.js"></script>
    <script src="/branch/js/common/jquery.share.min.js"></script>

    <script src="/branch/js/common/Script.js?v=20200108"></script>
    <script src="/branch/js/common/Nav.js?v=20200108"></script>
    <script src="/branch/js/common/ItemList.js?v=20200108"></script>
    <script type="text/javascript">
        $(document).ready(function () {
            $('#share-more').myHoverTip('share-more-all');
            $('#share-weixin').share({ sites: ['wechat'] });
            $('#share-weibo').share({ sites: ['weibo'] });
            $('#share-qzone').share({ sites: ['qzone'] });
            $('#share-qq').share({ sites: ['qq'] });
        })      
    </script>
    <!--custom-->
</body>

</html>

免费评分

参与人数 3吾爱币 +3 热心值 +2 收起 理由
jasonwan2010 + 1 + 1 用心讨论,共获提升!
ryg2080 + 1 + 1 用心讨论,共获提升!
dgy + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

水木杉 发表于 2020-11-20 18:20
爬虫学的好,牢饭吃得早。。。
QingYi. 发表于 2020-11-20 18:23
52loli 发表于 2020-11-20 18:25
六度 发表于 2020-11-20 18:27
https://www.cbirc.gov.cn/cn/static/data/DocInfo/SelectByDocId/data_docId=904795.json

看链接中的ID,只能帮你到这了。
 楼主| hj170520 发表于 2020-11-20 18:27
52loli 发表于 2020-11-20 18:25
https://www.cbirc.gov.cn/cn/static/data/DocInfo/SelectDocItemByItemPId/data_itemId=1855,pageIndex=2, ...

谢谢! 太感谢了。
Jutean 发表于 2020-11-20 18:28
QingYi. 发表于 2020-11-20 18:23
胆大 爬取zf的网站

天眼查建筑通这些不都是爬政府的数据卖给用户
 楼主| hj170520 发表于 2020-11-20 18:35
六度 发表于 2020-11-20 18:27
https://www.cbirc.gov.cn/cn/static/data/DocInfo/SelectByDocId/data_docId=904795.json

看链接中的ID ...

可以的,谢谢!
Bigdangjia 发表于 2020-11-20 18:59
那你是疯了兄弟!
winter_wind 发表于 2020-11-20 19:01
学习了,不仅仅有技术,还要有胆量
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-16 11:15

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表