C#用HtmlAgilityPack获取百度前端源码,为什么不行?
本帖最后由 liu8359 于 2020-10-2 08:58 编辑试了好几种办法都不行
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
string code = doc.ParsedText;
WebRequest request = WebRequest.Create(url);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
string code = reader.ReadToEnd();
string Html = string.Empty;//初始化新的webRequst
HttpWebRequest Request = (HttpWebRequest)WebRequest.Create(url);
Request.KeepAlive = true;
Request.ProtocolVersion = HttpVersion.Version11;
Request.Method = "GET";
Request.Accept = "*/* ";
Request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.56 Safari/536.5";
Request.Referer = url;
原来也这么干, 后来了解了一下python,发现自己是傻瓜 coolcalf 发表于 2020-10-1 17:31
原来也这么干, 后来了解了一下python,发现自己是傻瓜
{:301_998:}那我还是研究python吧,主要是工作就用C#,想研究着玩玩 学习一下z var Html = new WebClient().DownloadString("https://www.baidu.com");
试试这个代码? 百度html代码前面是一大堆空白的,往下拉就能看见了 这都能水? 你滚动条那么长看不到吗?打开百度首页源码看看? 试试httphelper http://httphelper.sufeinet.com/ 其实你这个已经获取到内容了,只是你看到了开头没看到结尾,内容在下面,看到你发的图上的滚动条了没?你得往下拉。。。。
刚开始我也被百度这个设计恶心到了。。。 cdj68765 发表于 2020-10-1 17:57
var Html = new WebClient().DownloadString("https://www.baidu.co ...
大佬,我试试
页:
[1]
2