TZ糖纸 发表于 2022-3-4 15:55

C#实现小说抓取并写入TXT

本帖最后由 TZ糖纸 于 2022-3-5 10:28 编辑

public class Program
    {
      private static string baseUrl = System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase;

      private static void Main(string[] args)
      {
            string baseReUrl = "https://www.biduoxs.com/";
            var client = new RestClient("https://www.biduoxs.com/biquge/17_17005/");
            var request = new RestRequest();
            Task<RestResponse> response = client.ExecuteAsync(request);
            //Console.WriteLine(response.Result.Content);
            var html = response.Result.Content;
            HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument();
            htmlDoc.LoadHtml(html);
            var list = htmlDoc.DocumentNode.SelectNodes("//*[@id=\"list\"]/dl/dd/a");
            foreach (var item in list)
            {
                Console.WriteLine(item.InnerText);
                //Console.WriteLine(item.Attributes["href"].Value);
                System.IO.File.AppendAllText(baseUrl + "xs.txt", item.InnerText + "\n\r");

                client = new RestClient(baseReUrl + item.Attributes["href"].Value);
                response = client.ExecuteAsync(request);
                var html2 = response.Result.Content;
                HtmlAgilityPack.HtmlDocument htmlDoc2 = new HtmlAgilityPack.HtmlDocument();
                htmlDoc2.LoadHtml(html2);
                var content = htmlDoc2.GetElementbyId("content").InnerHtml.Replace("<br>", "\n\r").Replace(" ", " ");
                System.IO.File.AppendAllText(baseUrl + "xs.txt", content);
            }
      }
    }

Nuget 包
RestSharp
HtmlAgilityPack


这里填写小说的目录链接

txt保存在程序的根目录自行查看

骑狗的猴子 发表于 2022-3-4 20:25

最近在学习C#   发现C# 是比较适合大众的 win下的环境wen桌面都可以

TZ糖纸 发表于 2022-3-4 15:56

很多小说的结构都差不多稍微修改一下 其他网站也能用

闷骚小贱男 发表于 2022-3-4 17:29

;www楼主标题是不是少写了一个说
小说抓取

hackgsl 发表于 2022-3-4 21:32

闷骚小贱男 发表于 2022-3-4 17:29
楼主标题是不是少写了一个说
小说抓取

哈哈,我以为小抓一下,后面还有大抓

longxing 发表于 2022-3-5 09:09

小抓是啥

TZ糖纸 发表于 2022-3-5 10:28

闷骚小贱男 发表于 2022-3-4 17:29
楼主标题是不是少写了一个说
小说抓取

哈哈,手误

ehcapa 发表于 2022-3-15 22:37

C# 的通用性还是不错的,上手也快

pppz123 发表于 2022-3-26 17:23

那这样晋江的能提取出来吗
页: [1]
查看完整版本: C#实现小说抓取并写入TXT