-
ASP.net教程之.net 使用HtmlAgilityPack做爬虫
HtmlAgilityPack官网:https://html-agility-pack.net/?z=codeplex
.net中使用HtmlAgilityPack做爬虫步骤:
1、在nuget中安装HtmlAgilityPack
安装好之后我们就可以开始我们的爬虫之旅了
2、抓取网页源代码
1 var web = new HtmlWeb(); 2 var doc = web.Load("要抓取的网页链接");至此,我们就得到了网页的源代码了,然后用HtmlDocument来操作
还有一些特殊性质的需要填装验证数据的抓取,我们可以通过HttpWebRequest或者HttpClient来获取网页源代码
1 var htmlTxt =获取html的string的方法; 2 var doc = new HtmlDocument(); 3 doc.LoadHtml(htmlTxt);3、进行数据筛选清洗
举个栗子:
我们现在抓取电影天堂的数据:https://www.dytt8.net
我们先抓取他的分类,我们打开https://www.dytt8.net 然后右键查看源代码,发现分类处于div class 为contain中,这样我们就好办了
直接用HtmlDocument获取 class为contain的所有a标签
1 var list =doc.DocumentNode.SelectNodes("//div[@class='contain']/ul/li/a"); 2 3 4 foreach (var item in list) 5 { 6 //获取a标签下面的href 7 var url = item.Attributes["href"].Value; 8 // 获取a标签的文本 9 var txt =item.InnerHtml; 10 }这样,我们就获取电影天堂的影片分类啦。
栏目列表
最新更新
如何使用OS模块中的stat方法
Python os 模块
seek() 方法
python打开文件实例1
Python写入文件
什么是流?
文件操作如何进制逐行读取
Python相对路径
with创建临时运行环境
Python文件操作
.Net Standard(.Net Core)实现获取配置信息
Linux PXE + Kickstart 自动装机
Shell 编程 基础
Shell 编程 条件语句
CentOS8-网卡配置及详解
Linux中LVM逻辑卷管理
1.数码相框-相框框架分析(1)
Ubuntu armhf 版本国内源
Linux中raid磁盘阵列
搭建简易网站
access教程之Access简介
mysql 安装了最新版本8.x版本后的报错:
Mysql空间数据&空间索引(spatial)
如何远程连接SQL Server数据库的图文教程
复制SqlServer数据库的方法
搜索sql语句
sql中返回参数的值
sql中生成查询的模糊匹配字符串
数据定义功能
数据操作功能