3.所有分页都获取到了,接下来就是要获取页面中的每张图片了,打开页面查看源代码:
观察发现,所有的图片都在class=img的div下面,那就可以从每个分页中直接下载所有的图片了,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
//获取每一个分页的文档模型 IHtmlDocument htm2 = new JumonyParser().LoadDocument($ "{address}{href}" , System.Text.Encoding.GetEncoding( "utf-8" )); //获取class=img的div下的img标签 var aLink = htm2.Find( ".img img" ); foreach ( var link in aLink) { var imgsrc = link.Attribute( "src" ).Value(); Console.WriteLine( "获取到图片路径" + imgsrc); Console.WriteLine($ "开始下载图片{imgsrc}>>>>>>>" ); DownLoadImg( new Image { Address = address + imgsrc, Title = url }); } } |
图片下载方法如下,为防止下载的时候阻塞主进程,下载采用异步:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
/// <summary> /// 异不下载图片 /// </summary> /// <param name="image"></param> async static void DownLoadImg(Image image) { using (WebClient client = new WebClient()) { try { int start = image.Address.LastIndexOf( "/" ) + 1; string fileName = image.Address.Substring(start, image.Address.Length - start); //图片目录采用页面地址作为文件名 string directory = "c:/images/" + image.Title.Replace( "/" , "-" ).Replace( "html" , "" ) + "/" ; if (!Directory.Exists(directory)) { Directory.CreateDirectory(directory); } await client.DownloadFileTaskAsync( new Uri(image.Address), directory + fileName); } catch (Exception) { Console.WriteLine($ "{image.Address}下载失败" ); File.AppendText( @"c:/log.txt" ); } Console.WriteLine($ "{image.Address}下载成功" ); } } |
栏目列表
最新更新
如何使用OS模块中的stat方法
Python os 模块
seek() 方法
python打开文件实例1
Python写入文件
什么是流?
文件操作如何进制逐行读取
Python相对路径
with创建临时运行环境
Python文件操作
.Net Standard(.Net Core)实现获取配置信息
Linux PXE + Kickstart 自动装机
Shell 编程 基础
Shell 编程 条件语句
CentOS8-网卡配置及详解
Linux中LVM逻辑卷管理
1.数码相框-相框框架分析(1)
Ubuntu armhf 版本国内源
Linux中raid磁盘阵列
搭建简易网站
access教程之Access简介
mysql 安装了最新版本8.x版本后的报错:
Mysql空间数据&空间索引(spatial)
如何远程连接SQL Server数据库的图文教程
复制SqlServer数据库的方法
搜索sql语句
sql中返回参数的值
sql中生成查询的模糊匹配字符串
数据定义功能
数据操作功能