VB.net 2010 视频教程

VB.net 2010 视频教程

python基础视频教程

SQL Server 2008 视频教程

c#入门经典教程

Visual Basic从门到精通视频教程

当前位置:

首页 > 编程开发 > 简明python教程 >

简明python教程之爬取腾讯网的热点新闻文章并进行词频统计(Python爬虫+词频统计)

本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：一棵程序树

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们以财经分栏为例，这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中，每一条新闻都是一个li,那么我们只要获取了所有的li（即li对应的ul）就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了，一行代码

二、首页要爬取的内容（上图绿色方框中的内容）

1、详情页的链接地址(一行代码)

2、该条新闻所属的标签(一行代码)

那么步骤如下:

2.1 先定义我们获取网页源码的函数

接下来我们就要获取一下所有的li，其实用beutlfulsouo一行代码就可以搞定

获取之后要做一步判断，find_all返回的是一个列表元素，因为页面上的ul（无序列表）有多个我们不知道新闻的列表对应的是哪一个，所以要自己看一下。这里我们要的新闻的列表是uls的第二个元素，即uls[1].

2.2解析首页中的新闻详情页的链接，标签

三、解析详情页

详情页就更好说了。把标题和正文部分解析保存即可

四、数据更新

因为爬取的新闻都是实时的热点新闻，每次爬取的内容都不同，所以加上一个此步骤。将每次爬取的与之前数据不重复的内容保存下来。

五、词频统计

这里我在网上下了一份停用词表，就是代码中的stop_words.txt.这个里面的内容网上随便搜一搜就有了。

六、主函数即效果实现

如果要爬取多个分类的内容，那么把子类的链接加入待爬取的链接列表中就好了。完整代码如下：

2020年最新Python教程：

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？

说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。

以上这些教程小编已经为大家打包准备好了，希望对正在学习的你有所帮助！

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

栏目列表

JavaScript+JQuery从入门到精通视频教程

VB.net 2010 视频教程

VB.net 2010 视频教程

Java视频教程

VB.net 2010 视频教程

最新更新

flask与Flask-CORS的使用

flask 与 SQLAlchemy的使用

python连接Oracle工具类

python创建文件夹

如何利用python爬取网易新闻

Python 爬取猫眼电影《无名之辈》并对其进

Odoo12之开发过程中可能出现的问题

Python numpy的基本操作你一般人都不会

python获取指定文件夹下的文件和文件夹

.Net Standard（.Net Core）实现获取配置信息

Linux PXE + Kickstart 自动装机

Shell 编程基础

Shell 编程条件语句

CentOS8-网卡配置及详解

Linux中LVM逻辑卷管理

1.数码相框-相框框架分析(1)

Ubuntu armhf 版本国内源

Linux中raid磁盘阵列

搭建简易网站

mysql 安装了最新版本8.x版本后的报错：

Mysql空间数据&空间索引(spatial)

如何远程连接SQL Server数据库的图文教程

复制SqlServer数据库的方法

搜索sql语句

sql中返回参数的值

sql中生成查询的模糊匹配字符串

数据定义功能

数据操作功能

将Session值储存于SQL Server中