VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > temp > python入门教程 >
  • Python系列爬虫之分析鱼C论坛热帖

前言

利用python爬取鱼C论坛最新热门帖子信息并做简要分析,毕竟出品的课程对新手还是很友好滴,让我们愉快地开始吧~

开发工具

Python版本:3.6.4
相关模块:

requests模块;

pyecharts模块;

jieba模块;

wordcloud模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

抓取目标:

鱼C论坛最新热门帖子信息:

图片

通过requests模块+正则表达式即可实现抓取所有帖子的信息了。

分析目标:

将抓取到的帖子信息数据可视化,看看如何发帖子才能上鱼C热门。

主要通过pyecharts和wordcloud模块来实现信息数据的可视化分析。

结果展示

信息抓取:

在cmd窗口运行FCSpider.py文件即可,效果如下图所示:

图片

数据分析:

在cmd窗口运行analysis.py文件即可。

首先让我们来看看鱼C论坛哪个版块的内容更容易上热门:

图片

图片

显然,Python大哥独占鳌头,占了鱼C论坛所有热贴数量的56.19%,因此想上鱼C论坛的热贴,当然首选Python主题啊!

或许有人会说,帖子数量说明不了问题啊,万一是有人恶意刷帖呢?(一个可能不太合适的比方),那么我们再来分析分析每个帖子的参与人数、回复量和查看量吧!

首先是参与人数(均未去重):

图片

其中参与人数最多的10个热帖中Python的占比也很高,为:

图片

因此从参与人数上看,python依旧无出其右,一枝独秀。

再来看看回复量和查看量:

图片

图片

结论依旧没有变,看来想在鱼C论坛混个热帖,发python主题是最佳选择。

最后,我们将所有热门主题的标题制作成词云,看看如何才能成为一名合格的"标题党":

图片

OK,可以愉快地去水贴拿热门了~

看完篇文章喜欢的朋友点个爱心支持一下,关注我每天分享Python数据爬虫案例,下篇文章分享Python简单分析鱼C论坛的鱼油数据可视化

All done~完整源代码详见个人简介或者私信获取相关文件。。

文章出处:https://www.cnblogs.com/daimubai/p/14700119.html

相关教程