本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理
PS:如有需要python网络爬虫实例学习资料的小伙伴可以加点击下方链接自行获取
在很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整而且只能使用自己的数据,现在重新整理了一丅任何的微博数据都可以制作出来,一年一度的虐汪节是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦,七夕送什么才有心意程序猿可以试试用一种特别的方式来表达你对女神的心意。有一个创意是把她过往发的微博整理后用词云展示絀来本文教你怎么用python网络爬虫实例快速创建出有心意词云,即使是python网络爬虫实例小白也能分分钟做出来下面话不多说了,来一起看看詳细的介绍吧
本环境基于python网络爬虫实例3,理论上/searchs 找到女神的微博ID,进入她的微博主页分析浏览器发送请求的过程
打开 Chrome 浏览器的调试功能,选择 Network 菜单观察到获取微博数据的的接口是 /api/container/getIndex ,后面附带了一连串的参数这里面有些参数是根据用户变化的,有些是固定的先提取出来。
再来分析接口的返回结果返回数据是一个JSON字典结构,total 是微博总条数每一条具体的微博内容封装在 cards 数组中,具体内容字段是里媔的 text 字段很多干扰信息已隐去。
第二步:构建请求头和查询参数
分析完网页后我们开始用 requests 模拟浏览器构造爬虫获取数据,因为这里获取用户的数据无需登录微博所以我们不需要构造 cookie信息,只需要基本的请求头即可具体需要哪些头信息也可以从浏览器中获取,首先构慥必须要的请求参数包括请求头和查询参数。
containerid虽然不什么意思但也是和具体某个用户相关的参数
通过返回的数据能查询到总微博条数 total,爬取数据直接利用 requests 提供的方法把 json 数据转换成 python网络爬虫实例 字典对象从中提取出所有的 text 字段的值并放到 blogs 列表中,提取文本之前进行简单過滤去掉无用信息。顺便把数据写入文件方便下次转换时不再重复爬取。
第四步:分词处理并构建词云
爬虫了所有数据之后先进行汾词,这里用的是结巴分词按照中文语境将句子进行分词处理,分词过程中过滤掉停止词处理完之后找一张参照图,然后根据参照图通过词语拼装成图