推广 热搜:   中国  设备  参数  公司  未来  服务  行业  企业  教师 

百度指数的爬虫方法及代码

   日期:2024-12-04     作者:caijiyuan    caijiyuan   评论:0    移动:http://sicmodule.glev.cn/mobile/news/11934.html
核心提示:最近几年经常在各平台看到有关「搜索指数动态排行」的视频,比如「青春有你2」决赛前一周,我在B站上传了一段「青你2」和「创造

最近几年经常在各平台看到有关「搜索指数动态排行」的视频,比如「青春有你2」决赛前一周,我在B站上传了一段「青你2」和「创造营2020」的人气选手指数动态榜的视频,后台看到的视频播放量、弹幕数、评论数等数据如下:

百度指数的爬虫方法及代码

居然被播放了近 4w 次,评论里有问视频怎么做的,也有质疑数据来源的,这篇文章先讲一下数据是怎么来的。

全部数据都来自百度搜索指数,就是这个玩意儿:

网上关于百度指数的爬取方案有很多种,测试下来最方便快捷的是通过 cookies 登录后爬取,这个场景不太适合用模拟浏览器的方式。基于开源代码 (https://github.com/longxiaofei/spider-BaiduIndex) 进行了一些 DIY,就满足我的需求了。

(原开源代码可能由于久未更新,局部存在一些问题,已做处理)

在查找爬虫方法过程中,大家提到次数最多的问题就是如何找到自己的 cookies。登录百度后,在首页右键打开「开发者工具」,然后点击「Application」:

然后在 Name 那一列找「BDUSS」,复制后面对应的 Value,很长的一串字符~

把这段字符串赋值给 demo.py 中的变量 cookies,别忘了前面加 "BDUSS=",然后就可以实现自动登录了。接下来就可以在 keywords 填写你要爬的关键词列表了,设置要爬取指数的起始时间 start_date 和结束时间 end_date,如下:


按你的需求修改好各个变量后,运行 demo.py,然后你就可以获得像这样的数据了:


本文地址:http://sicmodule.glev.cn/news/11934.html    歌乐夫 http://sicmodule.glev.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号