2021年05月26日 981 阅读 旧实验室 百度指数最新查询接口 最近打算做百度指数这块项目,所以研究了一下爬取指数的方法,目前百度指数只对曲线数据加密,关键词指数已经取消加密。所以直接抓接口get就可以了,至于大数据爬取是否需要切换cookie目前还未测试。...
2021年05月26日 446 阅读 旧实验室 搜索引擎爬虫触发验证码条件 有时候很好奇5118 站长工具 爱站 等一些三方平台爬取排名是怎么做到每天几亿甚至几十亿的查询量,其实这里关键核心技术就是绕过验证码触发条件。目前大部分同行的解决方案都是cookie入口解决,分...
2021年05月18日 378 阅读 网站建设 关键词筛选之一键过滤地域关键词 当我们分析大量关键词的时候经常遇到一些地域关键词混杂在词库中,所以整理所有市级名称和省级名称组合成了正则,可以一键过滤低地域关键词。文章中的城市关键词来源于百度百科:https://baike....
2021年05月06日 397 阅读 旧实验室 百度移动xpath定位真实排名位置方法 百度移动自从推出了自家产品 优质问答和科普文章后,直接xpath是无法定位到目标网站。定位测试文本:正则提取 :搜索结果第(\d+)条.标题" role="button"> 分组保存至bd...