点点网站开发技术分享

scrapy中使用selenium

发表于 2019-11-08 更新于 2020-09-04 分类于 rd ， python ， scrapy Changyan：本文字数： 1.1k 阅读时长 ≈ 4 分钟

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值。

阅读全文 »

Scrapy利用中间件使用UA和代理IP池

发表于 2019-11-07 更新于 2022-06-17 分类于 rd ， python ， scrapy Changyan：本文字数： 833 阅读时长 ≈ 3 分钟

爬取页面过程中免不了目标网站做了反爬虫机制，我们也要相应的有反反爬虫策略来应对，最基本的user-agent和ip我们在爬取一些特别是相对来说知名的网站，目标肯定做了反爬虫机制，我们就要随机的改变下我们爬虫的user-agent和访问ip。

阅读全文 »

Scrapy日志等级与请求传参

发表于 2019-11-07 更新于 2020-09-04 分类于 rd ， python ， scrapy Changyan：本文字数： 559 阅读时长 ≈ 2 分钟

运行爬虫时，控制台会打印出scrapy日志信息，我们可以控制scrapy日志显示等级。

阅读全文 »

初识Scrapy爬虫框架

发表于 2019-11-02 更新于 2020-09-04 分类于 rd ， python ， scrapy Changyan：本文字数： 2.4k 阅读时长 ≈ 9 分钟

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

阅读全文 »

python之web自动化测试工具Selenium

发表于 2019-11-01 更新于 2020-09-04 分类于 rd ， python Changyan：本文字数： 1.1k 阅读时长 ≈ 4 分钟

Selenium是针对Web应用的开源自动化测试工具，通过编写模拟用户操作的脚本，它会打开浏览器Web应用进行黑盒测试。可以方便的用于功能测试、兼容性测试、稳定性测试及并发测试。目前已被主流浏览器厂商广泛支持，同时也是很多其它自动化测试工具(比如，RobotFramework)的底层核心技术。

阅读全文 »