Python学习网络爬虫第一周下载
时间:2024/5/27来源:饮食保健 作者:佚名 点击:次
功能:
自动爬取某网站,并且将该网站的文本数据存储到本地。
基本实现步骤:
1)自动爬取网站,获得网站数据;
2)数据存储到本地。
遇到问题及解决办法:
1)自动爬取,暂时水平不够高,采用的伪爬取方法即找到网页网址的规律;
2)关于文本的处理,输出成想要的格式
正题方法:
1)网页分为静态网页(存粹的html格式的)、动态网页(使用AJAX),即动态加载网页的数据不一定出现按外html中等。
本文爬取的网页是动态网页,采用的方法是浏览器渲染引擎(渲染引擎的职责就是渲染,即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分,所以渲染引擎也称为浏览器内核)。因而需要安装selenium库,
FireFox浏览器,下载getodriver。selenium库使用方法:
- 上一篇文章: 90后软件工程师搭建第四方支付平台,
- 下一篇文章: 没有了