当前位置: 首页 > 饮食保健 > Python学习网络爬虫第一周下载

Python学习网络爬虫第一周下载

时间:2024/5/27来源:饮食保健作者:佚名点击:次

功能：

自动爬取某网站，并且将该网站的文本数据存储到本地。

基本实现步骤：

1）自动爬取网站，获得网站数据；

2）数据存储到本地。

遇到问题及解决办法：

1）自动爬取，暂时水平不够高，采用的伪爬取方法即找到网页网址的规律；

2）关于文本的处理，输出成想要的格式

正题方法：

1）网页分为静态网页（存粹的html格式的）、动态网页（使用AJAX），即动态加载网页的数据不一定出现按外html中等。

本文爬取的网页是动态网页，采用的方法是浏览器渲染引擎（渲染引擎的职责就是渲染，即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分，所以渲染引擎也称为浏览器内核）。因而需要安装selenium库，

FireFox浏览器，下载getodriver。selenium库使用方法：