Python学习网络爬虫第一周下载

时间:2024/5/27来源:饮食保健 作者:佚名 点击:

功能:

自动爬取某网站,并且将该网站的文本数据存储到本地。

基本实现步骤:

1)自动爬取网站,获得网站数据;

2)数据存储到本地。

遇到问题及解决办法:

1)自动爬取,暂时水平不够高,采用的伪爬取方法即找到网页网址的规律;

2)关于文本的处理,输出成想要的格式

正题方法:

1)网页分为静态网页(存粹的html格式的)、动态网页(使用AJAX),即动态加载网页的数据不一定出现按外html中等。

本文爬取的网页是动态网页,采用的方法是浏览器渲染引擎(渲染引擎的职责就是渲染,即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分,所以渲染引擎也称为浏览器内核)。因而需要安装selenium库,

FireFox浏览器,下载getodriver。selenium库使用方法:

转载注明  http://www.hzlqsc.com/ysbj/14401.html

首页| 网站简介| 发布优势| 广告合作| 隐私保护| 服务条款| 合作伙伴| 网站地图| 版权申明

版权所有 脱发网站 
Copyright 2012-2020 All Rights Reserved.