Requests库网络爬取实战
Requests库安装
终端输入pip install requests
爬取网页的通用代码框架
1 | import requests |
模拟浏览器向服务器提供http请求
有些网站能够根据头文件拒绝爬虫访问,故更改头文件为火狐5.0
1 | import requests |
百度/360关键词提交
自动向搜索引擎提交关键词并获得结果。
百度搜索代码
1 | import requests |
360搜索代码
1 | import requests |
网络图片的爬取与存储
图片爬取代码
1 | import requests |
IP地址归属地的自动查询
1 | import requests |
Beautiful Soup库
Beautiful Soup库安装
终端输入pip install beautifulsoup4
两行代码解析信息
1 | from bs4 import BeautifulSoup |
第一个参数是需要BeautifulSoup解析的html格式信息,可用<p>data</p>
代替
第二个参数是解析器,这里使用的是html.parser