目录
简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。
环境准备
安装第三方库
pip install requests pip install bs4 pip install lxml
进行爬虫
1.获取网页数据。
import requests from bs4 import BeautifulSoup url = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/" response = requests.get(self.url)
2.解析网页数据
soup = BeautifulSoup(response.text, 'lxml')
3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式,后查看目标在html中的位置,右击选择“复制selector”,见下图。
key = "#b_results > li > div.b_title > h2 > a" soup.select(key)
4.清洗数据
result = {}
for i, item in enumerate(data):
result.update({
f'title_{i}': item.get_text(),
f'url_{i}': item.get('href')
})
print(result)
参考
链接:https://www.cnhackhy.com/article/152560.htm
总结
本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注华域联盟的更多内容!
您可能感兴趣的文章:
- Python大数据之网络爬虫的post请求、get请求区别实例分析
- python2与python3爬虫中get与post对比解析
- python爬虫 基于requests模块的get请求实现详解
- python爬虫 基于requests模块发起ajax的get请求实现解析
- python爬虫中get和post方法介绍以及cookie作用
声明:本站(华域联盟www.cnhackhy.com)所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)