网络爬虫实战1-豆瓣top250影片名称提取(03)

00 什么是网络爬虫
网络爬虫,简单来说,就是让程序从网页上爬取信息。也许一两个网页的信息,浏览者可以自己阅读,但面对大量数据时,无疑需要网络爬虫为我们爬取并整理出来,方便我们查看和分析。
01 requests库
requests库用于下载网页,
在python中的安装方法是:pip install requests
使用时:import requests
02 bs4库的BeautifulSoup模块
BeautifulSoup用于解析HTML文本,
安装方法是:pip install bs4
使用时: from bs4 import BeautifulSoup
03 实战-爬取豆瓣top250影片名称
废话少说,进入实战;
豆瓣top250电影网站:
第一页:https://movie.douban.com/top250?start=0&filter=
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
01 导入模块;
import requests
from bs4 import BeautifulSoup
02 定义请求头,从浏览器中可以获得相关信息,笔者的浏览器信息如下;
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:47.0)\
Gecko/20100101 Firefox/47.0','Host': 'movie.douban.com'}
03 定义影片列表,暂时为空,用于写入影片名称;
movielist=[]
04 遍历TOP250电影的10个网页,注意URL上文的规律;
观察网页源代码,HTML文件;
for i in range(10):
link='https://movie.douban.com/top250?start='+str(i*25) #URL
re=requests.get(link,headers=headers,timeout=10) #下载网页
soup=BeautifulSoup(re.text,'lxml') #用lxml解析HTML文本
divlist=soup.find_all('div',class_='hd') #遍历网页
for j in divlist:
movie=j.a.span.text.strip()
movielist.append(movie)
查看movielist

工程师必备
- 项目客服
- 培训客服
- 平台客服
TOP
