网络爬虫实战1-豆瓣top250影片名称提取(03)

00 什么是网络爬虫

网络爬虫,简单来说,就是让程序从网页上爬取信息。也许一两个网页的信息,浏览者可以自己阅读,但面对大量数据时,无疑需要网络爬虫为我们爬取并整理出来,方便我们查看和分析。

01 requests库

requests库用于下载网页,

在python中的安装方法是:pip install requests

使用时:import requests

02 bs4库的BeautifulSoup模块

BeautifulSoup用于解析HTML文本,

安装方法是:pip install bs4

使用时: from bs4 import BeautifulSoup

03 实战-爬取豆瓣top250影片名称

废话少说,进入实战;

豆瓣top250电影网站:

第一页:https://movie.douban.com/top250?start=0&filter=

第二页:https://movie.douban.com/top250?start=25&filter=

第三页:https://movie.douban.com/top250?start=50&filter=

01 导入模块;

import requests
from bs4 import BeautifulSoup

02 定义请求头,从浏览器中可以获得相关信息,笔者的浏览器信息如下;

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:47.0)\
    Gecko/20100101 Firefox/47.0','Host': 'movie.douban.com'}

03 定义影片列表,暂时为空,用于写入影片名称;

movielist=[]

04 遍历TOP250电影的10个网页,注意URL上文的规律;

观察网页源代码,HTML文件;

网络爬虫实战1-豆瓣top250影片名称提取(03)的图1

for i in range(10):
        link='https://movie.douban.com/top250?start='+str(i*25)  #URL
        re=requests.get(link,headers=headers,timeout=10) #下载网页
        soup=BeautifulSoup(re.text,'lxml') #用lxml解析HTML文本
        divlist=soup.find_all('div',class_='hd') #遍历网页

        for j in divlist:
            movie=j.a.span.text.strip()
            movielist.append(movie)

查看movielist

网络爬虫实战1-豆瓣top250影片名称提取(03)的图2

网络爬虫实战1-豆瓣top250影片名称提取(03)的图3

登录后免费查看全文
立即登录
App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP

1