网络爬虫实战1-豆瓣top250影片名称提取（03）

博集华仿

浏览：2501

00 什么是网络爬虫

网络爬虫，简单来说，就是让程序从网页上爬取信息。也许一两个网页的信息，浏览者可以自己阅读，但面对大量数据时，无疑需要网络爬虫为我们爬取并整理出来，方便我们查看和分析。

01 requests库

requests库用于下载网页，

在python中的安装方法是：pip install requests

使用时：import requests

02 bs4库的BeautifulSoup模块

BeautifulSoup用于解析HTML文本，

安装方法是：pip install bs4

使用时： from bs4 import BeautifulSoup

03 实战-爬取豆瓣top250影片名称

废话少说，进入实战；

豆瓣top250电影网站：

第一页：https://movie.douban.com/top250?start=0&filter=

第二页：https://movie.douban.com/top250?start=25&filter=

第三页：https://movie.douban.com/top250?start=50&filter=

01 导入模块；

import requests
from bs4 import BeautifulSoup

02 定义请求头，从浏览器中可以获得相关信息，笔者的浏览器信息如下；

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:47.0)\
Gecko/20100101 Firefox/47.0','Host': 'movie.douban.com'}

03 定义影片列表，暂时为空，用于写入影片名称；

movielist=[]

04 遍历TOP250电影的10个网页，注意URL上文的规律；

观察网页源代码，HTML文件；

网络爬虫实战1-豆瓣top250影片名称提取（03）的图1

for i in range(10):
        link='https://movie.douban.com/top250?start='+str(i*25) #URL
        re=requests.get(link,headers=headers,timeout=10) #下载网页
        soup=BeautifulSoup(re.text,'lxml') #用lxml解析HTML文本
        divlist=soup.find_all('div',class_='hd') #遍历网页

        for j in divlist:
            movie=j.a.span.text.strip()
            movielist.append(movie)

查看movielist

网络爬虫实战1-豆瓣top250影片名称提取（03）的图2

网络爬虫实战1-豆瓣top250影片名称提取（03）的图3

登录后免费查看全文

立即登录

App下载

技术邻APP
工程师必备

项目客服
培训客服
平台客服

TOP