如何在 Jupyter Notebook 中安装 BeautifulSoup

仿真资料吧

2025年3月6日 18:39

浏览：2367 收藏：1

在 Jupyter Notebook 上安装 BeautifulSoup 非常简单，您将为出色的 Web 抓取和数据提取做好准备。它是一个 Python 库，使 HTML 和 XML 处理 Web 数据。它将帮助您在 Jupyter Notebook 中启动并运行 BeautifulSoup，以便您可以轻松抓取和分析 Web 内容。本文将引导排名的初学者到经验丰富的开发人员，确定如何快速有效地设置 BeautifulSoup。

设置 Jupyter Notebook

以下是在 Jupyter Notebook 中安装 BeautifulSoup 之前应遵循的一些先决条件。

安装 Jupyter Notebook

Jupyter Notebook 的安装相对简单，最简单的方法是使用名为 pip 的 Python 安装程序执行此作。打开终端或命令提示符并运行以下命令：

pip install notebook

启动 Jupyter Notebook

安装后，您可以在终端或命令提示符下使用以下行启动 Jupyter Notebook：

jupyter notebook

创建新笔记本

要创建新笔记本，请单击仪表板右侧的“新建”按钮，然后选择“python3(或安装的任何 Python 版本）。它将打开一个新的笔记本，您可以在其中编写和执行 Python 代码。

如何在 Jupyter Notebook 中安装 BeautifulSoup

步骤 1：打开 Jupyter 笔记本

首先，打开 Jupyter Notebook。您可以从命令行启动 Jupyter Notebook。这将在您的 Web 浏览器中打开一个带有 Jupyter Notebook 界面的新选项卡。

jupyter notebook

第 2 步：安装 BeautifulSoup

使用 pip 和以下命令将 BeautifulSoup 安装到 Jupyter Notebook 的新单元格中。这将运行 beautiful soup 及其所有依赖项的安装。感叹号！用于直接从 Jupyter Notebook 单元运行 shell 命令。

!pip install beautifulsoup4

第 3 步：验证安装

安装后，请检查 BeautifulSoup 是否安装正确。创建一个新单元格并尝试导入 BeautifulSoup：

pip show beautifulsoup4

除非有错误，或者打印了版本号，否则 BeautifulSoup 安装成功并准备就绪。

BeautifulSoup 的用法示例

下面是如何使用 BeautifulSoup 库的一个非常简单的示例。此脚本将向您展示如何解析示例 HTML 文档以获取感兴趣的数据：

解释：

在下面的示例中，BeautifulSoup 用于解析示例 HTML 文档并提取特定数据。首先，导入 BeautifulSoup 库并定义示例 HTML 字符串。然后使用 'html.parser' 参数通过 BeautifulSoup 解析 HTML，以创建解析树。该脚本演示了如何提取 HTML 文档的标题并打印它，以及如何通过迭代 soup.find_all（'a'） 的结果并从每个链接中提取 'href' 属性来查找和打印文档中的所有超链接（锚点标签）。

from bs4 import BeautifulSoup

# Sample HTML
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

# Parse the HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# Extract and print the title
print(soup.title.string)

# Extract and print all links
for link in soup.find_all('a'):
    print(link.get('href'))