金华网站制作哪家好?寻找优质网站建设服务

摘要:网站长尾关键词优化,金华网站建设哪里好,蛋糕网站模板,男女做那事是什 网站BeautifulSoup 的引入 我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不
网站长尾关键词优化,金华网站建设哪里好,蛋糕网站模板,男女做那事是什 网站BeautifulSoup 的引入 我们学习了正则表达式的相关用法#xff0c;但是一旦正则写的有问题#xff0c;可能得到的就不是我们想要的结果了#xff0c;而且对于一个网页来说#xff0c;都有一定的特殊的结构和层级关系#xff0c;而且很多标签都有 id 或 class 来对作区分但是一旦正则写的有问题可能得到的就不是我们想要的结果了而且对于一个网页来说都有一定的特殊的结构和层级关系而且很多标签都有 id 或 class 来对作区分所以我们借助于它们的结构和属性来提取不也是可以的吗 所以这一节我们就介绍一个强大的解析工具叫做 BeautiSoup它就是借助网页的结构和属性等特性来解析网页的工具有了它我们不用再去写一些复杂的正则只需要简单的几条语句就可以完成网页中某个元素的提取。 废话不多说接下来我们就来感受一下 BeautifulSoup 的强大之处吧。 BeautifulSoup 简介 简单来说BeautifulSoup 就是 Python 的一个 HTML 或 XML 的解析库我们可以用它来方便地从网页中提取数据官方的解释如下 BeautifulSoup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱通过解析文档为用户提供需要抓取的数据因为简单所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup 自动将输入文档转换为 Unicode 编码输出文档转换为 utf-8 编码。你不需要考虑编码方式除非文档没有指定一个编码方式这时你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup 已成为和 lxml、html6lib 一样出色的 python 解释器为用户灵活地提供不同的解析策略或强劲的速度。 所以说利用它我们可以省去很多繁琐的提取工作提高解析效率。 BeautifulSoup 的安装 使用之前我们当然需要首先说明一下它的安装方式。目前 BeautifulSoup 的最新版本是 4.x 版本之前的版本已经停止开发了推荐使用 pip 来安装安装命令如下 pip install beautifulsoup4 好安装完成之后可以验证一下写一段 Python 程序试验一下。 from bs4 import BeautifulSoup soup  BeautifulSoup(pHello/p, html.parser)print(soup.p.string) 运行结果 Hello 如果没有报错则证明安装没有问题。 解析器 BeautifulSoup 在解析的时候实际上是依赖于解析器的它除了支持 Python 标准库中的 HTML 解析器还支持一些第三方的解析器比如 lxml下面我们对 BeautifulSoup 支持的解析器及它们的一些优缺点做一个简单的对比。 解析器使用方法优势劣势  Python 标准库 BeautifulSoup (markup, html.parser) Python 的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2) 前的版本中文容错能力差  lxml HTML 解析器 BeautifulSoup (markup, lxml) 速度快、文档容错能力强需要安装 C 语言库  lxml XML 解析器 BeautifulSoup (markup, xml) 速度快、唯一支持 XML 的解析器需要安装 C 语言库  html5libBeautifulSoup (markup, html5lib) 最好的容错性、以浏览器的方式解析文档、生成 HTML5 格式的文档速度慢、不依赖外部扩展  所以通过以上对比可以看出lxml 这个解析器有解析 HTML 和 XML 的功能而且速度快容错能力强所以推荐使用这个库来进行解析但是这里的劣势是必须安装一个 C 语言库它叫做 lxml我们在这里依然使用 pip 安装即可命令如下 pip3 install lxml 安装完成之后我们就可以使用 lxml 这个解析器来解析了在初始化的时候我们可以把第二个参数改为 lxml如下 from bs4 import BeautifulSoup soup  BeautifulSoup(pHello/p, lxml) print(soup.p.string) 运行结果是完全一致的。
阅读全文