如何抓取网页上的数据(数据抓取软件)

豆子5个月前 (06-12)内容专栏222

表格中有8栏:Rank,Company,Location,YearEnd,AnnualSalesRise,LatestSales,StaffandComments,所有这些都是我们可以保存的感兴趣的数据。

如何抓取网页上的数据(数据抓取软件)

由于所有结果都包含在表中,我们可以使用find方法搜索表的soup对象。然后我们可以使用find_all方法查找表中的每一行。

要从TechTrackTop100companies收集数据,可以通过右键单击感兴趣的元素来检查页面,然后选择检查。这将打开HTML代码,我们可以在其中看到每个字段包含在其中的元素。

你可能会注意到表格中有一些额外的字段Webpage和Description不是列名,但是如果你仔细看看我们打印上面的soup变量时的html,那么第二行不仅仅包含公司名称。我们可以使用一些进一步的提取来获取这些额外信息。

然后我们建立与网页的连接,我们可以使用BeautifulSoup解析html,将对象存储在变量'soup'中:

第一步是导入将用于网络爬虫的库。我们已经讨论过上面的BeautifulSoup,它有助于我们处理html。我们导入的下一个库是urllib,它连接到网页。最后,我们将输出写入csv,因此我们还需要导入csv库。作为替代方案,可以在此处使用json库。

如果我们打印出变量company,该文本不仅包含公司名称,还包含描述。我们然后打印sales,它包含不需要的字符,如脚注符号,最好删除。

LeagueTable网页上显示了包含100个结果的表。检查页面时,很容易在html中看到一个模式。结果包含在表格中的行中:

首先点击切换数据源，找到”京东商品评论“的数据源，此时界面中会显示出手机评论页面中的当前全部评论内容。点击”导出“，评论数据会以csv文件下载到本地。

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

将网页翻到评价部分，然后点击AnyPapa插件下的”本地数据“，会自动跳转到AnyPapa的数据页面。

Webscraper插件是一款非常好用的简易爬虫插件，对于Webscraper的安装，可以参考之前分享的文章。

打开八爪鱼软件后，打开网页，然后点击单个文本，选择右侧的“选中全部”，软件会自动识别所有的名言文本。接下来按照操作，选择采集文本，并启动软件进行采集。

标签: 抓取数据网页