不用写代码,你也能爬虫-有关 webscraper 的一些问题

实用工具 MrBang 4672℃ 0评论

***点我观看视频教程***

你学习这门课程之前 可能会碰到的问题!

一、爬虫是什么?

爬虫,通俗一点讲,就是让程序帮你统计网页上的数据。

比如,你要统计一个公众号的所以文章标题,如果有 500 篇文章,你手动复制粘贴到 excel 里面,一个标题 10 秒,大概需要1 个多小时。

但是如果会爬虫的话,你只需要设置一下抓取规则,然后程序会帮你抓,大概 1 分钟左右就能做完。如果数据量大,可能需要时间更长一些。

二、爬虫不是什么?

爬虫只能抓 网页上眼睛能看到的信息(这里指的是 webscraper 的范围)。

爬虫没有搜索功能,没有语言功能,没有数据分析功能,也没有求和功能,也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。

三、怎么确定自己要抓的东西爬虫能完成?

注意:这里只针对web Scraper

如果你要抓一个东西

  1. 你必须提供一个 网址(也可以叫链接、或者 URL)。

例如:http://www.xuhss.com/

  1. 你需要在浏览器的地址栏里访问这个页面,看一下,你要抓取的信息,能不能用眼睛看到。

如果能看到,那就能抓,如果看不到,那就抓不了。

四、某某网站能抓不?

看第三点。

五、某某 APP 能抓不?

自己搜索一下,这个 APP 有没有网页版。

如果有,返回看第三点。

六、用 webscraper 抓数据,需要爬墙不?

抓数据需不需要爬墙,取决于你要抓的网站,需不需要翻墙。

如果你访问的网站,需要爬墙才能看到内容,那么抓取的时候也就需要爬墙。反之不用。

比如,抓 Facebook:因为访问Facebook本身就需要爬墙,所以你抓的时候也需要打开爬墙软件。

比如,抓知乎:因为访问知乎本身不需要爬墙,所以你抓的时候也不需要爬墙。

另:webscraper 安装的话,可以不用爬墙,课程里有讲不用爬墙的安装方法。

七、只能用谷歌浏览器吗?

对,我只对谷歌浏览器负责。

虽然有的其他浏览器(QQ浏览器,360浏览器)也能运行 web scraper,但是在我测试过程中,会有一些兼容性问题,会出现一些莫名其妙的错误。

必经不是原生版,出了问题很难分析。

八、能抓微信号、手机号码?

参看 第三点。

九、学了这个能抓 某某网站吗?

一句话,网页上能看到的信息,99% 都能抓到。

我不会说那种绝对正确、类似能抓取一切的话,事实上,即使你找一个顶尖的爬虫工程师,他也不敢保证,所有的信息都能抓取。

九、如果要别人帮忙抓取数据,你需要提供的信息

1、要抓取的网址链接。为什么要提供这个,参看第三点。
2、要抓取的信息字段,为了不产生歧义,需要截图标注清楚
3、如果有多页,要说明抓多少页

举例——
需求概述:抓取淘宝上关于男士衣服的商品信息。
需要提供:

  1. 网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“衣服男”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
    https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=%E8%A1%A3%E6%9C%8D%E7%94%B7&suggest=0_1&_input_charset=utf-8&wq=yifu&suggest_query=yifu&source=suggest
sshot 1 - 不用写代码,你也能爬虫-有关 webscraper 的一些问题
  1. 需要抓取这个页面的所有商品,每个商品需要抓取的信息:
  • 产品名称
  • 价格
  • 购买人数

具体截图如下:

sshot 2 - 不用写代码,你也能爬虫-有关 webscraper 的一些问题
  1. 搜索结果一共有 100页,只需要抓取前 5 页即可。
webp - 不用写代码,你也能爬虫-有关 webscraper 的一些问题

ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等

十、抓取过程中遇到问题,该怎么解决?

课程里面不仅讲了如何抓取,也讲了遇到问题的分析,以及解决思路。

遇到问题,先根据课程里讲的步骤分析,基本是能解决问题的。

十一、什么人不适合学?

  • 觉得看一遍就行,不想练习的人
  • 不按照教程走,跳着看的人
  • 课程里讲过的东西,群里不再答疑,不能接受的人
  • 不喜欢思考,只喜欢提问的人

转载请注明:虚幻私塾 » 不用写代码,你也能爬虫-有关 webscraper 的一些问题

喜欢 (1)

您必须 登录 才能发表评论!