爬一爬数据采集吧 关注:19贴子:49
  • 0回复贴,共1

爬一爬采集器图文教程九:采集HTML

只看楼主收藏回复

1. 确保账号已登录,打开需要采集的网站。
2. 点击插件栏上的 图标,启动爬一爬。
3. 逐一选取需要抓取的列元素。如果色彩框没有包含所有的任务数据,点击列名最右侧的 切换按钮,切换算法,直到选中所有的任务数据。

4. 点击列名右侧的 按钮,采集元素的HTML。

5. 先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。如果测试数据为空,点击“返回”,将下载器修改为”js-engine”,然后再测试。本例采用的下载器为”js-engine”。

6. 确认测试成功后,点击”OK”关闭测试窗口。
7. 填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。

8. 点击“提交”按钮,任务创建成功。您可在爬一爬官网的“任务”页面下运行并管理该任务。

9. 待任务运行结束后,点击爬一爬官网的任务页面下的“数据”按钮,可查看并下载采集到的数据。


1楼2017-03-22 10:22回复