有这么一个问题,我们日复一日得问着自己,每次回答都带着希望,又怕失望,抓耳挠腮间这个问题几乎要上升到哲学的高度。
“一会儿吃什么?”
《择天记》中鹿晗吃货的本性,分分钟暴露无疑,堪称吃货界的一股清流。
所以,到底啥是好吃的啊?
相信此时很多人会打开大众点评,结合自己的口味,看看别人给的评价、评分,挑一家心仪的饭馆。“吃好吃的去!”
作为数据控,特别是作为手握爬一爬采集神器的数据控,那自然是要把数据抓下来(反正用爬一爬采集数据很简单嘛,又不费事儿),来做一番分析,看看现在哪些类型的店更受欢迎,哪些类型的店评分更高。
(下面是正经事儿了,耐心看,我们在数据方面绝不含糊~)
统计结果
本次共抓取了11个城市几乎所有的美食类目下的门店信息,共1百万+条数据。采集到的各城市各分类门店数量如下图所示。
由于某一种类的门店数量在一定程度上反映了当地消费者与此类门店的供求关系,可以借此来反映某类美食的受欢迎程度。所以这里先来简单看一下各个城市下各类门店的数量占比。
⊙ “小吃快餐”在各城市的门店数量都几乎有40%左右。这部分门店基本反映了大家的刚需。
⊙ “各地美食”这个类别涵盖了标注为全国各地特色美食的门店,比如江浙菜,川菜等,粤菜等,在这个每寸土地都可能长出好吃的国家,几乎每个地方都有自己的特色,菜系也纷繁复杂,因此门店数量的总和在各城市也都有很大占比。
⊙ “面包甜点”类目的占比在广州、深圳显出当仁不让之势,除了当地种类繁多的传统甜品,很多香港的甜品品牌也以广州、深圳作为进入大陆的门户,同时也在这里培养起了一大批甜品的忠实粉丝。
⊙ “火锅”这个类目下,毫无意外,重庆、成都拔得头筹,毕竟这里是火锅的主场,是火锅信仰者的圣地。不能再多说了,小编一提到火锅两个字,脑子里已经没有数据了,只剩一锅红汤,一盘毛肚,一碟香油。。。
⊙ 有意思的是,在成都、重庆这两个城市中,茶馆数量的比例也明显高于其他城市,特别是成都,甚至接近10%。根据史料记载,早在清末时期,成都街巷共计516条,而茶馆却有454家,几乎每条街巷都有茶馆。这个传统保留至今,天府之国的茶馆甚至已经形成了一种文化。
接下来选取了几个有明显口味特色的类别,根据某类门店在城市中的占比与此类门店的平均评分,并且以平均占比和平均评分来将整个区域划分成四个象限。
⊙ 第一象限:数量多,评分高
处于这个区域的点不多,毕竟在众口难调的环境下要做到门店又多又好是困难的,但要说还有能做到这一点的,无疑是火锅了,图中可以看出,火锅的点即使没有落在这个区域,也都相当靠近。看来全国人民对火锅是真爱啊,何以解忧,唯有火锅,没有什么不开心是一顿火锅解决不了的,如果有,那就再来一顿吧!第一象限的特征表现为,火锅火锅火锅。
⊙ 第二象限:数量少,评分高
这个区域几乎涵盖了所有城市的异域风情的分类。此外,在全国各地的地方美食中,发现很多靠近边疆地区的美食也在这个区域。看来,第二象限的特征表现为有特色的美食,属于大家在想换换口味时的选择。
⊙ 第三象限:数量少,评分低
这个区域里绝大多数是全国各地的美食,并且包括了大多数城市的烧烤,但是其中的烧烤,川菜似又自成一派,更加集中在靠近坐标轴中心的位置。第三象限的特征表现为各地的风味美食,或许是“橘生淮南为橘, 生淮北为枳”,地方美食去了别处会有水土不服之感?总之这一部分类别从数据来看还有很大的提升空间。
⊙ 第四象限:数量多,评分低
第四象限的特征表现为各地的本地美食,从门店数量来看本地的菜系还是很有市场,但可能是由于口味趋同,亦或是本地人对于当地的美食有着更高的要求,评价略显一般。
接下来,让我们来看一下数据采集的过程。
采集器的选择【爬一爬采集器】
这里先简单讲一下爬一爬插件的安装。
插件下载地址:http://www.pa1pa.com
#简单概括“六部曲”就是:①官网下载插件->②点击浏览器右上角三横图标->③点击更多工具->④点击扩展程序->⑤将插件拖入->⑥添加扩展程序。
看下面GIF图更加直接:
谷歌浏览器插件安装
爬一爬的其他使用这里不再赘述,如果是新用户请到我们官网看详细的教程,有图文,有视频,也可以看本头条号之前的实战系列,举一反三即可。例如戳这个:爬一爬实战系列:36kr投资项目
这里要提醒大家注意的是大众点评的网站在一个分类下只显示50页,一页15条商家数据,所以如果直接采集的话,数据量一定会远远小于实际的商家数量。这就要做一个细分的分类。这里要用到的技巧是连接任务,并且要多次连接。
比如上海的初始页面如下,页面顶部筛选框是这样的。
第一步要创建一个抓取“分类”url的任务,然后连接一个抓取“推荐”url的任务,再连接一个抓取“地点-行政区”url的任务(这样基本可以确保穷尽所有门店),最后连接一个抓取商家条目的任务(这个任务建议用click mode来实现)。【Tips:此处教程参考官网“教程中心”的“连接任务”】
如果你要抓取多个城市,只需要手动添加你想要抓取的城市的初始url进第一个任务即可。当然,最后抓取到的数据要记得做去重处理。【Tips:此处教程可参考官网插件教程的“起始链接”】
有需要的小伙伴可以自己采集需要的数据,除了本文提到的店的分类、评分等信息,还可以采集到诸如人均价格,门店地址,优惠,团购等信息。
如果大家对其他数据感兴趣,欢迎到我们的官方论坛发帖http://bbs.pa1pa.com,日后做教程分享给大家!有采集相关的问题也可以在论坛发帖讨论或者加入QQ群(95622576)。
“一会儿吃什么?”
《择天记》中鹿晗吃货的本性,分分钟暴露无疑,堪称吃货界的一股清流。
所以,到底啥是好吃的啊?
相信此时很多人会打开大众点评,结合自己的口味,看看别人给的评价、评分,挑一家心仪的饭馆。“吃好吃的去!”
作为数据控,特别是作为手握爬一爬采集神器的数据控,那自然是要把数据抓下来(反正用爬一爬采集数据很简单嘛,又不费事儿),来做一番分析,看看现在哪些类型的店更受欢迎,哪些类型的店评分更高。
(下面是正经事儿了,耐心看,我们在数据方面绝不含糊~)
统计结果
本次共抓取了11个城市几乎所有的美食类目下的门店信息,共1百万+条数据。采集到的各城市各分类门店数量如下图所示。
由于某一种类的门店数量在一定程度上反映了当地消费者与此类门店的供求关系,可以借此来反映某类美食的受欢迎程度。所以这里先来简单看一下各个城市下各类门店的数量占比。
⊙ “小吃快餐”在各城市的门店数量都几乎有40%左右。这部分门店基本反映了大家的刚需。
⊙ “各地美食”这个类别涵盖了标注为全国各地特色美食的门店,比如江浙菜,川菜等,粤菜等,在这个每寸土地都可能长出好吃的国家,几乎每个地方都有自己的特色,菜系也纷繁复杂,因此门店数量的总和在各城市也都有很大占比。
⊙ “面包甜点”类目的占比在广州、深圳显出当仁不让之势,除了当地种类繁多的传统甜品,很多香港的甜品品牌也以广州、深圳作为进入大陆的门户,同时也在这里培养起了一大批甜品的忠实粉丝。
⊙ “火锅”这个类目下,毫无意外,重庆、成都拔得头筹,毕竟这里是火锅的主场,是火锅信仰者的圣地。不能再多说了,小编一提到火锅两个字,脑子里已经没有数据了,只剩一锅红汤,一盘毛肚,一碟香油。。。
⊙ 有意思的是,在成都、重庆这两个城市中,茶馆数量的比例也明显高于其他城市,特别是成都,甚至接近10%。根据史料记载,早在清末时期,成都街巷共计516条,而茶馆却有454家,几乎每条街巷都有茶馆。这个传统保留至今,天府之国的茶馆甚至已经形成了一种文化。
接下来选取了几个有明显口味特色的类别,根据某类门店在城市中的占比与此类门店的平均评分,并且以平均占比和平均评分来将整个区域划分成四个象限。
⊙ 第一象限:数量多,评分高
处于这个区域的点不多,毕竟在众口难调的环境下要做到门店又多又好是困难的,但要说还有能做到这一点的,无疑是火锅了,图中可以看出,火锅的点即使没有落在这个区域,也都相当靠近。看来全国人民对火锅是真爱啊,何以解忧,唯有火锅,没有什么不开心是一顿火锅解决不了的,如果有,那就再来一顿吧!第一象限的特征表现为,火锅火锅火锅。
⊙ 第二象限:数量少,评分高
这个区域几乎涵盖了所有城市的异域风情的分类。此外,在全国各地的地方美食中,发现很多靠近边疆地区的美食也在这个区域。看来,第二象限的特征表现为有特色的美食,属于大家在想换换口味时的选择。
⊙ 第三象限:数量少,评分低
这个区域里绝大多数是全国各地的美食,并且包括了大多数城市的烧烤,但是其中的烧烤,川菜似又自成一派,更加集中在靠近坐标轴中心的位置。第三象限的特征表现为各地的风味美食,或许是“橘生淮南为橘, 生淮北为枳”,地方美食去了别处会有水土不服之感?总之这一部分类别从数据来看还有很大的提升空间。
⊙ 第四象限:数量多,评分低
第四象限的特征表现为各地的本地美食,从门店数量来看本地的菜系还是很有市场,但可能是由于口味趋同,亦或是本地人对于当地的美食有着更高的要求,评价略显一般。
接下来,让我们来看一下数据采集的过程。
采集器的选择【爬一爬采集器】
这里先简单讲一下爬一爬插件的安装。
插件下载地址:http://www.pa1pa.com
#简单概括“六部曲”就是:①官网下载插件->②点击浏览器右上角三横图标->③点击更多工具->④点击扩展程序->⑤将插件拖入->⑥添加扩展程序。
看下面GIF图更加直接:
谷歌浏览器插件安装
爬一爬的其他使用这里不再赘述,如果是新用户请到我们官网看详细的教程,有图文,有视频,也可以看本头条号之前的实战系列,举一反三即可。例如戳这个:爬一爬实战系列:36kr投资项目
这里要提醒大家注意的是大众点评的网站在一个分类下只显示50页,一页15条商家数据,所以如果直接采集的话,数据量一定会远远小于实际的商家数量。这就要做一个细分的分类。这里要用到的技巧是连接任务,并且要多次连接。
比如上海的初始页面如下,页面顶部筛选框是这样的。
第一步要创建一个抓取“分类”url的任务,然后连接一个抓取“推荐”url的任务,再连接一个抓取“地点-行政区”url的任务(这样基本可以确保穷尽所有门店),最后连接一个抓取商家条目的任务(这个任务建议用click mode来实现)。【Tips:此处教程参考官网“教程中心”的“连接任务”】
如果你要抓取多个城市,只需要手动添加你想要抓取的城市的初始url进第一个任务即可。当然,最后抓取到的数据要记得做去重处理。【Tips:此处教程可参考官网插件教程的“起始链接”】
有需要的小伙伴可以自己采集需要的数据,除了本文提到的店的分类、评分等信息,还可以采集到诸如人均价格,门店地址,优惠,团购等信息。
如果大家对其他数据感兴趣,欢迎到我们的官方论坛发帖http://bbs.pa1pa.com,日后做教程分享给大家!有采集相关的问题也可以在论坛发帖讨论或者加入QQ群(95622576)。