• 预热世界杯 玩法各异!3张竞彩红单了解一下 2019-10-18
  • 崇拜不劳而获是腐败的根源之一,正气不足是腐败的第二个根源,沉迷于初级趣味易滋生腐败,提高素质力争不想腐,以医者之心防治腐败。 2019-10-09
  • 人民日报评论员随笔:让文化热情涵养更多经典 2019-10-09
  • 国产手机跟进“刘海屏”,凸显苹果在智能手机市场的影响力 2019-10-05
  • 世界杯倒计时:球迷街头狂欢为自己的国家打Call 2019-10-02
  • 紫光阁中共中央国家机关工作委员会 2019-09-24
  • 洪崖洞客流激增 渝中开通2条应急通道12辆公交车驰援 2019-09-24
  • 中央环保督察“回头看”10省区问责630人 2019-09-19
  • 天津举办改善营商环境专题讲座 2019-09-19
  • 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 用数据分析探索淘宝下古风系列的商品

    四川快乐12前三和值走势图:用数据分析探索淘宝下古风系列的商品

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2019-06-04 | 作者:admin

    微信图片 20190604123637 - 用数据分析探索淘宝下古风系列的商品

     

    微信图片 20190604123644 - 用数据分析探索淘宝下古风系列的商品

    江湖给少时的我们许了一场梦。我在梦外,看着梦里的人们清酒高歌,快意恩仇。不管是谁都会对江湖有一颗向往心吧,曾梦想仗剑走天涯,看一下世间的繁华。

     

    说起江湖,在脑海中浮现的不仅是恩怨情仇的情节或者踏雪无痕的身影,还有他们那一层透露江湖意蕴的古风装束。收起心绪,说说我们这次研究的主题:淘宝下古风系列的商品探索。

     

    本文的研究方向

    1、创建数据库写入爬虫数据供后续分析;

    2、利用爬虫技术获取相应的数据,并进行试调优化;

    3、利用文本分析淘宝里的古风商品;

    4、古风商品价格、销售量、评论量等数据回归和可视化分析。

     

    实施步骤
    1、mysql创建数据库并建立对应的表,为后续存储数据和分析提供前提;

    2、数据采集:Python爬虫淘宝网的古风商品数据,并进行调错,反爬;

    3、为分析清洗和处理所需的数据;

    4、利用文本分析技术:jieba分词以及wordcloud可视化对高词频商品进行分析;

    5、古风商品销量,价格等数据的回归以及可视化分析;

    6、商品区域分布展示;

    7、总结以及指出不足之处。

     

    数据获取来源
    数据来源:淘宝网(www.taobao.com)

    关键词搜索:古风

    数据集:4303个(爬取了105页左右的数据,仅爬取淘宝网站,对天猫店铺直接忽略)

    工具以及相关库: python(urllib.request,re, pymysql,jieba,wordcloud,matplotlab,basemap等)

     

    数据集的定义

     

    微信图片 20190604123648 - 用数据分析探索淘宝下古风系列的商品
     

    一、创建数据库

    1.1 连接数据库之前的准备

    1.下载 mysql workbench;

    2.找到anaconda \Lib \site-packages \pymysql \connections.py

    ctrl+F 搜索charset=''  在''中加入utf8;

    3.mysql创建数据和表详细代码如下;

     

    微信图片 20190604123652 - 用数据分析探索淘宝下古风系列的商品
     

    1.2 可能会遇到的问题:

    1、字节长度设置少了(解决方式:varchar(250))

    2、中文字段写入问题(解决方式: character set = utf8)

    3、特殊符号的词处理(解决方式:replace将特殊符号替换为空白)

     

    二、撰写爬虫
    流程:(仅选取部分代码)

    1、用户代理池,ip代理池的建立(池越多越好,越深越赞,本次仅采用了3个ip切换)

    2、设定要抓取的目标,对抓取的网站进行分析,

    3、构建一级页面的抓取并获得详情页面的Link以及详情页面的对应信息

    4、进行抓包分析(可以利用fiddle工具实施)

    5、循环抓取,对程序错误进行试调,有错误的地方用try-except进行处理

     

    三、数据处理
    1、连接数据库读入数据;

    2、处理缺失值,重复值;

    3、为后续数据分析对数据进行所需处理;

    数据缺失值图表(本次案例没有缺失值):

     

    微信图片 20190604123657 - 用数据分析探索淘宝下古风系列的商品
     

    四、Jieba词频处理及词云展示

    4.1、对标题文本进行分词:

    词云可视化:

    安装模块 wordcloud直接pip install wordcloud经常会遇到错误。

    所以选择https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,根据python版本下载对应的库。

    安装cd D:pip install wordcloud‑1.4.1‑cp36‑cp36m‑win_amd64.whl

    4.2、高频词云结果展示:

     

    微信图片 20190604123701 - 用数据分析探索淘宝下古风系列的商品
     

    分析结论:

    从商品上面来看:连衣裙,汉服,发饰,头饰,流苏等配饰比较多。

    从风格,元素来看:复古风,古典,淡雅,中国风。

    五、商品销量关键词的关系探索
    5.1、排名前25的关键词与总销量量的分布关系:

     

    微信图片 20190604123706 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    单个关键词来看:汉服(中国,古典不算商品)销量最高。

    配饰总计更高一点:比如发饰,流苏, 步摇(原谅小编第一次知道流苏,步摇是下面这东西?!涨知识了)

     

    微信图片 20190604123711 - 用数据分析探索淘宝下古风系列的商品
     

    5.2、商品的价格与销售量的分布情况:

     

    微信图片 20190604123715 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    价格区间在0-50元的销量更受大家青睐,这些应该是饰品之类的小件,其次为50-250元这个价位,这部分大多数应该衣服,裙子,在350元以上的评价量就很少了。同样也能看出看出古风系列的关键词消费的客单价主要是应该在0-350元之间。

     

    某种程度上实证了微观经济学中的概念:在同等效用下,价格和销量(评论量)是凹型曲线。

     

    微信图片 20190604123720 - 用数据分析探索淘宝下古风系列的商品
     

    5.3、top3古风商品的价格区间与销售量分布情况:

     

    微信图片 20190604123724 - 用数据分析探索淘宝下古风系列的商品
     

    从上图可知:

    0-50元区间:书签销售占比更高,

    50-250元区间:汉服销售占比更高,和上面0-50元更多的是配饰的结论相符合。

    5.4 价格与销售量的关系探索

    微信图片 20190604123728 - 用数据分析探索淘宝下古风系列的商品
    注:data里面有几个离群值,价格大于4000元的为了方便观测将其去除。

    从图表上可知:

    1. 商品数量随着价格总体呈现下降阶梯形势,价格越高,商品的销售就越少;也满足上面所说的在同等效用下,价格和销量是凹型曲线。

    2. 低价位商品居多,价格在0-250元之间的销量最多,250-500元之间的次之,价格500元以上的商品销售就相对较少;

    3. 价格500元以上的商品,在售商品数量差异不大。

    5.5、商品总金额与单价分布情况:

     

    微信图片 20190604123732 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    1. 总体趋势:由线性回归拟合线,从总体可以看出,商品总金额与价格关系不大;

    2. 多数商品的价格偏低,但是总金额很高,开句玩笑,薄利多销吗?

    3. 价格在0-250元的商品总金额较高,价格250-500元的商品总金额最高,在0-500元区间价格越高收入也随之相对越高,有一种上升趋势。

    六、不同省份的商品地图分布

     

    微信图片 20190604123736 - 用数据分析探索淘宝下古风系列的商品
     

    由地图可知:
    各商品销量的主要区域主要分布浙江、广东、山东,其次为江苏,上海。怪不得江浙沪包邮,难道是因为商家都在这些地方,距离比较近?

     

    总结:
    在淘宝里的古风商品,服装、佩饰价格都普遍处于相对便宜的位置,如:佩饰价格普遍分布在0-50元,服装普遍分布在50-150元,这都是我们可以接受的范围。所以在生活中,买件古风装,圆个江湖梦的成本还是不算太高。

     

    不足
    1、抓取的速度方面可以优化,反爬方面可以准备更多尝试,因为在抓取到100多页后还是意料之内的被forbid,后续可以考虑建立更多的ip,和模拟账号登录。

    2、仅对普通的淘宝店铺进行了抓取,未对天猫商家的数据进行抓取,后续技术提高后可以尝试增加天猫这一块的样本,毕竟常识来看同款商品天猫的价位比普通的淘宝店铺偏高,并且对于商品有最低和最高价的商品仅选择了最低价,综合来说,总体的价格结论可能会稍微偏低。

    3、将关键词作为商品的分类,可能会有类型重叠部分,后续可以通过搜索类别+关键词作为依据。

  • 预热世界杯 玩法各异!3张竞彩红单了解一下 2019-10-18
  • 崇拜不劳而获是腐败的根源之一,正气不足是腐败的第二个根源,沉迷于初级趣味易滋生腐败,提高素质力争不想腐,以医者之心防治腐败。 2019-10-09
  • 人民日报评论员随笔:让文化热情涵养更多经典 2019-10-09
  • 国产手机跟进“刘海屏”,凸显苹果在智能手机市场的影响力 2019-10-05
  • 世界杯倒计时:球迷街头狂欢为自己的国家打Call 2019-10-02
  • 紫光阁中共中央国家机关工作委员会 2019-09-24
  • 洪崖洞客流激增 渝中开通2条应急通道12辆公交车驰援 2019-09-24
  • 中央环保督察“回头看”10省区问责630人 2019-09-19
  • 天津举办改善营商环境专题讲座 2019-09-19
  • 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 全年无错三十六码 山西11选5前三直选遗漏 黑龙江福彩网 北京33选7走势图500期 网络挣钱平台是真的吗 极品飞车17官网 临沂群英会彩票投注和规则 澳门网上电子游艺平台首选 快三破解器app 彩票2345图表走势 nba直播 时时彩后二软件安卓版 pk10计划软件破解版免费版 12生肖开什么平码 30选5最高奖金多少