• 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 推动吉台两地合作发展再上新台阶 2019-05-29
  • 中青报:父亲的“卖牛钱”被打赏 该如何管住孩子的手 2019-05-29
  • 任建明解读中纪委五次全会亮点 展望新时期反腐制度建设 2019-05-28
  • 全国首套房贷款利率连续17个月上升 2019-05-25
  • 昌赣高铁假期加紧施工 2019-05-25
  • 美国再挑贸易战,中方强力回击,全球市场跌声一片 2019-05-24
  • 【学习时刻学思践悟十九大①】人民大学马亮:在新时代增强党的改革创新本领 2019-05-24
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 用数据分析探索淘宝下古风系列的商品

    天津快乐十分前三组选走势图:用数据分析探索淘宝下古风系列的商品

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2019-06-04 | 作者:admin

    微信图片 20190604123637 - 用数据分析探索淘宝下古风系列的商品

     

    微信图片 20190604123644 - 用数据分析探索淘宝下古风系列的商品

    江湖给少时的我们许了一场梦。我在梦外,看着梦里的人们清酒高歌,快意恩仇。不管是谁都会对江湖有一颗向往心吧,曾梦想仗剑走天涯,看一下世间的繁华。

     

    说起江湖,在脑海中浮现的不仅是恩怨情仇的情节或者踏雪无痕的身影,还有他们那一层透露江湖意蕴的古风装束。收起心绪,说说我们这次研究的主题:淘宝下古风系列的商品探索。

     

    本文的研究方向

    1、创建数据库写入爬虫数据供后续分析;

    2、利用爬虫技术获取相应的数据,并进行试调优化;

    3、利用文本分析淘宝里的古风商品;

    4、古风商品价格、销售量、评论量等数据回归和可视化分析。

     

    实施步骤
    1、mysql创建数据库并建立对应的表,为后续存储数据和分析提供前提;

    2、数据采集:Python爬虫淘宝网的古风商品数据,并进行调错,反爬;

    3、为分析清洗和处理所需的数据;

    4、利用文本分析技术:jieba分词以及wordcloud可视化对高词频商品进行分析;

    5、古风商品销量,价格等数据的回归以及可视化分析;

    6、商品区域分布展示;

    7、总结以及指出不足之处。

     

    数据获取来源
    数据来源:淘宝网(www.taobao.com)

    关键词搜索:古风

    数据集:4303个(爬取了105页左右的数据,仅爬取淘宝网站,对天猫店铺直接忽略)

    工具以及相关库: python(urllib.request,re, pymysql,jieba,wordcloud,matplotlab,basemap等)

     

    数据集的定义

     

    微信图片 20190604123648 - 用数据分析探索淘宝下古风系列的商品
     

    一、创建数据库

    1.1 连接数据库之前的准备

    1.下载 mysql workbench;

    2.找到anaconda \Lib \site-packages \pymysql \connections.py

    ctrl+F 搜索charset=''  在''中加入utf8;

    3.mysql创建数据和表详细代码如下;

     

    微信图片 20190604123652 - 用数据分析探索淘宝下古风系列的商品
     

    1.2 可能会遇到的问题:

    1、字节长度设置少了(解决方式:varchar(250))

    2、中文字段写入问题(解决方式: character set = utf8)

    3、特殊符号的词处理(解决方式:replace将特殊符号替换为空白)

     

    二、撰写爬虫
    流程:(仅选取部分代码)

    1、用户代理池,ip代理池的建立(池越多越好,越深越赞,本次仅采用了3个ip切换)

    2、设定要抓取的目标,对抓取的网站进行分析,

    3、构建一级页面的抓取并获得详情页面的Link以及详情页面的对应信息

    4、进行抓包分析(可以利用fiddle工具实施)

    5、循环抓取,对程序错误进行试调,有错误的地方用try-except进行处理

     

    三、数据处理
    1、连接数据库读入数据;

    2、处理缺失值,重复值;

    3、为后续数据分析对数据进行所需处理;

    数据缺失值图表(本次案例没有缺失值):

     

    微信图片 20190604123657 - 用数据分析探索淘宝下古风系列的商品
     

    四、Jieba词频处理及词云展示

    4.1、对标题文本进行分词:

    词云可视化:

    安装模块 wordcloud直接pip install wordcloud经常会遇到错误。

    所以选择https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,根据python版本下载对应的库。

    安装cd D:pip install wordcloud‑1.4.1‑cp36‑cp36m‑win_amd64.whl

    4.2、高频词云结果展示:

     

    微信图片 20190604123701 - 用数据分析探索淘宝下古风系列的商品
     

    分析结论:

    从商品上面来看:连衣裙,汉服,发饰,头饰,流苏等配饰比较多。

    从风格,元素来看:复古风,古典,淡雅,中国风。

    五、商品销量关键词的关系探索
    5.1、排名前25的关键词与总销量量的分布关系:

     

    微信图片 20190604123706 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    单个关键词来看:汉服(中国,古典不算商品)销量最高。

    配饰总计更高一点:比如发饰,流苏, 步摇(原谅小编第一次知道流苏,步摇是下面这东西?!涨知识了)

     

    微信图片 20190604123711 - 用数据分析探索淘宝下古风系列的商品
     

    5.2、商品的价格与销售量的分布情况:

     

    微信图片 20190604123715 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    价格区间在0-50元的销量更受大家青睐,这些应该是饰品之类的小件,其次为50-250元这个价位,这部分大多数应该衣服,裙子,在350元以上的评价量就很少了。同样也能看出看出古风系列的关键词消费的客单价主要是应该在0-350元之间。

     

    某种程度上实证了微观经济学中的概念:在同等效用下,价格和销量(评论量)是凹型曲线。

     

    微信图片 20190604123720 - 用数据分析探索淘宝下古风系列的商品
     

    5.3、top3古风商品的价格区间与销售量分布情况:

     

    微信图片 20190604123724 - 用数据分析探索淘宝下古风系列的商品
     

    从上图可知:

    0-50元区间:书签销售占比更高,

    50-250元区间:汉服销售占比更高,和上面0-50元更多的是配饰的结论相符合。

    5.4 价格与销售量的关系探索

    微信图片 20190604123728 - 用数据分析探索淘宝下古风系列的商品
    注:data里面有几个离群值,价格大于4000元的为了方便观测将其去除。

    从图表上可知:

    1. 商品数量随着价格总体呈现下降阶梯形势,价格越高,商品的销售就越少;也满足上面所说的在同等效用下,价格和销量是凹型曲线。

    2. 低价位商品居多,价格在0-250元之间的销量最多,250-500元之间的次之,价格500元以上的商品销售就相对较少;

    3. 价格500元以上的商品,在售商品数量差异不大。

    5.5、商品总金额与单价分布情况:

     

    微信图片 20190604123732 - 用数据分析探索淘宝下古风系列的商品
     

    从图表上可知:

    1. 总体趋势:由线性回归拟合线,从总体可以看出,商品总金额与价格关系不大;

    2. 多数商品的价格偏低,但是总金额很高,开句玩笑,薄利多销吗?

    3. 价格在0-250元的商品总金额较高,价格250-500元的商品总金额最高,在0-500元区间价格越高收入也随之相对越高,有一种上升趋势。

    六、不同省份的商品地图分布

     

    微信图片 20190604123736 - 用数据分析探索淘宝下古风系列的商品
     

    由地图可知:
    各商品销量的主要区域主要分布浙江、广东、山东,其次为江苏,上海。怪不得江浙沪包邮,难道是因为商家都在这些地方,距离比较近?

     

    总结:
    在淘宝里的古风商品,服装、佩饰价格都普遍处于相对便宜的位置,如:佩饰价格普遍分布在0-50元,服装普遍分布在50-150元,这都是我们可以接受的范围。所以在生活中,买件古风装,圆个江湖梦的成本还是不算太高。

     

    不足
    1、抓取的速度方面可以优化,反爬方面可以准备更多尝试,因为在抓取到100多页后还是意料之内的被forbid,后续可以考虑建立更多的ip,和模拟账号登录。

    2、仅对普通的淘宝店铺进行了抓取,未对天猫商家的数据进行抓取,后续技术提高后可以尝试增加天猫这一块的样本,毕竟常识来看同款商品天猫的价位比普通的淘宝店铺偏高,并且对于商品有最低和最高价的商品仅选择了最低价,综合来说,总体的价格结论可能会稍微偏低。

    3、将关键词作为商品的分类,可能会有类型重叠部分,后续可以通过搜索类别+关键词作为依据。

  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 推动吉台两地合作发展再上新台阶 2019-05-29
  • 中青报:父亲的“卖牛钱”被打赏 该如何管住孩子的手 2019-05-29
  • 任建明解读中纪委五次全会亮点 展望新时期反腐制度建设 2019-05-28
  • 全国首套房贷款利率连续17个月上升 2019-05-25
  • 昌赣高铁假期加紧施工 2019-05-25
  • 美国再挑贸易战,中方强力回击,全球市场跌声一片 2019-05-24
  • 【学习时刻学思践悟十九大①】人民大学马亮:在新时代增强党的改革创新本领 2019-05-24
  • 精准三半单双中特 生财有道六合图库277 湖南幸运赛车前三 快乐双彩什么时候开奖时间 波叔一波中特历史彩图 北京十一选五通选二 北京pk10怎么稳赚 p3开机号近10期排列 上海时时乐怎么玩 福彩3d八哥图库 农村神童送四肖中特爆 山西快乐十分派电子版 最新六合彩开奖结果 四川快乐12直选技巧 体彩字谜