• 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 筛选聚类变量的一套方法:SPSS聚类分析

    快乐8和值历史走势图:筛选聚类变量的一套方法:SPSS聚类分析

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2015-07-28 | 作者:admin

    聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。

    案例数据源:

    在SPSS自带数据文件plastic.sav中记录了20中塑料的三个特征,分别是tear_res(抗拉力)、gloss(光滑度)、opacity(透明度),相关经验表面这20中塑料可以分为3个种类,如果用这三个变量进行聚类,请判断和筛选有效聚类变量。

    一套筛选聚类变量的方法

    1

    一、盲选

    将根据经验得到的、现有的备选聚类变量全部纳入模型,暂时不考虑某些变量是否不合适。本案例采用SPSS系统聚类方法。对话框如下:

    2

    统计量选项卡:聚类成员选择单一方案,聚类数输入数字3;

    绘制选项卡:勾选树状图;

    方法选项卡:默认选项,不进行标准化;

    保存选项卡:聚类成员选择单一方案,聚类数输入数字3;

    二、初步聚类

    这是盲选得到的初步聚类结果,并且在数据视图我们可以看到已经自动生成了一个聚类结果变量,这个变量非常有用。

    3

    三、方差分析

    是不是每一个纳入模型的聚类变量都对聚类过程有贡献?利用已经生成的初步聚类结果,我们可以用一个单因素方差分析来判断分类结果在三个变量上的差异是否显著,进而判断哪些变量对聚类是没有贡献的。

    4

    分析——比较均值——单因素方差分析:

    选项选项卡:勾选均值图

    5

    由方差分析我们很明确的得知,纳入模型的三个聚类变量,其中只有“透明度”指标在各个分类上有显著的差异,也就是说分类有效果,让每个分类的差异很大,而两外两个变量则在三个分类上没有显著差异,没有很好的类别区分度,所以,我们可以认为,这两个变量对聚类无作用或者无贡献,可考虑踢出模型。

    我们还想从可视化的角度来查看和判断,单因素方差分析为我们提供了均值图,可惜,这三个图却最容易误导我们的判断,因为spss在自动生产均值图时为每一个变量单独制图,而且分配不同的纵轴坐标,导致每个图看起来都有非常大的差异,从视觉上迷惑我们做出错误的判断。

    6

    这里需要改进!

    四、均值描述

    为改进以上SPSS默认选项的不足之处,我们需要自己生成三个变量在不同类别上的均值,means过程可以帮助到我们。

    7

    从数字上来看,抗拉力(6.8、6.7、7.1)、光滑度(9.3、9.4、9.2)两个指标在三个类别上并没有多大的差异,而对聚类有贡献的透明度指标在不同类别上区分度非常明显。

    8

    五、多线均值图

    克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比,也就是制作一个多线均值图。

    9

    此时,结果已经一目了然了

    综上,我们可以将抗拉力、光滑度两个指标从模型中剔除,只留下透明度一个指标再进行聚类。

    10

    我们发现,前后两次聚类的结果一模一样,用一个指标可以代替以前三个指标的进行聚类。

    我们这样做的意义何在?如果能将这些整理成为规则,形成经验,那我们就可以不用测量抗拉力和光滑度这两个指标了,你不觉得多测量两个指标成本会增加吗?


    (来源:等比网)

  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 双色球2019055期夜问杀红 三同号遗漏安徽快三 中国竞彩网首页比分直播新浪爱彩 申博真人游戏 北京快中彩官方网站 湖北11选5推荐 贵州快3中奖规则 贵州十一选五走势图 北京赛车表情包 湖北快三玩法与技巧 江西多乐彩11选5遗漏 腾讯分分彩必赢计划app 曾道免费资料十码中特 快乐双彩最新开奖公告 时时彩玩法介绍及奖金