• 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 专属球队定制装饰火爆 足球盛宴更是消费大餐——浙江在线 2019-08-26
  • 驻村工作队帮村民“马”上致富 2019-08-26
  • 特色小镇里的税收服务 定海国地税多措并举提升效能 2019-08-23
  • 【央视快评】让传统文化焕发新时代风采 2019-08-22
  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 这些数据分析方面的问题,你是否也曾遇到

    四川快乐12前三直遗漏:这些数据分析方面的问题,你是否也曾遇到

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2018-10-09 | 作者:admin

    数据准备可能是任何类型的严肃数据分析中最重要的步骤。虽然在一篇文章中试图涵盖如此广泛的知识领域是荒谬的,但我们已经准备了一份快速清单,可以在准备分析数据时进行检查。希望这有助于优化数据准备过程,并确保涵盖所有重要步骤和基础。

    但作为一般指导原则 - 任何类型的数据分析都要从熟悉要回答的业务问题和想要衡量的KPI开始。

    对业务需求的深刻理解将能够在以后将这些需求映射回想要执行的数据和分析类型,而无法理解业务预期会看到的内容可能会导致很多以后浪费时间和精力 - 所以不要跳过这一步!

    一旦掌握了业务期望作为分析的最终产品的内容,就会想要开始深入研究数据。要做的第一件事就是找到它。

    第一组问题是指组织数据存储的物理位置。对于小型部署,这可以像一系列电子表格一样简单; 对于较大的数据库,可能正在查看多个数据库,Hadoop数据湖,云源或数据仓库。

    还需要了解是否具有访问数据所需的权限,以及将要处理的数据类型或格式。

    想在此阶段提出的问题是:

    我的组织使用哪些数据源?

    我是否拥有访问数据所需的权限或凭据?

    每个数据集的大小是多少,我需要从每个数据集中获取多少数据?

    我对每个数据库中的基础表和模式有多熟悉?

    我是否需要所有数据进行更细粒度的分析,还是需要一个子集以确保更快的性能?

    由于差异,数据是否需要标准化 - 例如,通过将来自SQL数据库的数据与NoSQL源(如MongoDB)相结合?

    我是否需要分析来自外部源的数据,这些数据位于组织的数据存储之外?

    通常需要手动转换或操纵数据以进行有效分析。当数据不一致或包含重复信息时,或者希望以新方式对数据进行分组时,当各种表或数据集对相同信息使用不同格式时,这可能是相关的。

    这是想要问的问题:

    对于每个单独的来源 - 它是完整的吗?准确?最新?

    在目前的状态下,我可以使用数据来回答我的业务问题吗?

    如果存在不一致或冗余值,我需要做些什么来清理数据?是手动更改一些值还是需要更系统的方法?

    我是否能够更改其原始位置的数据,还是需要在辅助环境中完成(例如,无权更改生产数据的情况)?

    如果正在使用许多不同的数据源和表,则需要对数据建模,使仪表板用户能够通过连接不同表中的相关字段来快速接收即席查询的答案。数据模型中各个实体之间的关系将决定未来分析能够回答的查询类型,以及它的效率。

    首先询问:

    从业务角度来看,哪些字段适合将数据连接在一起?

    连接这些字段后会发生什么关系?会想要避免多对多的关系。

    我的数据模型会扩展吗?

    在未来的道路上添加数据源并对模型进行更改有多容易?

    我们可以简化关系而不影响性能吗?请注意,这可能取决于正在使用的数据准备和分析工具。

    对于某些类型的更复杂的分析,可能希望在现有表格之上创建新表格。这方面的一个例子可以是漏斗分析,可以在其中获取有关正在进行的多阶段过程的基本信息,并创建各种记录将被分类的桶。可以帮助了解自己是否准备好的问题示例包括:

    我是否需要为要执行的分析类型创建汇总表?

    我是否需要从我正在使用内部或外部联接的表中连接数据,或者将这些表组合起来创建一个新表?

    虽然在某些情况下可以通过查询生产数据库来创建报告和分析,但大多数BI工具和实现都依赖于在辅助环境中创建数据的合并,这将作为分析数据库。

    想问的问题包括:

    本地或云服务器是否将我的数据移动到拥有足够的软件和硬件来处理我正在处理的数据量?这两者有点依赖,因为合适的软件可以降低硬件成本。

    我需要以什么频率导入数据?这取决于原始数据变化或增长的速率。

    导入数据将如何影响我的生产环境?

    自豪地宣布数据准备工作完成之前,需要确保最终结果是准确的,并且在此过程中没有犯任何错误。要验证数据,请提出以下问题:

    它在一般水平上是否有意义?

    我所看到的措施是否符合我对业务的了解?

    在我的分析环境中进行的计算是否返回与在原始数据上手动执行的相同计算相同的结果?

    在完成上面的整个清单后,将识别数据,转换数据,构建数据模型,将数据移动到分析数据库并验证结果。这可能是几小时,几天或更长时间 - 取决于正在使用的数据量及其复杂性。

    如果一切顺利,很高兴 - 所以继续开始构建一些仪表板!并阅读我们的仪表板设计指南,以确保遵循核心原则,这将有助于用数据讲述清晰易懂的故事。

     

  • 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 专属球队定制装饰火爆 足球盛宴更是消费大餐——浙江在线 2019-08-26
  • 驻村工作队帮村民“马”上致富 2019-08-26
  • 特色小镇里的税收服务 定海国地税多措并举提升效能 2019-08-23
  • 【央视快评】让传统文化焕发新时代风采 2019-08-22
  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 什么游戏账号赚钱 湖北30选5开奖今天的 快乐12跨度和值表 六肖中特期期准资料 辽宁35选7开奖号码咨询 北京快乐8是正规彩票吗 博彩充值漏洞 福彩30选5开奖结果查询 湖北ll选5开奖结果 北京时时彩5分钟开奖号 海南飞鱼app 捕鱼达人开发 广西快乐十分特号走势 广西快三专家推荐号 今天3d230期历史记录