• 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 进入大数据--数据导入方案选择

    四川快乐12遗漏前3直:进入大数据--数据导入方案选择

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2015-08-19 | 作者:admin

    由于大数据技术在海量数据处理方面有着得天独厚的优势,中国金融企业竞相引入大数据技术来提升服务质量、创造业务价值,以使企业在互联网+时代和新常态经济环境下处于优势竞争地位。

    利用大数据首先要得到数据,数据来源可简单分为两类,一类是传统企业已经运行多年的交易系统,客户资源管理系统等等(以下仅以交易系统代称),另一类是利用大数据技术抓取以前没有能力或者忽略的数据,例如客户点击,日志流数据等等

    其中交易系统中的数据大部分存在关系型数据库中,如何将这部同步到大数据平台中是架构设计的第一步。目前主流的大数据平台为Hadoop,以下以Hadoop生态圈中Hbase为例,简单阐述将交易系统数据同步到大数据平台的不同方案及其利弊。

    从整体架构设计上,可简单分为两类:源端处理和目标端处理。

    第一种方案是利用ETL工具,在源端(或ETL过程中)将数据进行处理。由于在关系型数据库中,存在大量的主外键等关联关系。对于业务逻辑复杂的交易系统,可能存在一对多,多表关联等不同关系的类型。所以需要针对不同的表间关系,设置基本,内嵌,分割或内联的转换关系。在这种情况下,可以在源端(或ETL)过程中,将转换关系进行预处理,导出基本满足key-value对形态的数据文件。

    以上方式的好处是,一般对企业交易系统相对的熟悉的工程师,对SQL语句或者ETL工具也相对熟悉,可以快速有效的组织数据,而新组建的大数据团队可能对Hadoop的MR编程相对熟悉,但对业务逻辑不够熟悉,这样不同团队可以各司其职,协调一致提高效率。同时,此方案的业务逻辑也相对清晰,借助已经完全发展成熟的SQL语言,可以以较简单的语句实现复杂的关联关系,形成的数据文件也相对规范,且容易纠错。

    另一种方案是利用Mapreduce(MR)程序,先将关系型数据中的表,同构的导入到HDFS中,然后利用MR程序进行组合。数据量较大时,大表间的关联可能会对源端数据库产生较大压力,影响交易系统的正常使用,采用此方案可以减少源端数据库的眼里,同时充分利用HDFS分布式的处理能力,加快运算速度。但如果源系统为大量的小表,由于Hadoop不适宜处理大量小文件,所以这种情况下的MR程序的效率会有所损失。

    从技术选型上可选择传统的ETL工具或者分布式的导入导出工具。

    成熟的ETL工具例如Datastage,Oracle ODI,SQLserverSSIS,开源的Kettle等等,基本都可简单实现将数据库文件导出到平面文件,并且大部分已经支持对Hadoop提供直接的支持。利用这些工具,可以很容易的将关系型数据中的数据转移到HDFS的集群所在目录中,然后利用Hbase的Client API, Bulkload等不同方式将数据导入到集群中。

    另一方面可以选择分布式的数据导入导出工具,例如Apache Sqoop,淘宝Datax,Attunity Replicate,Diyotta DataMover相比于ETL工具,这些工具不支持复杂数据类型转换,计算等,但对Hadoop支持的更完善,并可十分简单的实现MR编程,充分利用Hadoop并行计算的优势。这里主流的工具为Sqoop,其处理流程如下图(摘自Sqoop官方文档)。

    1

    Sqoop使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理,能够分割数据集并创建Hadoop任务来处理每个区块。

    以上从架构设计和技术选型的角度简单分析了数据从关系型数据库同步到大数据平台的几种不同方案,抛砖引玉,供正准备迈入大数据时代的相关人员参考。


    (作者:陈学亮)


  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 黑龙江6十1开奖号码查询 3d开奖结果今天结果i 福利彩票预测最准确 查看内蒙古快三360 山东快乐扑克3遗漏数据 贵州快3开奖今天结果是什么 上海彩票走势图大全 ag真人娱乐城开户 中国排球协会 白小姐资料一肖中特开奖知料 微信足彩通 辽宁十一选五开奖即时结果 福彩3d今日开奖号 北京11选五5开奖结果 江苏11选5网上购票