• 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 推动吉台两地合作发展再上新台阶 2019-05-29
  • 中青报:父亲的“卖牛钱”被打赏 该如何管住孩子的手 2019-05-29
  • 任建明解读中纪委五次全会亮点 展望新时期反腐制度建设 2019-05-28
  • 全国首套房贷款利率连续17个月上升 2019-05-25
  • 昌赣高铁假期加紧施工 2019-05-25
  • 美国再挑贸易战,中方强力回击,全球市场跌声一片 2019-05-24
  • 【学习时刻学思践悟十九大①】人民大学马亮:在新时代增强党的改革创新本领 2019-05-24
  • 我们的节日2018端午——华龙网 2019-05-22
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 实用的大数据分析工具

    天津快乐十分前二和值走势图:实用的大数据分析工具

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2019-05-27 | 作者:admin

    Tools for Big Data - 实用的大数据分析工具

     

    硬件和软件是良好处理数据的基本和重要组件,就第一个而言,有一些技术,如大规模并行处理(MPP)架构,可以帮助快速处理。

     

    但是,对于非结构化或半结构化数据的管理,有必要采用其他技术,如MapReduce或Hadoop,它们负责管理结构化,非结构化或半结构化信息。用于大数据分析的工具须能够在合理的计算时间内以及在足够精确的范围内处理大型数据集及海量数据。

     

    Hadoop 1 - 实用的大数据分析工具

     

    Hadoop

     

    它是一个通过使用简单编程模型的计算机组分布式处理大型数据集的框架。大数据工具Hadoop支持不同的操作系统,通常用于云中的任何平台。

     

    它还有两个主要组件:用于文件存储的每个群集节点(HDFS)上的分布式文件系统和MapReduce编程基础结构。HDFS文件系统提供容错和高可用性的数据库,而MapReduce可以创建通过结果研究从分析的数据中提取值的算法。

     

    MapReduce - 实用的大数据分析工具

     

    MapReduce

     

    MapReduce由Google于2003年设计,被认为是处理海量数据的先锋平台,也是通过分割数据文件进行数据处理的范例,它用于可以并行处理大量信息的解决方案中相同的硬件,即PB级,同时为用户提供对底层集群资源的轻松透明管理。MapReduce将处理分为两个功能:Map和Reduce。

     

    地图功能:在执行输入数据的摄取和变换并且可以并行处理输入寄存器的情况下。系统处理键值对,直接从分布式文件系统读取,并使用用户定义的函数将这些对转换为其他中间体。每个节点负责读取和转换一个或多个分区的对。

     

    减少功能:主节点按键对组进行分组,并将组合结果分发到每个节点中的Reduce进程。缩减功能应用于与每个键关联的值列表,并生成输出值。

     

    Apache Storm - 实用的大数据分析工具

     

    Apache Storm

     

    它是一个分布式开源和开源系统,与Hadoop相比,具有实时处理数据处理的优势,Hadoop专为批处理而设计。Apache Storm允许实时构建分布式处理系统,可以快速处理无限数据流(每个节点每秒处理超过一百万个元组)。它具有高度可扩展性,易于使用并保证低延迟(处理数据消息量极大,延迟最小),它还提供了一个非常简单的架构,用于创建称为拓扑的应用程序。

     

    Storm大数据工具基于由完整的峰值,螺栓和流量网络组成的拓扑。峰值是电流源,螺栓用于处理流入物以产生流出物。Storm可用于许多情况,例如实时分析,在线机器管理,连续计算和分布式RPC、ETL等。

     

    Apache Spark - 实用的大数据分析工具

     

    Apache Spark

     

    它诞生了作为解决MapReduce / Hadoop限制的替代方案。它可以在内存中快速加载和查询数据,对迭代过程非常有用,并且还提供支持各种应用程序的简单编程模型。

     

    Apache Spark兼容图形数据库,传输分析,常规批处理,即席查询和机器学习,并允许使用SQL语言查询结构化和半结构化数据。

     

    Spark提供了比Hadoop / MapReduce执行更多操作的能力,这有助于以更少的预算和更复杂的解决方案执行大数据项目。它的主要优点之一是易于使用,因为它可以用R,Python,Scala甚至Java编程。Spark有自己的计算集群管理系统,因此它仅将Hadoop HDFS用于存储。

     

    Apache Flink  - 实用的大数据分析工具

     

    Apache Flink

     

    Flink是Apache Software Foundation的一个项目,由一个由180多个开源合作者组成的社区开发和支持,并在几家公司的生产中使用。它被认为是一种开源流程处理框架,允许使用单一技术对大量数据进行实时传输分析。

     

    Flink为程序员提供了极大的灵活性,可以通过使用不同的时间概念(事件时间,摄取时间,处理时间)来关联事件; 它还提供低延迟,高吞吐量,多语言API,无序事件,容错和一致性。

     

    Flume - 实用的大数据分析工具

     

    Flume

     

    它是一种常用于Hadoop的摄取或数据收集工具。Flume是一个分布式,可靠且可用的系统,它收集聚合并将来自许多不同来源的数据传输到集中式数据仓库,例如Hadoop分布式文件系统(HDFS)。它具有灵活且简单的架构,其他架构可处理数据流的传输。容错,可调可靠性机制和故障恢复服务是它的一些功能。Flume依靠简单的可扩展数据模型来处理大量分布式数据源。

     

    尽管Flume很好地补充了Hadoop,但它是一个可以在其他平台上运行的独立组件。他以在一台机器上执行多个进程的能力而闻名。通过使用Flume,用户可以将来自多个高容量源(例如Avro RPC源和syslog)的数据传输到接收器(例如HDFS和HBase)以进行实时分析。此外,Flume提供了一个查询处理引擎,可以在将每批新数据传送到指定的接收器之前对其进行转换。

  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 纷纷“结缘”世界杯 家电企业图什么 2019-06-13
  • 推动吉台两地合作发展再上新台阶 2019-05-29
  • 中青报:父亲的“卖牛钱”被打赏 该如何管住孩子的手 2019-05-29
  • 任建明解读中纪委五次全会亮点 展望新时期反腐制度建设 2019-05-28
  • 全国首套房贷款利率连续17个月上升 2019-05-25
  • 昌赣高铁假期加紧施工 2019-05-25
  • 美国再挑贸易战,中方强力回击,全球市场跌声一片 2019-05-24
  • 【学习时刻学思践悟十九大①】人民大学马亮:在新时代增强党的改革创新本领 2019-05-24
  • 我们的节日2018端午——华龙网 2019-05-22
  • nba录像吧 建彩票网站合法吗 华东15选5开奖号码彩票开奖查询 新浪彩票新浪网 福建十一选五即时走势图 足彩胜负彩18012期 腾讯彩票怎么查看 双色球购彩技巧 NBA篮彩专家推荐 安徽快三遗漏 山东11选5任选4 四肖中特期期准三肖中特期期准 彩票双色球藏机图121 彩票宝微信彩票 nba标志