盘点最受欢迎的十个开源大数据技术pdf，txt教程

原文： Top 10 Big Data Technologies to Start Adopting Today! 作者： Tim Spann 翻译：王嘉怡责编：仲培艺大数据已然成为当今最热门的技术之一，正呈爆炸式增长

每天来自全球的新项目如雨后春笋般涌现

幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术

1. Hadoop ——高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序

2. Spark ——使用简单、支持所有重要的大数据语言（Scala、Python、Java、R）

拥有强大的生态系统，成长迅速，对microbatching/batching/SQL支持简单

Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

3. NiFi ——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目，其设计目标是自动化系统间的数据流

基于其工作流式的编程理念，NiFi非常易于使用、强大、可靠、高可配置

两个最重要的特性是其强大的用户界面和良好的数据回溯工具
堪称大数据工具箱里的瑞士军刀

4. Apache Hive 2.1 ——Hive是建立在 Hadoop 上的数据仓库基础构架

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制

随着最新版本的发布，性能和功能都得到了全面提升，Hive已成为SQL在大数据上的最佳解决方案

5. Kafka ——Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据

它已成为大数据系统在异步和分布式消息之间的最佳选择

从Spark到NiFi再到第三方插件工具以至于Java到Scala，它都提供了强大的粘合作用

6. Phoenix —是HBase的SQL驱动
目前大量的公司采用它，并扩大其规模
HDFS支持的NoSQL能够很好地集成所有工具

Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集

7. Zeppelin ——Zeppelin 是一个提供交互数据分析且基于Web的笔记本

方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等

8. Sparkling Water ——H2O填补了Spark’s Machine Learning的缺口，它可以满足你所有的机器学习

9. Apache Beam ——在Java中提供统一的数据进程管道开发，并且能够很好地支持Spark和Flink

提供很多在线框架，开发者无需学习太多框架

10. Stanford CoreNLP ——自然语言处理拥有巨大的增长空间，斯坦福正在努力增进他们的框架

2016年8月12-13日由CSDN主办的 SDCC 2016架构&运维峰会将在成都站召开，5人以上团购或者购买两场峰会通票更有特惠，余票不足，预购从速

（阅读原文获取票务详情链接！）

更多详细内容参见官网网址：SDCC数据库&架构峰会成都站，大会报名

Related Posts