基于对Hadoop Family技术体系的深刻理解,我们已经为国内数位客户成功地搭建了大数据平台,并在此基础上设计开发了大数据应用系统。
恒格大数据平台解决方案基于Hadoop2及生态体系, 兼容Mapreduce和Spark两种分布式计算框架,整合了Hive、HBase、SparkSQL,提供完整的数据仓库替代方案。平台还整合了Mahout和R,提供全面的数据分析、挖掘工具。
Hadoop是高性价比的海量数据存储平台,大数据存储方案主要由两部分提供:基于HDFS的非结构化存储,以及基于HBase半结构化、结构化存储。
大数据计算平台,提供两套不同场景的计算平台,一是基于MapReduce的传统的大数据计算平台,另一部分是基于Spark的高性能内存计算平台。此两套计算平台,本身存在互补性,且硬件资源可复用,可以根据实际解决方案选择不同的计算平台。
Spark作为新一代的并行计算框架,其计算速度相当于MapReduce的10~100倍。恒格团队对Spark有深刻理解和实践经验,借助Spark,可以让您的大数据平台获得更快、更强的数据处理能力。
随着Hive、Spark SQL等大数据平台数据仓库和数据查询等技术的成熟,大数据平台对于SQL的支持会越来越好,而各种报表工具、BI工具将可以直接使用大数据平台作为数据源,因此大数据平台的速度优势、成本优势,将可能成为企业数据仓库的首选。
利用Mahout、R等与Hadoop/Spark紧密集成的大数据分析挖掘工具,基于聚类、分类、关联、预测等分析挖掘算法,构建行业业务模型,从数据中挖掘业务价值,帮助企业改进营销管理和经营管理。