”生产实战spark“ 的搜索结果

     源于企业级电商网站的大数据统计分析平台,该平台以 Spark 框架为核心,对电商网站的日志进行离线和实时分析。 该大数据分析平台对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据...

     一、Hive配置 (一)、简介    一般的公司都会有自己的数据仓库,而大多数都选择的Hive...极其耗时,因此使用spark来计算可以提高效率,但是之前有很多数据都是通过hive来操作,好在spark可以无缝集成hive,使用h...

     本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段 本文于2017-07-16号书写 ...

     将结合前述知识进行综合实战,以达到所学即所用。在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。 1 推荐系统简介 ...

     数据倾斜是大数据处理无法规避的问题,大数据开发者都必须具备处理数据倾斜的思维和能力。 大数据采用分而治之、分布式并行处理大数据集,要想得到最好的处理性能,数据应该均衡的分布到集群各个计算节点上,这样...

     在实际工作中,性能调优是必不可少的,虽然业务千种百样,实际落地的解决方案可能也不尽相同,但归根结底,调优的最终目的是使得内存...案例数据来源极客时间Spark 性能调优实战,数据地址百度网盘,提取码 ajs6 。 数

     Spark实战— 电商指标统计 一、引言 ​ 在实战项目中,根据不同的需求进行编程,由于需求不同,核心的计算逻辑会不同,但是其他的一些代码,如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来...

     物以类聚:Kmean 聚类算法 在开始之前,先来看看上个课时的思考题。在配置分类器时,我们需要设置的参数主要有: 树的个数; 树的最大深度;...在特征子集的选取策略中可以配置信息增益、信息增益率以及基尼系数。...

     引用\[2\]:本书以数据智能为灵魂,以Spark 2.4.X版本为载体,以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇,...

     l 11.2 Spark与Alluxio整合原理与实战 11.2.1Spark与Alluxio整合原理 Alluxio,以前称为Tachyon,是世界上第一个内存速度虚拟分布式存储系统。它统一数据访问和桥接计算框架和底层存储系统。应用程序只需要连接...

     kafka作为一个实时的分布式消息队列,实时的生产和消费消息,这里我们可以利用SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算。在spark1.3版本后,kafkaUtils里面提供了两个创建dstream的方法,一...

     Spark+Kudu的广告业务项目实战 1.简介 本项目需要实现:将广告数据的json文件放置在HDFS上,并利用spark进行ETL操作、分析操作,之后存储在kudu上,最后设定每天凌晨三点自动执行广告数据的分析存储操作。 2.项目...

Spark概述

标签:   spark  大数据  big data

     Spark概述 1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1