生产实战spark - 程序员宅基地

大数据开发实战系列之Spark电商平台

标签： spark 大数据

源于企业级电商网站的大数据统计分析平台，该平台以 Spark 框架为核心，对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行分析，根据...

PySpark实战（一）——大数据时代及Spark

标签：大数据

PySpark实战大数据认知

Spark实战(十一)Spark2.x集成Hive

标签： spark hive thrifitserver

一、Hive配置（一）、简介一般的公司都会有自己的数据仓库，而大多数都选择的Hive...极其耗时，因此使用spark来计算可以提高效率，但是之前有很多数据都是通过hive来操作，好在spark可以无缝集成hive，使用h...

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

标签： spark 大数据机器学习

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取 1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图...

【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！_kafkautils(2)

标签： spark kafka linq

/todo:利用sparkStreaming对接kafka实现单词计数----采用receiver(高级API)//1、创建sparkConf.set(“spark.streaming.receiver.writeAheadLog.enable”,“true”) //开启wal预写日志，保存数据源的可靠性//2、创建...

Spark处理百亿规模数据优化实战

标签： Spark 优化

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战，并成功将程序的速度提升一倍（涉及到敏感信息本文在2018-07-04号将其删除，阅读上可能显得不完整）下面介绍一些基本的优化手段本文于2017-07-16号书写 ...

Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据

标签： spark streaming 大数据

使用Spark Streaming实时的分析处理用户对广告点击的行为数据1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据2. 需求一：每天每地区热门广告Top32.1 需求分析2.2 代码实现3. 需求二：...

Spark开发

标签： spark scala 大数据

Spark开发详细过程

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。 1 推荐系统简介 ...

实战数据倾斜及其优化-Spark&Hive

标签： spark hive big data

数据倾斜是大数据处理无法规避的问题，大数据开发者都必须具备处理数据倾斜的思维和能力。大数据采用分而治之、分布式并行处理大数据集，要想得到最好的处理性能，数据应该均衡的分布到集群各个计算节点上，这样...

Spark Structured Streaming实战--对同一流数据进行多种计算

标签： spark streaming spark流处理

Spark Strucutured Streaming提供了针对同一个数据源流进行不同逻辑计算并对结果进行不同的sink的方式。这就是在Spark Strucutured Streaming的writestream中提供的foreach和foreachBatch接口。 Foreach

Spark性能调优案例

标签： spark big data 大数据

在实际工作中，性能调优是必不可少的，虽然业务千种百样，实际落地的解决方案可能也不尽相同，但归根结底，调优的最终目的是使得内存...案例数据来源极客时间Spark 性能调优实战，数据地址百度网盘，提取码 ajs6 。数

【大数据】HADOOP-YARN容量调度器Spark作业实战

标签： hadoop 大数据 yarn

Hadoop-YARN 容量调度器配置实践，真实场景案例

4. Spark实战项目——电商指标统计

标签： spark

Spark实战— 电商指标统计一、引言在实战项目中，根据不同的需求进行编程，由于需求不同，核心的计算逻辑会不同，但是其他的一些代码，如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来...

Spark技术内幕-深入解析Spark内核架构设计与实现原理（高清书签版）

标签：大数据 Spark Spark内核

Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架，而且以高效的方式...本文最后以项目实战的方式，系统讲解生产环境下Spark应用的开发、部署和性能调优。

项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch（Java版本）

标签： hive spark elasticsearch

如何优雅的将Hive的数据写入ES，每次新增一张表是否新增一个配置文件就能实现呢？当然可以，本篇文章就带你走进这个优雅的ETL Jar包；

大数据Spark实战第八集数仓与数据决策

标签： spark kmean 数仓

物以类聚：Kmean 聚类算法在开始之前，先来看看上个课时的思考题。在配置分类器时，我们需要设置的参数主要有：树的个数；树的最大深度；...在特征子集的选取策略中可以配置信息增益、信息增益率以及基尼系数。...

Spark实战（三）：SparkStreaming使用checkpoint容错

标签： spark streaming checkpoint 检查点

由于SparkStreaming一般是7*24不间断运行，所以强大的容错性保障是必不可少的。并且在保证容错的基础上，保证精准一次的数据处理同样是我们想要的。 checkpoint SparkStreaming自带的容错机制主要是通过...

实战SparkStream+Kafka+Redis实时计算商品销售额

标签： sparkStrea kakfa redis

写在前面2016年天猫双十一当天，零点的倒计时话音未落，52...天猫这个大屏后面的技术应该是使用流计算，阿里使用Java将Storm重写了，叫JStrom(https://github.com/alibaba/jstorm)，最近学习SparkStream和Kafka,可以简

spark数据分析实战——奥运会

引用\[2\]:本书以数据智能为灵魂，以Spark 2.4.X版本为载体，以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心，对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇，...

【Spark编程基础】实验5 Spark Structured Streaming编程实践

标签： spark 大数据分布式

0.1 讲义文件源-json数据任务。按照讲义中json数据的生成及分析，复现实验，并适当分析。0.2 讲义kafka源，2字母单词分析任务按照讲义要求，复现kafka源实验。0.3 讲义socket源，结构化流实现词频统计。...

Spark大数据分与实践笔记（第二章 Spark基础-01）

标签：大数据 spark 分布式

Spark于 2009 年诞生于美国加州大学伯克利分校的 AMP 实验室，它是一个可应用于大规模数据处理的统一分析引擎。 Spark 不仅计算速度快，而且内置了丰富的 API ，使得我们能够更加容易编写程序。

11.2 Spark与Alluxio整合原理与实战

l 11.2 Spark与Alluxio整合原理与实战 11.2.1Spark与Alluxio整合原理 Alluxio，以前称为Tachyon，是世界上第一个内存速度虚拟分布式存储系统。它统一数据访问和桥接计算框架和底层存储系统。应用程序只需要连接...

【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！

标签： kafka 大数据

文章目录一、前言二、KafkaUtils.createDstream三、KafkaUtils.createDirectStream 一、前言首先，我们先来简单的了解下 Kafka：是一种高吞吐量的分布式发布订阅消息系统。依赖Zookeeper，因此搭建Kafka的时候需要...

Spark Streaming整合kafka实战

标签： spark

kafka作为一个实时的分布式消息队列，实时的生产和消费消息，这里我们可以利用SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算。在spark1.3版本后，kafkaUtils里面提供了两个创建dstream的方法，一...

大数据Spark实战高手之路职业学习路线图

标签： spark 大数据大数据学习

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试，一次性彻底掌握Spark，...

大数据 - Spark Streaming介绍和实战

标签：大数据 Spark Spark Streaming

Spark Streaming &nbsp; &nbsp; &nbsp; &nbsp;Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、...

Spark+Kudu的广告业务项目实战

Spark+Kudu的广告业务项目实战 1.简介本项目需要实现：将广告数据的json文件放置在HDFS上，并利用spark进行ETL操作、分析操作，之后存储在kudu上，最后设定每天凌晨三点自动执行广告数据的分析存储操作。 2.项目...

Spark概述

标签： spark 大数据 big data

Spark概述 1.1. 什么是Spark（官网：http://spark.apache.org） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为...

”生产实战spark“ 的搜索结果