生产实战spark - 程序员宅基地

[0.0.0] 大型spark项目实战

标签： spark

参考《Spark大型项目实战：电商用户行为分析大数据平台》- 中华石杉 DT大数据梦工厂-王家林 spark官网文档场景在项目实战中理解： 1、spark core、sql、streaming以及机器学习与图计算相关的知识点 2、性能调...

Spark处理大规模数据优化实战

Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一些优化实践。 1 内存调优由于任务数据量大且会发生...

spark视频-构建商业生产环境下的Spark集群实战

Spark亚太研究院决胜大数据时代公益大讲坛第四期：构建商业生产环境下的Spark集群实战，视频地址：http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=89330229621247 王家林老师...

DStream实战之Spark Streaming整合Kafka, 通过KafkaUtils.createDirectStream方式整合Kafka 38

标签： KafkaUtils.createDirectStream Spark Streaming

kafka作为一个实时的分布式消息队列，实时的生产和消费消息，这里我们可以利用SparkStreaming实时地读取kafka中的数据，然后进行相关计算。在Spark1.3版本后，KafkaUtils里面提供了两个创建dstream的方法，一种为...

大数据分析技术与实战——Spark Streaming

标签： spark hadoop 大数据

Spark是基于内存的大数据综合处理引擎，具有优秀的作业调度机制和快速的分布式计算能力，使其能够更加高效地进行迭代计算，因此Spark能够在一定程度上实现大数据的流式处理。 Spark Streaming是Spa...

Spark Thrift Server 部署与应用

标签： spark hive big data

在介绍spark thrift server 需要先介绍一下其与hiverserver2及spark-sql的关系与区别 HiveServer2 Hive提供了一个命令行终端，在安装了Hive的机器上，配置好了元数据信息数据库和指定了Hadoop的配置文件之后输入...

Spark+Hbase 亿级流量分析实战（日志存储设计）

标签： spark hbase spark+hbase

背景接着上篇文章百亿级流量实时分析统计 - 数据结构设计我们已经设计好了日志的结构，接下来我们就准备要开始撸代码了，我最喜欢这部分的环节了，可是一个上来连就撸代码的程序肯定不是好程序员，要不先设计设计...

PySpark（一）Spark原理介绍、PySpark初体验及原理

标签： python 分布式大数据

Apache Spark是用于处理的统一（unified）分析引擎，其特点就是对任意类型的数据进行自定义计算。

HBase 2.0集群部署实战：HBase与Spark集成

标签：大数据

## 1.1 介绍HBase 2.0集群部署实战的背景和目的 HBase是一个分布式的、可伸缩的、高可靠的面向列的NoSQL数据库系统。它构建在Hadoop之上，使用Hadoop的HDFS作为底层存储，通过分布式的方式提供数据的高效存储和访问...

Spark Streaming整合kafka实战（二）

标签： spark Spark Streaming

KafkaUtils.createDirectStream方式不同于Receiver接收数据，这种方式定期地从kafka的topic下对应的partition中查询最新的偏移量，再根据偏移量范围在每个batch里面处理数据，Spark通过调用kafka简单的消费者Api读取...

Spark宝典

标签： spark java 大数据

spark宝典

剖析Spark集群技术在美团网站的实战运用

标签：程序员大数据 spark

大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主，底层计算引擎为M...

Spark面试干货总结！（8千字长文、27个知识点、21张图）

标签：分布式算法大数据

关注并标星3分钟秒懂大数据每天1次，打卡阅读获取流计算、大数据技术和面经大家好，我是土哥。都说金九银十是找工作的绝佳时期，那现在土哥就以面试的方式为大家总结 Spark 面试所涉及...

《PySpark大数据分析实战》-04.了解Spark

标签：数据分析数据挖掘大数据

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第4节的内容：了解Spark。

Spark入门实战系列--9.Spark GraphX介绍及实例

标签： spark graphx 大数据

Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知•，社交网络中人与人之间有很多关系链，例如Twitter、Facebook...

[转载]SparkStreaming的窗口操作及实战

标签： spark 大数据 java

【必会】SparkStreaming的窗口操作及实战 Window Operations（窗口操作）可以设置窗口大小和滑动窗口间隔来动态的获取当前Streaming的状态。基于窗口的操作会在一个比 StreamingContext 的 batchDuration（批次间隔...

Spark Streaming 项目实战 (2) | 从 Kafka中消费数据

标签： kafka spark

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己...

Spark计算模型RDD, RDD编程实战, RDD函数详解!

标签：大数据 spark

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。...

Spark Streaming + Kafka构建实时数据流

标签： spark kafka json

这个是老师根据某个比赛修改了赛题给大伙布置的任务，数据在上面方式可见，想着用java写实在是太麻烦了，改用了spark读取并模拟数据的实时性上传到Kafka，然后用sparkStreaming接收并处理数据。

Spark 企业级实战：SparkSQL 多数据源整合

Spark 生态较为完善，已经被越来越多的互联网公司应用于生产项目，对于 ETL 开发人员而言，日常数据同步任务和临时取数任务如果有基于 Spark 封装的一个小工具，办公效率会有大幅度提升。本场 Chat 会阐述企业现有...

大数据实战二十一课 - Spark SQL01

回顾：SparkCore总结，把数据写到外部第三方数据库，都要采用foreachPartition 建议大家首先采用带Partition的。对于Spark-Core给定功能实现，是最基本的要求；数据清洗部分使用RDD代替MapReduce来实现. Spark ...

Iceberg实战踩坑指南

标签：大数据 Iceberg flink

本文demo基于 0.11.1 版本较老，iceberg官网已经没有该版本样例了，同时改版本也不支持一些iceberg的新特性，比如：upsert功能，动态schema变更以及索引和小文件合并等问题。但是不影响对主要API和功能的学习和理解

Spark Shell 的使用

标签： Spark

前一章中我们介绍了Spark的Standalone模式的安装. 本章我们介绍下Spark Shell操作窗口的基本的安装. 基本启动与使用基本启动与使用本地启动进入./bin目录, 使用spark-shell即可启动. localhost:bin Sean$ ...

《PySpark大数据分析实战》-07.Spark本地模式安装

标签：数据分析数据挖掘大数据

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第2节的内容：Spark本地模式安装。

Spark详细案例实操

标签： java spark 大数据

Spark Shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。编写WordCount程序创建一...

大数据从0基础到项目实战（CDH5+Spark2.3.x）

本课程为就业课程，以完整的实战项目为主线，项目各个环节既深入讲解理论知识，又结合项目业务进行实操，从而达到一站式学习，让你快速达到就业水平。大数据常见热门技术，一课搞定： linux、Shell编程、虚拟机、...

第43课：Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战

第43课：Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战 2017年5月份左右，老师个人认为需要等到Spark 2.2版本 DataSet背后会被Tungsten优化，而这里面会采用Whole-Stage Code Generation的...

三万字长文 | Spark性能优化实战手册

本文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优篇》《Sp...

Java-Spark系列8-Spark streaming整合Kafka

标签： Spark Streaming Spark + kafka Spark准实时

Spark streaming整合Kafka概述1.1 Maven配置1.2 创建Direct Stream1.3 定位策略1.4 消费者的策略1.5 创建RDD1.6 获得Offsets1.7 存储 Offsets...二.Spark Streaming整合Kafka实战2.1 Maven配置2.2 代码2.3 测试参考...

大数据分析技术与实战之 Spark Streaming

Spark是基于内存的大数据综合处理引擎，具有优秀的作业调度机制和快速的分布式计算能力，使其能够更加高效地进行迭代计算，因此Spark能够在一定程度上实现大数据的流式处理。随着信息技术的迅猛发展，...

”生产实战spark“ 的搜索结果