11月 - 2021 - 等待下一个秋

Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"…

2021年11月30日 0条评论 5763点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复"资料"，领取1024G资料。 2015 年，Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文。本文以这篇论文为引导，详细讲讲 Flink 内部是如何设计并实现批流一体的架构。前言通常我们在 Flink 中说批流一体指的是这四个方向，其中 Runtime 便是 Flink 运行时的实现。数据交换模型 Flink 对于流作业和批作业有一个统一的执行模型。 …

2021年11月28日 0条评论 1996点热度 0人点赞等待下一个秋阅读全文

因为我工作已经大于3年了，在周五法定摸鱼时间，偶然看到博客园一位同学分享的他自己工作三年的感悟，觉得触动了我，分享出来，与君共勉。前言你的未来时刻因你现在的努力而改变！在努力不够的时候，永远不要谈天赋！　　工作三年，时不时会和身边的朋友、同学，谈论开发这个岗位的前途性，总觉得事多且累，学不完的新技术。　　A同学：放弃了一个更高薪的工作，去了一个外企“躺平”，不怎么加班，几乎大家都是到点就走。　　B同学：在互联网工作两年后，开始想要去考公务员，也确实去考了，但是好像没考上。　　其实，不管在哪里，都需要努…

2021年11月27日 0条评论 1765点热度 0人点赞等待下一个秋阅读全文

主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责，相关岗位的信息是对各个招聘网站中的一些要求做了一个总结一、大数据开发工程师： 1.要求编程基础扎实，熟悉Java，熟悉Scala/Shell/Python语言中其中一种更好（社招一般要求两种）；熟悉MySQL等至少一种数据库，熟悉SQL语言，熟悉Linux系统；熟悉Hadoop/Hive/Flume/Kafka/HBase/Spark/Storm等技术及其生态圈。 2.岗位描述负责公司大数据平台的开发和维护，负责大数据平台持续集成相关工具平台的架…

2021年11月25日 0条评论 1747点热度 0人点赞等待下一个秋阅读全文

前言要从事计算机行业的工作，不管是什么工作，开发、测试、还是算法等，都是要有一门自己比较熟练的编程语言，编程语言可以是C语言、Java、C++等，只要是和你后续工作所相关的就可以（后续用到其他语言的话，你有一门语言基础了，学起来就快了）。一般初学者入门语言大多都会选择Java、C语言、C++或者Python，而且现在网上有很多好的视频，可以供初学者学习使用。关于学习视频或者资料的选择，知乎或者百度等都有很多讲解了，也可以跟师兄师姐咨询，这样可以少走很多弯路，当然，有人说，走一些弯路总是有好处的，但是我这里说的弯路…

2021年11月24日 0条评论 5612点热度 1人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。 Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息去做一些额外的优化，有多种方式与Spark SQL进行交互，比如: SQL和DatasetAPI。当计算结果的时候，使用的是相同…

2021年11月21日 0条评论 5676点热度 0人点赞等待下一个秋阅读全文

一、大数据概论大数据（big data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byte = 8bit1K = 1024bit1MB = 1024K1G = 1024M 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E 1Y…

2021年11月20日 0条评论 1562点热度 0人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、Shuffle优化配置 -spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的b…

2021年11月15日 0条评论 5785点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、程序开发调优：避免创建重复的RDD 需要对名为“hello.txt”的HDFS文件进行一次map操作，再进行一次reduce操作。也就是说，需要对一份数据执行两次算子操作。错误的做法：对于同一份…

2021年11月15日 0条评论 4978点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、资源运行情况 2、资源运行中的集中情况（1）实践中跑的Spark job，有的特别慢，查看CPU利用率很低，可以尝试减少每个executor占用CPU core的数量，增加并行的executor数量…

2021年11月15日 0条评论 6700点热度 0人点赞等待下一个秋阅读全文

12 3

Hive处理Json数据

Flink 是如何统一批流引擎的

工作三年的一些感悟

大数据相关岗位介绍

大数据学习路线

Spark SQL知识点大全与实战

大数据简介

Spark面试题（八）——Spark的Shuffle配置调优

Spark面试题（七）——Spark程序开发调优

Spark面试题（六）——Spark资源调优