顺子の杂货铺
生命不息,折腾不止,且行且珍惜~
Avatar photo

shunzi的文章

一半忧伤,一半明媚!喜欢看书,听歌,写字,打游戏,交朋友!
BLOG

OpenClaw 完全指南:从入门到精通

shunzi阅读(61)评论(0)赞(0)

OpenClaw 完全指南:从入门到精通 声明:本文基于公开资料整理,包含官方文档、社区教程与实践验证。内容截至 2026 年 3 月,建议以官方最新文档为准。 目录 OpenClaw 是什么 核心架构与组件 环境要求与安装 配置详解 模型...

BigData

0x10-机器学习算法集成

shunzi阅读(94)评论(0)赞(0)

机器学习算法集成 本篇是《大数据算法与UDF系列》的第10篇(最终篇),讲解Spark MLlib中的常用机器学习算法,包括K-Means聚类和线性回归,以及如何在实际业务中应用。 1. MLlib简介 1.1 什么是Spark MLlib...

BigData

0x09-图算法PageRank

shunzi阅读(82)评论(0)赞(0)

图算法PageRank 本篇是《大数据算法与UDF系列》的第9篇,深入讲解PageRank算法的原理,以及如何使用Spark GraphX进行大规模图计算。 1. PageRank简介 1.1 背景故事 PageRank由Google创始人...

BigData

0x08-数据加密与编码

shunzi阅读(89)评论(0)赞(0)

数据加密与编码 本篇是《大数据算法与UDF系列》的第8篇,讲解大数据场景下的数据加密、哈希、编码和脱敏技术。 1. 常用加密算法 1.1 算法分类 ┌─────────────────────────────────────────────...

BigData

0x07-字符串模糊匹配

shunzi阅读(80)评论(0)赞(0)

字符串模糊匹配 本篇是《大数据算法与UDF系列》的第7篇,讲解常见的字符串相似度算法,以及在大数据场景下如何实现高效的模糊匹配。 1. 业务场景 1.1 为什么需要模糊匹配? ┌───────────────────────────────...

BigData

0x06-布隆过滤器与去重

shunzi阅读(80)评论(0)赞(0)

布隆过滤器与去重 本篇是《大数据算法与UDF系列》的第6篇,讲解布隆过滤器(Bloom Filter)的原理、实现,以及在大数据去重场景中的应用。 1. 什么是布隆过滤器? 1.1 概念介绍 布隆过滤器是一种空间效率极高的概率数据结构,用于...

BigData

0x05-近似算法HyperLogLog

shunzi阅读(73)评论(0)赞(0)

近似算法HyperLogLog 本篇是《大数据算法与UDF系列》的第5篇,讲解大数据中的基数估计神器——HyperLogLog(HLL),它可以用极小的空间计算亿级UV数据。 1. 什么是基数估计? 1.1 问题背景 在数据分析中,经常需要...

BigData

0x04-时间窗口实战

shunzi阅读(71)评论(0)赞(0)

时间窗口实战 本篇是《大数据算法与UDF系列》的第4篇,深入讲解时间窗口的三大类型(滚动、滑动、会话),以及Flink流处理中的迟到数据处理和Watermark机制。 1. 什么是时间窗口? 1.1 业务场景 在实时数据分析中,我们经常需要...

BigData

0x03-聚合与TopN问题

shunzi阅读(62)评论(0)赞(0)

聚合与TopN问题 本篇是《大数据算法与UDF系列》的第3篇,深入讲解聚合函数的底层原理,以及大数据场景下TopN问题的各种解法。 1. 聚合函数基础 1.1 什么是聚合? 聚合(Aggregation) 是将多行数据压缩成一行或多行的操作...

BigData

0x02-Join算法详解与优化

shunzi阅读(56)评论(0)赞(0)

Join算法详解与优化 本篇是《大数据算法与UDF系列》的第2篇,带你深入理解大数据场景下的Join算法原理,掌握各种Join类型的适用场景,以及生产环境中的优化技巧。 1. Join类型与原理 1.1 六种Join类型 ┌────────...

分享创造快乐

联系我们联系我们