2021-05-04
Flajolet-Martin Sketches 的错误率证明
FM-Sketch 解决的问题:估计 $S$ 上 $N$ 个元素中,有多少个唯一的元素 (基数估计) 本文旨在对 FM-Sketch 的错误率进行分析
2021-05-04
水塘抽样 (Reservoir sampling) 的合理性证明
水塘抽样的作用: 假定存在流 $S(e_1, e_2, e_3, … , e_n)$ ;若需要对流 $S$ 进行采样,其中采样数 $s$ 需满足 $s < n$。 本文旨在对水塘抽样的合理性作出证明。
2021-05-04
布隆过滤器 (Bloom Filter) 的错误率与最佳函数个数推导
本文旨在对布隆过滤器的错误率与最佳函数个数公式进行推导。
2020-11-23
静态代码分析神器 - 数据流分析
数据流分析是静态代码分析领域广泛应用的方法。由于最近在学习软件测试、静态代码扫描时频繁碰到数据流分析,同时自己在毕业设计也实现了一些简单的基于代码数据流分析的代码优化算法,结合着自己的理解撰写了本文,简单聊聊这个静态代码分析领域的神器,希望大家雅正。
2020-04-12
Flink 入门篇之 - 写个WordCount
Word Count 是数据处理框架、平台的Hello World。程序作用很简单,就是数有多少英文的单词。我们今天要使用 Flink 1.10 制作一个流版本的 Word Count。在这个流版本的 Word Count 中呢,字符串会以流的方式从输入到Flink中,并且我们会观察在处理过程中,字符统计的情况。
2020-01-09
Flink 入门篇之 - 在 Linux 上搭建 Flink 的单机环境 - 1
Flink 是一个领先的流计算框架,国内有诸多大厂正在使用 Flink 搭建数据分析系统、实时处理系统等等。阿里巴巴在19年贡献了其 Blink 引擎,目前可以通过 SQL 定义流计算任务。社区也计划在 1.10 版本加大对 SQL DDL 语句的支持,Flink 正在逐步成为一个批流一体的数据处理引擎。 我今天以 Linux 为例讲述一下怎么样建一个单机的 Flink。
2018-08-15
使用两个栈模拟队列
一个栈负责写入,一个栈负责读出。 当写入时把读出栈的数据依次弹出并压入写入栈,读出时同理。
2018-08-05
百度之星2018-资格赛-调查问卷
Problem Description度度熊为了完成毕业论文,需要收集一些数据来支撑他的论据,于是设计了一份包含 mm 个问题的调查问卷,每个问题只有 ‘A’ 和 ‘B’ 两种选项。 将问卷散发出去之后,度度熊收到了 n 份互不相同的问卷,在整理结果的时候,他发现可以只保留其中的一部分问题,使得这 n 份问卷仍然是互不相同的。这里认为两张问卷是不同的,当且仅当存在至少一个被保留的问题在这两份问卷中
2018-07-24
Leetcode 爬楼梯 (Climbing Stairs)
You are climbing a stair case. It takes n steps to reach to the top. Each time you can either climb 1 or 2 steps. In how many distinct ways can you climb to the top? Note: Given n will be a positive i
2018-06-28
阿里中间件比赛 - Dubbo Service Mesh Agent
赛题在这 第四届阿里中间件性能挑战赛 Github代码: Github 传送门