摘要: 1、问题:数据库为什么要设计索引? 图书馆存了1000W本图书,要从中找到《架构师之路》,一本本查,要查到什么时候去? 为了快速查找一本书,图书管理员设计了一套规则: (1)、一楼放历史类,二楼放文学类,三楼放IT类… (2)、IT类,又分软件类,硬件类… (3)、软件类,又按照书名音序排序… 与之 阅读全文
posted @ 2021-08-20 18:45 mzjnumber1 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.jianshu.com/p/55defda6dcd2 概率算法 实际上目前还没有发现更好的在大数据场景中准确计算基数的高效算法,因此在不追求绝对准确的情况下,使用概率算法算是一个不错的解决方案。 概率算法不直接存储数据集合本身,通过一定的概率统计方法预估基数值,这种方法 阅读全文
posted @ 2021-08-20 15:01 mzjnumber1 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 前言 看下下面几个问题: 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 以上这些场景有个共同的问题:如何查看一个东西是否在有大量数据的池子里。 Bloom Filt 阅读全文
posted @ 2021-08-20 14:45 mzjnumber1 阅读(77) 评论(0) 推荐(0) 编辑