索引由原先的128位的跳跃表,更改为二分法查找
交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。 开心延年-alipay<myn@163.com> 10:18:56风车车(54343885) 10:18:36用多台内存服务器不行么肯定可以啦 风车车(54343885) 10:19:14现在内存这么便宜开心延年-alipay<myn@163.com> 10:19:21不是啦 存储的就是ID的值 风车车(54343885) 10:19:26放内存,效率应该很快咯lykke.lm(715356603) 10:19:32你对id 进行md5?lykke.lm(715356603) 10:19:41然后呢 索引??开心延年-alipay<myn@163.com> 10:19:47很多网站ID的值存储的就是 MD5 所以尽量模拟真实情景啦 开心延年-alipay<myn@163.com> 10:20:02你可以存储任何值lykke.lm(715356603) 10:20:18很多网站的id 是url 的md5 不错大多数是 content的md5 bruce_yang(782506462) 10:20:27lucenebruce_yang(782506462) 10:20:42一亿索引才8G 多啊?lykke.lm(715356603) 10:20:52你这个 能开源一下么 开心bruce_yang(782506462) 10:21:06开心你做的搜索引擎?bruce_yang(782506462) 10:21:21 会员魔法表情:《无聊》播放 回复 收藏lykke.lm(715356603) 10:21:21我现在数据量 上亿条 但是 搜索速度很慢开心延年-alipay<myn@163.com> 10:21:27当然可以啦 开心延年-alipay<myn@163.com> 10:21:30业余爱好而已 bruce_yang(782506462) 10:21:32开心 说说bruce_yang(782506462) 10:21:33这个 bruce_yang(782506462) 10:21:38是啥啊bruce_yang(782506462) 10:21:42改写lucene的?高调-失业中(13574798) 10:21:42开心NCxiaolong(312210901) 10:21:58每条数据有多大呢? 开心延年-alipay<myn@163.com> 10:22:14每条数据有多大呢? MD5 32长度xiaolong(312210901) 10:22:57。。。很多 开心延年-alipay<myn@163.com> 10:23:23呵呵 要源码的 留email风车车(54343885) 10:23:38everhow@163.comkwee(836232886) 10:23:41ikweesung@gmail.comkwee(836232886) 10:23:48 风(51263) 10:23:51squallzhong@gmail.comlykke.lm(715356603) 10:23:56715356603@qq.combruce_yang(782506462) 10:23:59yangfuchao2010@gmail.combruce_yang(782506462) 10:24:02开心 bruce_yang(782506462) 10:24:10感恩节 记得发源码越测越开心(19730953) 10:24:14panluhai@gmail.combruce_yang(782506462) 10:24:14 kwee(836232886) 10:24:16 越测越开心(19730953) 10:24:21感恩 哈哈伟大的小白(439297317) 10:24:20什么东西 伟大的小白(439297317) 10:24:25那么多人留有向kelo_北京(13581754) 10:24:3013581754@qq.comlykke.lm(715356603) 10:24:32你们也不搞搜索 凑设呢们热闹呢匿-新媒(670906880) 10:24:34670906880@qq.com开心延年-alipay<myn@163.com> 10:24:38其实源码改动量很小啦 bruce_yang(782506462) 10:24:54先说说吧bruce_yang(782506462) 10:24:58你这个是啥bruce_yang(782506462) 10:25:01改的lucene?bruce_yang(782506462) 10:25:04改的哪儿zzy - Anchora(251547518) 10:25:06同求 251547518@qq.com开心延年-alipay<myn@163.com> 10:25:19索引更改点1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处开心延年-alipay<myn@163.com> 10:25:57 伟大的小白(439297317) 10:25:57lucene?开心延年-alipay<myn@163.com> 10:26:05只改动了这几个类lykke.lm(715356603) 10:26:25发源码吧 开心伟大的小白(439297317) 10:26:34跳跃表的性能 > 二分法吧kelo_北京(13581754) 10:26:41是呀,开心云 - 华(46249327) 10:26:50单机 lucene能够支持十亿级别索引的查询 lykke.lm(715356603) 10:27:05 我也觉得不可能 开心延年-alipay<myn@163.com> 10:27:18代码给你 自己测试下就知道啦 bruce_yang(782506462) 10:27:23改了建立索引的 java代码?lykke.lm(715356603) 10:27:23我现在的索引大约10个g 单机 根本不行 伟大的小白(439297317) 10:27:34难 追求速度 需要内存全加载bruce_yang(782506462) 10:27:4210G 多少条数据啊bruce_yang(782506462) 10:27:44lm伟大的小白(439297317) 10:27:46那多坑跌阿bruce_yang(782506462) 10:27:47luykkelykke.lm(715356603) 10:27:55我那个 是网页翟光亚(304428768) 10:28:01索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)这个会占用多大内存?翟光亚(304428768) 10:28:09感觉没有必要这样的伟大的小白(439297317) 10:28:30我一直没搞明白伟大的小白(439297317) 10:28:41跳跃表就是为了节约内存设计的lykke.lm(715356603) 10:28:52单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 lykke.lm(715356603) 10:28:59用MulitSearch 伟大的小白(439297317) 10:29:01怎么二分法反而内存小 。。。。?why?伟大的小白(439297317) 10:29:08ss开心延年-alipay<myn@163.com> 10:29:0913581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;开心延年-alipay<myn@163.com> 10:29:14文件二分法啊 开心延年-alipay<myn@163.com> 10:29:18文件是定长的 lykke.lm(715356603) 10:29:21715356603@qq,comlykke.lm(715356603) 10:29:33g给我发啊 哥们 kwee(836232886) 10:29:52ikweesung@gmail.com越测越开心(19730953) 10:29:53还有panluhai@gmail.com 支持下阿里兄弟kelo_北京(13581754) 10:30:02发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事332106123(332106123) 10:30:20332106123@qq.com bruce_yang(782506462) 10:30:46kelo 你眼睛分布式?在路上(386728737) 10:30:47同求,386728737@qq.com, bruce_yang(782506462) 10:30:48研究bruce_yang(782506462) 10:30:52单机 ?bruce_yang(782506462) 10:30:56还搞啥分布式开心延年-alipay<myn@163.com> 10:31:01我业余时间搞着玩的哈 就修改了几天bruce_yang(782506462) 10:31:01知道sensei没bruce_yang(782506462) 10:31:16正需要做搜索呢bruce_yang(782506462) 10:31:20你那个不是会bug吧?开心延年-alipay<myn@163.com> 10:31:35你测试下 开心延年-alipay<myn@163.com> 10:31:45验证下结果是否正确就知道了 开心延年-alipay<myn@163.com> 10:31:56邮件中我给出了测试代码在路上(386728737) 10:32:25强烈建议开心把源码共享到群kelo_北京(13581754) 10:32:39是呀开心延年-alipay<myn@163.com> 10:33:11都发给大家了 风(51263) 10:33:50squallzhong@gmail.com,我也要一份 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。 lykke.lm(715356603) 10:28:59用MulitSearch 伟大的小白(439297317) 10:29:01怎么二分法反而内存小 。。。。?why?伟大的小白(439297317) 10:29:08ss开心延年-alipay<myn@163.com> 10:29:0913581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;开心延年-alipay<myn@163.com> 10:29:14文件二分法啊 开心延年-alipay<myn@163.com> 10:29:18文件是定长的 lykke.lm(715356603) 10:29:21715356603@qq,comlykke.lm(715356603) 10:29:33g给我发啊 哥们 kwee(836232886) 10:29:52ikweesung@gmail.com越测越开心(19730953) 10:29:53还有panluhai@gmail.com 支持下阿里兄弟kelo_北京(13581754) 10:30:02发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事332106123(332106123) 10:30:20332106123@qq.com bruce_yang(782506462) 10:30:46kelo 你眼睛分布式?在路上(386728737) 10:30:47同求,386728737@qq.com, bruce_yang(782506462) 10:30:48研究bruce_yang(782506462) 10:30:52单机 ?bruce_yang(782506462) 10:30:56还搞啥分布式开心延年-alipay<myn@163.com> 10:31:01我业余时间搞着玩的哈 就修改了几天bruce_yang(782506462) 10:31:01知道sensei没bruce_yang(782506462) 10:31:16正需要做搜索呢bruce_yang(782506462) 10:31:20你那个不是会bug吧?开心延年-alipay<myn@163.com> 10:31:35你测试下 开心延年-alipay<myn@163.com> 10:31:45验证下结果是否正确就知道了 开心延年-alipay<myn@163.com> 10:31:56邮件中我给出了测试代码在路上(386728737) 10:32:25强烈建议开心把源码共享到群kelo_北京(13581754) 10:32:39是呀开心延年-alipay<myn@163.com> 10:33:11都发给大家了 风(51263) 10:33:50squallzhong@gmail.com,我也要一份广州-ZBIRD(258987928) 10:34:56zbird.6208@gmail.com广州-ZBIRD(258987928) 10:35:07 在路上(386728737) 10:35:59开心,都改了哪些类?开心延年-alipay<myn@163.com> 10:36:12 在路上(386728737) 10:36:28能否兼容lucene3.3~3.4版本?开心延年-alipay<myn@163.com> 10:36:40TermInfosReader与TermInfosWriter开心延年-alipay<myn@163.com> 10:36:46肯定不兼容了 开心延年-alipay<myn@163.com> 10:36:51索引都变了 bruce_yang(782506462) 10:36:51找不到啊开心延年-alipay<myn@163.com> 10:36:56你以为我是作者啊 bruce_yang(782506462) 10:36:57叫啥名字lykke.lm(715356603) 10:37:06呵呵开心延年-alipay<myn@163.com> 10:37:07你邮箱多少bruce_yang(782506462) 10:37:14yangfuchao2010@gmail.combruce_yang(782506462) 10:37:28不兼容?bruce_yang(782506462) 10:37:41擦kwee(836232886) 10:37:43ikweesung@gmail.com开心延年-alipay<myn@163.com> 10:37:47就三天晚上 还兼容啊 呵呵在路上(386728737) 10:38:14我的意思是说,代码能否工作在3.4下,索引重建bruce_yang(782506462) 10:38:30北京一家牛逼个欧诺公司bruce_yang(782506462) 10:38:33公司bruce_yang(782506462) 10:38:36又要不去的没bruce_yang(782506462) 10:38:42乐荐网络( www.joyrec.com)开心延年-alipay<myn@163.com> 10:40:44没测试过呀 bruce_yang(782506462) 10:42:41还是没收到呢bruce_yang(782506462) 10:42:42开心 开心延年-alipay<myn@163.com> 10:43:33你的邮箱不让发吧 高调-失业中(13574798) 10:43:33群共享源码bruce_yang(782506462) 10:43:46lucene2000@163.combruce_yang(782506462) 10:43:48这个吧kwee(836232886) 10:44:00ikweesung@163.com. bruce_yang(782506462) 10:46:23收到了 tks高调-失业中(13574798) 10:46:3013574798@qq.comkwee(836232886) 10:46:53谢谢 收到。伟大的小白(439297317) 10:47:03变那么多人研究luncene了?开心延年-alipay<myn@163.com> 10:47:12空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35上传到零时空间bruce_yang(782506462) 10:48:16lucene4 听说改动很大kelo_北京(13581754) 10:48:25邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据bruce_yang(782506462) 10:48:26性能提升 非常大bruce_yang(782506462) 10:48:41kelo。北京开心延年-alipay<myn@163.com> 10:48:43lucene4 都出来啦 开心延年-alipay<myn@163.com> 10:48:47改动了啥呀 bruce_yang(782506462) 10:48:47你现在数据多少bruce_yang(782506462) 10:48:57lucene4 已经 测试了bruce_yang(782506462) 10:48:58开始bruce_yang(782506462) 10:49:08算法改动很大伟大的小白(439297317) 10:50:30lucene4把api接口都换了伟大的小白(439297317) 10:50:41实现策略也是伟大的小白(439297317) 10:50:48基本不能过度kelo_北京(13581754) 10:51:16没看到呀kelo_北京(13581754) 10:51:25看看svn里头的kelo_北京(13581754) 10:51:48呵呵,自玩的清澈高远(305412982) 10:51:55lucene更新很快bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098伟大的小白(439297317) 10:53:37真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0bruce_yang(782506462) 10:53:47原文 bruce_yang(782506462) 10:54:31哪位研究过sensei开心延年-alipay<myn@163.com> 10:55:10不行了 得干活了 如果还有人想要源码 发邮件给myn@163.com 我定期回复 伟大的小白(439297317) 10:55:11上次也是 去年弄得cas 今年发现版本更新bruce_yang(782506462) 10:55:40搞这么大 更新太快了bruce_yang(782506462) 10:55:52lucene3 变化很大bruce_yang(782506462) 10:55:59现在4也很大广州-ZBIRD(258987928) 10:56:17谁转发一份给偶。呵呵。谢谢伟大的小白(439297317) 10:56:41lucene2 -> 3 不兼容 -> 4 不一定兼容bruce_yang(782506462) 10:58:17linkedin 公司的分布式搜索bruce_yang(782506462) 10:58:23哪位研究过源远流长(117405390) 10:58:30zoie? bruce_yang(782506462) 10:58:34不是bruce_yang(782506462) 10:58:38sensei日期:2011/11/24开心延年-alipay<myn@163.com> 10:37:07 你邮箱多少bruce_yang(782506462) 10:37:14 yangfuchao2010@gmail.combruce_yang(782506462) 10:37:28 不兼容?bruce_yang(782506462) 10:37:41 擦kwee(836232886) 10:37:43 ikweesung@gmail.com开心延年-alipay<myn@163.com> 10:37:47 就三天晚上 还兼容啊 呵呵在路上(386728737) 10:38:14 我的意思是说,代码能否工作在3.4下,索引重建bruce_yang(782506462) 10:38:30 北京一家牛逼个欧诺公司bruce_yang(782506462) 10:38:33 公司bruce_yang(782506462) 10:38:36 又要不去的没bruce_yang(782506462) 10:38:42 乐荐网络(www.joyrec.com)开心延年-alipay<myn@163.com> 10:40:44 没测试过呀 bruce_yang(782506462) 10:42:41 还是没收到呢bruce_yang(782506462) 10:42:42 开心 开心延年-alipay<myn@163.com> 10:43:33 你的邮箱不让发吧 高调-失业中(13574798) 10:43:33 群共享源码bruce_yang(782506462) 10:43:46 lucene2000@163.combruce_yang(782506462) 10:43:48 这个吧kwee(836232886) 10:44:00 ikweesung@163.com. bruce_yang(782506462) 10:46:23 收到了 tks高调-失业中(13574798) 10:46:30 13574798@qq.comkwee(836232886) 10:46:53 谢谢 收到。伟大的小白(439297317) 10:47:03 变那么多人研究luncene了?开心延年-alipay<myn@163.com> 10:47:12 空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35 上传到零时空间bruce_yang(782506462) 10:48:16 lucene4 听说改动很大kelo_北京(13581754) 10:48:25 邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据bruce_yang(782506462) 10:48:26 性能提升 非常大bruce_yang(782506462) 10:48:41 kelo。北京开心延年-alipay<myn@163.com> 10:48:43 lucene4 都出来啦 开心延年-alipay<myn@163.com> 10:48:47 改动了啥呀 bruce_yang(782506462) 10:48:47 你现在数据多少bruce_yang(782506462) 10:48:57 lucene4 已经 测试了bruce_yang(782506462) 10:48:58 开始bruce_yang(782506462) 10:49:08 算法改动很大伟大的小白(439297317) 10:50:30 lucene4把api接口都换了伟大的小白(439297317) 10:50:41 实现策略也是伟大的小白(439297317) 10:50:48 基本不能过度kelo_北京(13581754) 10:51:16 没看到呀kelo_北京(13581754) 10:51:25 看看svn里头的kelo_北京(13581754) 10:51:48 呵呵,自玩的清澈高远(305412982) 10:51:55 lucene更新很快bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098伟大的小白(439297317) 10:53:37 真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0bruce_yang(782506462) 10:53:47 原文 bruce_yang(782506462) 10:54:31 哪位研究过sensei开心延年-alipay<myn@163.com> 10:55:10 不行了 得干活了 如果还有人想要源码 发邮件给myn@163.com 我定期回复 伟大的小白(439297317) 10:55:11 上次也是 去年弄得cas 今年发现版本更新bruce_yang(782506462) 10:55:40 搞这么大 更新太快了bruce_yang(782506462) 10:55:52 lucene3 变化很大bruce_yang(782506462) 10:55:59 现在4也很大广州-ZBIRD(258987928) 10:56:17 谁转发一份给偶。呵呵。谢谢伟大的小白(439297317) 10:56:41 lucene2 -> 3 不兼容 -> 4 不一定兼容bruce_yang(782506462) 10:58:17 linkedin 公司的分布式搜索bruce_yang(782506462) 10:58:23 哪位研究过源远流长(117405390) 10:58:30 zoie? bruce_yang(782506462) 10:58:34 不是bruce_yang(782506462) 10:58:38 sensei