关于 PHP 中巨型数据对象的内存开销问题的研究
首先请大家不要误会,不是我要发表对这个问题的什么研究成果,而是想请大家帮我一起来分析研究一下这个问题 :)
描述一下简化了的问题背景:在一个用 PHP 实现的网站中,所有的程序文件都在一开始包含了一个公共的文件 common.php。现在由于业务需要,在 common.php 中定义了一个“巨型”的数据对象(一个含有约 500k 个 int 值的 array 对象),比如 $huge_array = array(1,2,3,...,500000),并且在整个系统中对 $huge_array 只有“读”访问。假设系统需要持续稳定运行在 100 个并发请求的状态下。
问题 1:$huge_array 在 common.php 源文件中大概要占用 10M(这个姑且不算是问题),加载到内存中也许要占用 4M(只是估算一下,至于准确测量其尺寸,不是本文要讨论的要点)。问题在于,PHP 本身每处理一个 HTTP request,都是要启用一个独立的进程(或者是线程),那它是不是都要重新在内存中加载这个约 4M 的内存块呢?如果不能共享内存的话,那可能就要同时占用近 400M 的物理内存,无论在内存占用量还是内存访问效率方面,都是很不利的。
问题 2:当启用了某种缓存机制(比如 APC、XCache 等)的时候,我们知道这类缓存机制都具有对 opcode 进行缓存的能力,但似乎也只是减少了脚本编译环节的重复性工作,对于运行时的变量加载,是否也能起到共享内存的作用呢?希望它能起到一定的作用,毕竟那一大堆 int 值肯定也是作为 opcode 的一部分而存在的。
问题 3:如果上述借用 XCache 对 opcode 的缓存不能达到目的的话,那我直接操作 XCache 是否会有效呢?就是说,不把 $huge_array 写在 common.php 里,而是写到缓存引擎里。
本文意在通过分析研究,确定这种用法是否会导致内存使用瓶颈,如果有问题的话如何优化。当然,想尽办法减小这个巨型数据对象本身的尺寸是首先最值得考虑的,必须的,但那个属于数据结构和算法方面的话题,就不在本文中讨论了。欢迎大家发表一下自己对这个问题的分析观点,如果能给自己的观点设计一些可操作的测试验证方案就更好了,如果你没时间写代码,只要方案看上去合理,我愿意来写测试代码 ^_^
————————————————————————————————
基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
[解决办法]
既然是500多k的数据,是不是考虑一下索引,然后分段处理呢,干嘛要全部都加载进来???
[解决办法]
1、是的,都要重新在内存中加载
2、既然是 所有的程序文件都包含 那么应该被缓存,因为他也是 opcode 的一部分
3、那就是一件很无聊的事情了,还不如优化数据结构和算法
[解决办法]
1、 老大说了
2、 是opcode的一部分,当然要优化
3、 如果编译的时间大于按索引获取数据的时间,那么为什么要编译呢?你编译也仅仅是为了按照key去获取相应的数据,当你有办法解决按key获取数据,为什么一定要用php的array数据的结构呢?这个问题有点像,是从一个txt文件中获取数据,还是从一个包含的php来获取数据?
例如 1.txt 的内容如下
1111
2222
3333
4444
……
1.php 的内容如下
<?php
$a = array(
1111,
2222,
3333,
4444,
……
);
如果是1.php的每个进程都要初始化$a,然后获取$a[3]
如果是1.txt的话,那么只要优化下怎么快速获取第4(3+1)行的内容就可以了,所有的进程都可以共享,
但是这里存在一个问题就是:并发得问题,怎么合理优化并发的问题?
没有一个通用的方式来解决这样的问题,要么是空间换时间(400M没有并发等待时间),要么是时间换空间(4M,但是要获取数据时有等待时间)
[解决办法]
我觉得共享内存处理大数据是有必要的,否则每次http进程都会因为你这个大数据而增加内存压力。Xcache和apc都是opcode缓存吧?也就是即使php每次不用词法解析,直接到opcode执行阶段,依然要为大数组分配内存,重点是一个http请求就分配一次内存,倘若你把这个大数组存到memcache去,那就是多个http请求共用一块内存,既然无写操作,100个读并发memcache还是没啥问题的吧,即使涉及到读写并发,memcached已经支持乐观锁了。
[解决办法]
首先,把这个玩意儿放memcache吧
需要的地方去取,就这样,就够了
[解决办法]
<?php
/*
111
222
333
444
555
*/
$file = new SplFileObject(__FILE__);
$file->seek(3);//这里是行数,从0开始
echo $file->current().'<br>';
?>
[解决办法]
把它搞成内存数据库吧,这样始终在内存里,又不用每次去搞那么大个进程
[解决办法]
1.上面的程序写在一起只是方便你测试,没看我说测试用了xml,就是说外部文件了
2.快速载入数据我也倾向二进制,但二进制的问题是不能明文搜索,要搜索就要整体载入了,但SplFileObject全文搜索是不需要整体载入的——跟其他例如sscan等函数结合使用
3.不是我的创意,我是学习spl过程中见到洋人讨论如何paser一个1G的SQL文件所用到的方案,借花献佛
[解决办法]
如果apc缓存不了
用memcache应是比较好的方案了
[解决办法]
想不一下子都放在内存里,就排序后放到文件里。需要搜索时,用二分法进行搜索。
SPL的那个方法应该大概也是如此。