特大型网站后台架构的Web Server与缓存

2012-10-28

大型网站后台架构的Web Server与缓存1.1 Web server???????????????????????????????????? 图4-2-1 代理缓

大型网站后台架构的Web Server与缓存
1.1 Web server

???????????????????????????????????? 图4-2-1 代理缓存(黄色部分)

　　1.2.1.1 Squid

　　Squid是一个高性能的代理缓存服务器，可以用来加快浏览网页的速度，提高客户机的访问命中率。Squid不仅支持HTTP协议，还支持FTP、SSL、WAIS等协议。Squid用一个单独的、非模块化的、I/O驱动的进程来处理所有的客户端请求。

　　Squid的原理如下：

　　(1) 每一台Squid代理服务器上存有若干个颗磁盘。每颗磁盘又分割成多个分区，每一个分区又可建立很多目录，目录下存放着具体的文件(object)。

　　(2) Squid通过查询表的方式来定位某个资源的位置。所查询的表有两种，一种是Hash table，一种是Digest table。Hash table记录着所有Digest table表信息，所以Hash table可以称之为目录或者提纲。而Digest table记录了磁盘上每个分区、每个目录里存放的缓存摘要，所以Digest table可以称之为摘要或者索引。所以，Squid接到请求后先查询Hashtable，根据Hash table所指向的Digest table，再查询所需要的文件。

　　(3) Squid服务器存在两种工作关系，一种为Child-Parent，当Child Squid Server没有用户需要的数据时，就向Parent squid Server发送请求，并持续等待，直到Parent Squid Server回应为止；另一种为Sibling，当本地Squid Server没有用户请求的数据时，会向Sibling Server发送请求，如果Sibling Server没有资料则会向上级Sibling或者Internet发送数据请求。

　　所以，综上所述，Squid运行模式如下：

　　当Squid Server没有资料时，先向Sibling的Squid Server查询数据，如果Sibling没有，则跳过它直接向Parent查询，直到Parent提供资料为止(如果Parent没有资料，则到后端的 web server上获取，当获取到数据后返回给用户的同时，保留一份在自身的缓存中)。如果不存在Parent，则Squid Server自身到后端的web server上获取数据，当获取到数据后返回给用户的同时，保留一份在自身的缓存中。如果还是不能得到数据，则向用户端回复不能得到数据。

　　1.2.1.2 Varnish

　　Varnish是一款高性能的开源HTTP加速器，挪威最大的在线报纸Verdens Gang使用3台Varnish代替了原来的12台Squid，性能比以前更好。

　　Varnish的作者Poul-Henning Kamp是FreeBSD内核开发者之一，他认为现在的计算机比起1975年已经复杂很多。在1975年时，存储媒介只有两种：内存与硬盘。但现在计算机系统的内存除了主存外，还包括了CPU内的L1\L2\L3等cache。因此Squid Cache自行处理物件替换的架构不可能得知这些情况而做到最佳化，但操作系统可以。所以这部分的工作应该交给操作系统处理，这就是Varnish cache设计架构[4]。Varnish将所有的HTTP object存于一个单独的大文件中，该文件在工作进程初始化的时候，将其整个映射到内存中。这样Varnish在该块内存中实现一个简单的文件系统，具有分配、释放、修剪、合并内存等功能。

　　Varnish文件缓存的工作流程：

　　Varnish与一般服务器软件类似，分为master进程和child进程。其中master进程负责管理，child进程负责cache工作。Master进程读入命令，进行一些初始化，然后fork并监控child进程。Child进程分配若干线程进行工作，主要包括管理线程和 worker线程。如图4-2-1-2所示。

特大型网站后台架构的Web Server与缓存

　　主进程fork子进程，主进程等待子进程的信号，子进程退出后，主进程重新启动子进程，子进程生成若干线程：

　　(1) Accept线程：接受请求，将请求挂在overflow队列上。

　　(2) Work线程：有多个，负责从overflow队列上摘除请求，对请求进行处理，直到完成，然后处理下一个请求。

　　(3) Epoll线程：一个请求处理称为一个session，在session周期内，处理完请求后，会交给Epoll处理，监听是否还在事件发生。

　　(4) Expire线程：对于缓存的object，根据过期时间，组织成二叉堆，该线程周期检查该堆得根，处理过期的文件。对过期的数据进行删除或重取操作。

　　Varnish分配缓存机制：

　　根据所读到的object大小，创建相应大小的缓存文件。为了读写方便，程序将每个object的大小，转变为最接近其大小的内存页面倍数。然后从现有的空闲存储结构体中查找，找到最合适的大小的空闲存储块，分配给它。如果空闲块没有用完，则把多余的内存再组成一个空闲存储块，挂接到管理结构体上。如果缓存已满，则根据LRU算法，把旧的object释放掉。

　　Varnish释放缓存机制：

　　Expire线程负责检测缓存中所有object的生存期(TTL)。如果超过了设定的TTL，该object没有被访问，则删除该object，并释放内存。释放的过程会考虑内存的合并等操作。

　　1.2.2 分布式缓存　　1.2.2.1 Memcached

　　Memcached是以LiveJournal旗下Danga Interactive公司的Brad Fitzpatric为首开发的一款软件。现在Memcached已成为mixi、hatena、Facebook等公司提高web应用扩展性的重要缓存软件。许多web应用都将数据保存到RDBMS中，应用服务器从中读取数据并返回给用户。但随着数据量的增大，访问的集中性，读写比例的增大，会使 RDBMS增加其系统开销，相应速度下降，网络延迟增大。Memcached通过缓存数据库查询结果，减少数据库读的访问次数，提高动态网站的响应速度。此外，电子商务网站的客户端cookie和服务器端session机制也可以利用Memcached解决，比如典型的购物车跟踪记录访问行为、购买问题等。也可以将其信息记录在后端的Memcached中。典型的应用如图4-2-2-1-1所示。

特大型网站后台架构的Web Server与缓存

????????????????????????????????????????????????????????????? 图 4-2-2-1-1

特大型网站后台架构的Web Server与缓存

　　如图所示，当用户第一次访问数据库时，应用服务器从数据库中查询数据返回给用户，并且在memcached中存储一份数据。当第二次，应用服务器需要从数据库中查询数据时，首先从memcached查询数据，如果有则得到数据，返回给用户，如果没有，则再从数据库中查找数据。返回给用户，并拷贝一份数据到memcached中。

　　Memcached默认情况下采用名为Slab Allocator的机制分配、管理内存。Slab Allocator的基本原理是按照预先规定的大小，将分配的内存分割成特定长度的块，以完全解决内存碎片问题。

　　Slab Allocator原理，将分配的内存分割成各种尺寸的块(chunk)，并将尺寸相同的块分成组(chunk的集合)。如图4-2-2-1-2所示。

特大型网站后台架构的Web Server与缓存

???????????????????????????????????????? 图 4-2-2-1-2

特大型网站后台架构的Web Server与缓存

　　如图所示，memcached根据收到的数据的大小，选择最适合数据大小的slab。Memcached中保存着slab内空闲chunk的列表，根据该列表选择chunk，然后将数据缓存在其中。如图4-2-2-1-3所示。

特大型网站后台架构的Web Server与缓存

???????????????????????????????????? 图4-2-2-1-3

特大型网站后台架构的Web Server与缓存

　　同squid、varnish一样，memcached同样使用LRU机制来分配内存，删除最近最少未使用的数据。

1.3 本文小结

　　本章主要分析了FastCGI的运行机制，简单介绍了三种常用的web server —— Lighttpd、Apache、Nginx，对三款常用web server进行了对比。然后又分别介绍了代理缓存Squid和Varnish。最后简单分析了分布式缓存Memcached。总体而言，这些缓存的应用可以极大加快网站的访问速度。提升用户体验。缓存的应用，在高可用的大型网站中，处处可见。

热点排行

Web前端

特大型网站后台架构的Web Server与缓存