1缘起 关于PHP,很多人的直观感觉是PHP是一种灵活的脚本语言,库类丰富,使用简单,安全,非常适合WEB开发,但性能低下。PHP的性能是否真的就如同大家的感觉一样的差呢?本文就是围绕这么一个话题来进行探讨的。从源码、应用场景、基准性能、对比分析等几个方面深入分析PHP之性能问题,通过真实的性能数据来说话,最终找出影响PHP模块性能的关键因素。
2从原理分析PHP性能 从原理分析PHP的性能,主要从以下几个方面:内存管理、变量、函数、运行机制、网络模型来进行分析。
2.1内存管理 类似Nginx的内存管理方式,PHP在内部也是基于内存池,并且引入内存池的生命周期概念。在内存池方面,PHP对PHP脚本和扩展的所有内存相关操作都进行了托管。对大内存和小内存的管理采用了不同的实现方式和优化,具体可以参考以下文档:http://www.laruence.com/2011/11/09/2277.html。在内存分配和回收的生命周期内,PHP采用一次初始化申请+动态扩容+内存标识回收机制,并且在每次请求结束后直接对内存池进行重新mask。
2.2变量 总所周知,PHP是一种弱变量类型的语言,所以在PHP内部,所有的PHP变量都对应成一种类型Zval,其中具体定义如下:
图一、PHP变量
在变量方面,PHP做了大量的优化工作,比如说Reference counting和copy on writer机制。这样能够保证内存使用上的优化,并且减少内存拷贝次数(请参考http://blog.xiuwz.com/2011/11/09/php-using-internal-zval/)。在数组方面,PHP内部采用高效的hashtable来实现。
2.3函数 在PHP内部,所有的PHP函数都回转化成内部的一个函数指针。比如说扩展中函数 ZEND_FUNCTION ( my_function );//类似function my_function(){} 在内部展开后就会是一个函数 void zif_my_function ( INTERNAL_FUNCTION_PARAMETERS ); void zif_my_function( int ht, zval * return_value, zval * this_ptr, int return_value_used, zend_executor_globals * executor_globals ); 从这个角度来看,PHP函数在内部也是对应一个函数指针。
2.4运行机制 在话说PHP性能的时候,很多人都会说“C/C++是编译型,JAVA是半编译型,PHP是解释型”。也就是说PHP是先动态解析再代码运行的,所以从这个角度来看,PHP性能必然很差。 的确,从PHP脚本运行来输出,的确是一个动态解析再代码运行的过程。具体来说,PHP脚本的运行机制如下图所示:
图二、PHP运行机制
PHP的运行阶段也分成三个阶段: ●Parse。语法分析阶段。 ● Compile。编译产出opcode中间码。 ● Execute。运行,动态运行进行输出。 通过上图也可以看出,其实在PHP内部本身也是存在编译的过程。事实上,在标准的生产环境中,也都基本上利用了这个特点,比如说opcode cache工具apc、eacc、xcache等等。基于opcode cache,能到做到“PHP脚本编译一次,多次运行”的效果。从这点上,PHP就和JAVA的半编译机制非常类似。 所以,从运行机制上来看,PHP的运行模式和JAVA是非常类似的,都是先产生中间码,然后运行在不同虚拟机上。
2.5动态运行 从上面的几个分析来看,PHP在内存管理、变量、函数、运行机制等几个方面都做了大量的工作,所以从原理来看,PHP不应该存在性能问题,性能至少也应该和JAVA比较接近。 但为什么还有很多人感觉PHP慢呢?尤其是一些计算量的性能对比上,总发现PHP处理的性能相对比较低效(http://shootout.alioth.debian.org/u32/php.php)。这个时候就不得不谈PHP动态语言的特性所带来的性能问题了,由于PHP是动态运行时,所以所有的变量、函数、对象调用、作用域实现等等都是在执行阶段中才确定的。这个从根本上决定了PHP性能中很难改变的一些东西:在C/C++等能够在静态编译阶段确定的变量、函数,在PHP中需要在动态运行中确定,也就决定了PHP中间码不能直接运行而需要运行在Zend Engine上。 说到PHP变量的具体实现,又不得不说一个东西了:hashtable。Hashtable可以说在PHP灵魂之一,在PHP内部广泛用到,包含变量符号栈、函数符号栈等等都是基于hashtable的。 以PHP变量为例来说明下PHP的动态运行特点,比如说代码: <?php $var = “hello, blog.xiuwz.com”; ?> 该代码的执行结果就是在变量符号栈(是一个hashtable)中新增一个项 当要使用到该变量时候,就去变量符合栈中去查找(也就是变量调用对出了一个hash查找的过程)。 同样对于函数调用也基本上类似有一个函数符号栈(hashtable)。 其实关于动态运行的变量查找特点,在PHP的运行机制中也能看出一些。PHP代码通过解释、编译后的流程下图:
图3、PHP运行实例
从上图可以看出,PHP代码在compile之后,产出的了类符号表、函数符号表、和OPCODE。在真正执行的时候,zend Engine会根据op code去对应的符号表中进行查找,处理。 从某种程度上,在这种问题的上,很难找到解决方案。因为这是由于PHP语言的动态特性所决定的。但是在国内外也有不少的人在寻找解决方案。因为通过这样,能够从根本上完全的优化PHP。典型的列子有facebook的hiphop(https://github.com/facebook/hiphop-php)。 但所有的这种编译优化方案,都基本上是牺牲了PHP动态运行的特性。当然可以在具体的编译优化中去对动态特性做一些折中,但很难做到完完全全的兼容。
2.6网络模型 目前采用PHP的方式,比较理想和通用的模式是采用fastcgi(PHP-FPM)。Php-fpm在网络模型上比较类似nginx,采用了多进程Master+多worker的模式。Php-fpm本身是基于libevent中的epoll模型。从网络模型来看,该方式也不会和其他网络模型存在性能差异。
2.7结论 从上面分析来看,在基础的内存管理、变量、函数、运行机制、网络模型方面,PHP本身并不会存在明显的性能差异,但由于PHP的动态运行特性,决定了PHP和其他的编译型语言相比,所有的变量查找、函数运行等等都会多一些hash查找的CPU开销和额外的内存开销,至于这种开销具体有多大,可以通过后续的基准性能和对比分析得出。 因此,也可以大体看出PHP不太适合的一些场景:大量计算性任务、大数据量的运算、内存要求很严格的应用场景。如果要实现这些功能,也建议通过扩展的方式实现,然后再提供钩子函数给PHP调用。这样可以减低内部计算的变量、函数等系列开销。 |