首页 > 产经 > 正文

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

来源: 文化视界 2020-05-15 09:44:22
  本文介绍如何提升Python程序的效率,让它们运行飞快!

  讨厌Python的人总是会说,他们不想用Python的一个重要原因是Python很慢。而事实上,无论使用什么编程语言,特定程序的运行速度很大程度上取决于编写程序的开发人员以及他们优化程序、加快程序运行速度的技能。

  那么,让我们证明那些人错了!本文将介绍如何提升Python程序的效率,让它们运行飞快!

  计时与性能分析

  在开始优化之前,我们首先需要找到代码的哪一部分真正拖慢了整个程序。有时程序性能的瓶颈显而易见,但当你不知道瓶颈在何处时,这里有一些帮助找到性能瓶颈的办法:

  注:下列程序用作演示目的,该程序计算e的X次方(摘自Python文档):

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  最懒惰的「性能分析」

  首先,最简单但说实话也很懒的方法——使用Unix的time命令:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  如果你只想给整个程序计时,这个命令即可完成目的,但通常是不够的……

  最细致的性能分析

  另一个极端是cProfile,它提供了「太多」的信息:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  这里,我们结合cProfile模块和time参数运行测试脚本,使输出行按照内部时间(cumtime)排序。这给我们提供了大量信息,上面你看到的行只是实际输出的10%。从输出结果我们可以看到exp函数是罪魁祸首(惊不惊喜,意不意外),现在我们可以更加专注于计时和性能分析了……

  计时专用函数

  现在我们知道了需要关注哪里,那么我们可能只想要给运行缓慢的函数计时而不去管代码的其他部分。我们可以使用一个简单的装饰器来做到这点:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  接着,将该装饰器按如下方式应用在待测函数上:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  得到如下输出:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  此时我们需要考虑想要测量哪一类时间。time库提供了time.perf_counter和time.process_time两种时间。其区别在于,perf_counter返回绝对值,其中包括了Python程序并不在运行的时间,因此它可能受到机器负载的影响。而process_time只返回用户时间(除去了系统时间),也就是只有进程运行时间。

  让程序更快

  现在到了真正有趣的部分了,让Python程序跑得更快!我不会告诉你一些独特技法或代码神段来神奇地解决程序的性能问题,而更多是关于通用的想法和策略。使用这些策略,可以对程序性能产生巨大的影响,有时甚至可以带来高达30%的提速。

  使用内置的数据类型

  这一点非常明显。内置的数据类型非常快,尤其相比于树或链表等自定义类型而言。这主要是因为内置数据类型使用C语言实现,使用Python实现的代码在运行速度上和它们没法比。

  使用lru_cache实现缓存/记忆

  我在之前的博客中介绍过这一技巧,但我认为它值得用一个简单例子再次进行说明:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  上面的函数使用time.sleep模拟了繁重的计算过程。当我们第一次使用参数1调用函数时,它等待了2秒钟后返回了结果。当再次调用时,结果已经被缓存起来,所以它跳过了函数体,直接返回结果。

  使用局部变量

  这和每个作用域中变量的查找速度有关。我之所以说「每个作用域」,是因为这不仅仅关乎局部变量或全局变量。事实上,就连函数中的局部变量、类级别的属性和全局导入函数这三者的查找速度都会有区别。函数中的局部变量最快,类级别属性(如self.name)慢一些,全局导入函数(如time.time)最慢。

  你可以通过这种看似没有必要的代码组织方式来提高效率:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  使用函数

  这也许有些反直觉,因为调用函数会让更多的东西入栈,进而在函数返回时为程序带来负担,但这其实和之前的策略相关。如果你只是把所有代码扔进一个文件而没有把它们放进函数,那么它会因为众多的全局变量而变慢。因此,你可以通过将所有代码封装在main函数中并调用它来实现加速,如下所示:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  不要访问属性

  另一个可能让程序变慢的东西是用来访问对象属性的点运算符(.)。这个运算符会引起程序使用__getattribute__进行字典查找,进而为程序带来不必要的开销。那么,我们怎么避免(或者限制)使用它呢?

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  当心字符串

  当在循环中使用取模运算符(%s)或.format()时,字符串操作会变得很慢。有没有更好的选择呢?根据Raymond Hettinger近期发布的推文,我们只需要使用f-string即可,它可读性更强,代码更加紧凑,并且速度更快!基于这一观点,如下从快到慢列出了你可以使用的一系列方法:

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  生成器本质上并不会更快,因为它们的目的是惰性计算,以节省内存而非节省时间。然而,节省的内存会让程序运行更快。为什么呢?如果你有一个大型数据集,并且你没有使用生成器(迭代器),那么数据可能造成CPU的L1缓存溢出,进而导致访存速度显著变慢。

  当涉及到效率时,非常重要的一点是CPU会将它正在处理的数据保存得离自己越近越好,也就是保存在缓存中。读者可以看一看Raymond Hettingers的演讲(https://www.youtube.com/watch?v=OSGv2VnC0go&t=8m17s),其中提到了这些问题。

  总结

  优化的第一要义就是「不要去做」。但如果你必须要做,我希望这些小技巧可以帮助到你。然而,优化代码时一定要谨慎,因为该操作可能最终造成代码可读性变差、可维护性变差,这些弊端可能超过代码优化所带来的好处。

  CPDA数据分析师山东十期班5月23日开课

  CDA数据分析员山东首期班7月18日开课

  详情咨询:0531-86018257/86018357

  18769761710数小妹

CPDA山东|这些小技巧,能够让你的Python程序快如闪电

  扫码详询报名

[ 责任编辑:孙文靖 ]

相关阅读