第10章元组

10.1 元组是不可变的

元组¹是由若干值组成的一个序列，与列表非常相似。元组中存储的值可以是任何数据类型并拥有整数型索引。元组的一个重要特征是不可变的。元组可以进行比较和使用哈希算法，我们可以对其进行排序，在Python字典中，使用元组作为键值。

>>> t = 'a', 'b', 'c', 'd', 'e'

元组用圆括号括起来，虽然这不是必需的，但可以帮助我们在Python代码中快速识别出哪些是元组。

>>> t = ('a', 'b', 'c', 'd', 'e')

创建单个元素的元组，必须在末尾加一个逗号。

>>> t1 = ('a',)
>>> type(t1)
<type 'tuple'>

如果没有逗号，Python会将(' a ')作为一个字符串处理：

>>> t2 = ('a')
>>> type(t2)
<type 'str'>

构造元组的另一种方法是，使用内置函数tuple。如果不带参数，tuple函数会创建一个空元组：

>>> t = tuple()
>>> print t
()

如果参数是一个序列（字符串、列表或元组），tuple函数的调用结果是产生一个包含序列元素的元组：

>>> t = tuple('lupins')
>>> print t
('l', 'u', 'p', 'i', 'n', 's')

由于tuple是构造器的名称，应避免将其用作变量名。

大部分的列表操作符也适用于元组。方括号索引一个元素：

>>> t = ('a', 'b', 'c', 'd', 'e')
>>> print t[0]
'a'

切片操作符选择一组元素。

>>> print t[1:3]
('b', 'c')

但是，如果尝试修改元组中的元素，会得到一个错误：

>>> t[0] = 'A'
TypeError: object doesn't support item assignment

不能修改元组的元素，但可以用另一个元组替换当前元组：

>>> t = ('A',) + t[1:]
>>> print t
('A', 'b', 'c', 'd', 'e')

10.2 元组的比较

比较运算符适用于元组和其它序列，Python从每个序列的第一个元素开始比较。如果它们相等，继续比较下一个元素，以此类推，直到找到不同的元素。找到不同元素之后，随后的元素就不再考虑了（即便它们真得很大）。

>>> (0, 1, 2) < (0, 3, 4)
True
>>> (0, 1, 2000000) < (0, 3, 4)
True

元组中sort函数正是这个工作原理。它首先对第一个元素排序，如果第一个元素相同，则按第二个元素排序，以此类推。

这一特性使其拥有一种DSU模式：

修饰（Decorate）：修饰：在序列的元素之前放置一个或多个排序键，

排序（Sort）：使用Python内置函数sort进行排序，

去修饰（Undecorate）：提取出序列中已排序的元素。

举例来说，有一组单词，对它们进行由长到短的排序:

txt = 'but soft what light in yonder window breaks'
words = txt.split()
t = list()
for word in words:
   t.append((len(word), word))

t.sort(reverse=True)

res = list()
for length, word in t:
    res.append(word)

print res

第一个循环创建了一个元组，每个元组包括单词及长度，单词长度在前，单词在后。

sort函数进行两两比较，首先比较单词长度，如果长度相等，则比较元组中的第二个元素。关键字参数reverse=True指定sort函数按照倒序排列。

第二个循环遍历了元组，创建了一个按照长度降序排列的单词列表。这五个单词按照反向字母顺序排序，所以“what”出现在“soft”之前。

程序输出结果如下:

['yonder', 'window', 'breaks', 'light', 'what',
'soft', 'but', 'in']

当然，这一行文字被转换为Python列表，并按照单词长度降序排列之后，它就失去了原有的诗歌意味²。

10.3 元组的赋值

Python语言的一个独特句法特征是，元组可以出现在赋值语句的左侧。当左侧是一个序列时，一次可以为多个变量赋值。

在本例中，一个列表（序列）包含两个元素。使用一行语句，将第一个元素和第二个元素分别赋予变量x和变量y。

>>> m = [ 'have', 'fun' ]
>>> x, y = m
>>> x
'have'
>>> y
'fun'
>>>

这不是魔法，Python会大致翻译元组的赋值语法，如下所示：³

>>> m = [ 'have', 'fun' ]
>>> x = m[0]
>>> y = m[1]
>>> x
'have'
>>> y
'fun'
>>>

从文体上看，在赋值语句左侧使用元组，我们忽略了括号，以下是有效的等价语法：

>>> m = [ 'have', 'fun' ]
>>> (x, y) = m
>>> x
'have'
>>> y
'fun'
>>>

元组赋值有一个特别巧妙的用途，可以在一条语句中交换两个变量的值：

>>> a, b = b, a

这条语句两侧都是元组，左侧是变量元组，右侧是表达式元组。右侧的每个值分别赋予左侧的每个变量。右侧的所有表达式在赋值之前进行检查。

左侧的变量个数与右侧的值个数必须相同：

>>> a, b = 1, 2, 3
ValueError: too many values to unpack

更普遍的情况是，右侧可以是任何类型的序列，如字符串、列表或元组。例如，将邮件地址拆分成用户名与域名的程序代码如下：

>>> addr = '[email protected]'
>>> uname, domain = addr.split('@')

split的返回值是包含两个元素的列表。第一个元素是uname，第二个元素是domain。

>>> print uname
monty
>>> print domain
python.org

10.4 字典与元组

元组拥有items方法，该方法返回元组列表，每个元组是一个键值对⁴。

>>> d = {'a':10, 'b':1, 'c':22}
>>> t = d.items()
>>> print t
[('a', 10), ('c', 22), ('b', 1)]

如果是字典的话，其中的数据项是没有特定顺序的。

由于元组列表本身是一个列表，元组之间可以进行比较，以及对元组列表进行排序。将字典转化为元组列表，这样可以根据键对字典进行排序，并输出字典的内容。

>>> d = {'a':10, 'b':1, 'c':22}
>>> t = d.items()
>>> t
[('a', 10), ('c', 22), ('b', 1)]
>>> t.sort()
>>> t
[('a', 10), ('b', 1), ('c', 22)]

新的列表根据键值以字母升序排列。

10.5 通过字典进行多个赋值

将items方法、元组赋值与for循环结合起来，你可以拥有一个良好的代码模式，使用单循环就可以遍历字典中的键与值。

for key, val in d.items():
    print val, key

这个循环中存在两个迭代变量。由于items返回一个元组列表，变量key和val通过字典的键值对进行迭代，继而得到赋值。

循环中的每次迭代都会使得key和value被赋予下一个字典键值对（仍然以哈希顺序）。

此循环的输出结果如下：

10 a
22 c
1 b

再次强调，这是哈希键顺序，也就是没有特定顺序。

将两种方法结合，按照每个键值对中的值来排序，输出字典的内容。

要做到这一点，首先创建一个元组列表，其中每个元组为(value, key)。通过items方法得到(key, value)元组列表。此时，我们想要根据value排序，而不是key。(value, key)元组列表一旦生成，排序就变得简单了，按照反向次序对列表排序，输出已排序的新列表。

>>> d = {'a':10, 'b':1, 'c':22}
>>> l = list()
>>> for key, val in d.items() :
...     l.append( (val, key) )
...
>>> l
[(10, 'a'), (22, 'c'), (1, 'b')]
>>> l.sort(reverse=True)
>>> l
[(22, 'c'), (10, 'a'), (1, 'b')]
>>>

创建元组列表时要非常谨慎，确保每个元组的第一个元素是值，这样就能对元组列表进行排序，获得所需的字典内容，该字典已按值进行排序。

10.6 高频词汇

回头看看前面介绍的单词统计程序，文本取自《罗密欧于朱丽叶》的第二幕第二场。现在，我们扩充这个程序，输出文本中出现次数最多的前十个单词，代码如下所示：

import string
fhand = open('romeo-full.txt')
counts = dict()
for line in fhand:
    line = line.translate(None, string.punctuation)
    line = line.lower()
    words = line.split()
    for word in words:
        if word not in counts:
            counts[word] = 1
        else:
            counts[word] += 1

# Sort the dictionary by value
lst = list()
for key, val in counts.items():
    lst.append( (val, key) )

lst.sort(reverse=True)

for key, val in lst[:10] :
    print key, val

程序的第一部分读取文件，计算出文档中每个单词出现的次数，将单词及其出现次数放入字典中。这部分程序不做修改。之前输出变量count的值之后，程序就结束了，这里我们创建一个(val, key)元组列表，按照逆序对列表进行排序。

由于元组中值是第一个元素，所以它被用于比较。如果多个元组拥有相同的值，接下来检查元组的第二个元素（键）。因此，如果值相同，元组将按照键的字母顺序进行排序。

在程序末尾，我们写了一个for循环，实现多个赋值的迭代，通过列表切片操作（lst[:10]），迭代输出前十个高频词汇。

至此，程序的输出看上去符合我们想要的词频分析结果。

61 i
42 and
40 romeo
34 to
34 the
32 thou
32 juliet
30 that
29 my
24 thee

事实上，如此复杂的数据解析与分析只需19行易于理解的Python代码就解决了。这就是Python语言用于信息分析的明智选择依据之一。

10.7 在字典中使用键作为元组

元组可以使用哈希算法排序，但列表不可以。如果我们想在字典中创建一个组合键，那么必须使用元组作为键。

假设创建一个电话号码簿，包含姓名与电话号码的对应关系，那么就会用到组合键。若已经定义了变量last、first与number，字典赋值语句如下：

directory[last,first] = number

方括号里的表达式是一个元组。在for循环中使用元组赋值来遍历这个字典。

for last, first in directory:
    print first, last, directory[last,first]

这个循环遍历了directory中的键，这里的键是元组。它给每个元组的元素赋予变量last和first，然后打印出姓名与对应的电话号码。

10.8 序列：字符串、列表与元组 —— 哦，这么多！

此处的重点是元组列表，但本章几乎所有示例都可以用于列表的列表，元组的元组以及列表的元组。为避免列举过多，有时为方便统称为序列的序列。

在许多情况下，不同类型的序列（字符串、列表与元组）之间可以互换使用。既然这样，为什么要选择这一种序列而不用其他序列？另外，如何选择合适的序列呢？

从最明显的字符串说起，由于字符串元素只能是字符，所以它比其他序列的局限性更大。另外，字符串是不可改变的。如果需要在字符串中修改字符，而不是新建一个字符串，那么可能需要使用字符列表。

列表比元组更为常见，主要是因为列表是可变的。以下情况可能更适合元组：

某些情况下，例如return语句，它创建元组的语法比创建列表的要简单。另一些情况下，可能列表更合适。

如果使用序列作为字典的键，那么必须使用不可变类型，如元组或字符串。

如果将序列作为参数传递给函数，那么使用元组会减少由于别名带来意外情况的可能。

因为元组是不可变的，所以没有sort和reverse这类可以修改已有列表的方法。然而，Python提供了内建函数sorted与reversed，将任一序列作为参数输入，之后返回一个元素相同但次序不同的新序列。

10.9 调试

列表、字典与元组通常被称为数据结构。本章中我们见识到了复合数据结构，例如，元组列表，以元组为键、列表为值的字典。复合数据结构是有用的，但容易出现形状错误，即由于数据结构的类型、大小或组成出错所致，亦或编写代码时由于忘记数据类型导致出错。

举例来说，如果列表包含一个整数，给出一个不在列表里的其他整数，这就不起作用。

调试程序时，如果遇到困难，可以尝试以下四种方法：

阅读：检查代码，仔细阅读，验证代码是否按照你的意愿执行。

运行：通过修改代码进行实验，运行不同版本的代码。通常，程序在正确的地方显示了正确的东西，那么程序显而易见，但有时候得花些时间来构建程序的支架。

沉思：花一些时间去思考！错误类型究竟是什么？语法、执行时或语义？从错误消息或程序输出中能得到什么信息？什么样的错误类型会导致你正遇到的问题？在问题出现之前，最后一次你做了什么？

回退：某些时候最好的办法是回退，撤销最近的修改，退回到程序可以正常工作和你能够理解的状态。之后开始重建。

编程新手有时会陷在这些活动之中，忘记其他事情。每种活动都有自身的故障模式。

举例来说，如果程序存在输入错误，只要问题不是概念上的误解，阅读代码就可以解决。如果不明白程序做了什么，即使阅读100遍也看不到错误，因为错误就在你的脑袋里。

运行实验可以提供帮助，特别是一些小型简单的测试。然而，如果你没有经过思考或仔细阅读代码就运行实验，那么可能会陷入一种“随机游走编程”模式，也就是说通过随机修改，直到程序正确执行。毫无疑问，随机游走编程会花费很长时间。

你必须花时间去思考。调试就像一门实验科学。你应该至少有一个关于问题的假说。如果存在两个或更多可能时，试着考虑用测试去消除其中之一。

休息一下有助于思考。与人交谈也一样。如果你向其他人（甚至是自己）解释问题，有时在问完问题之前，你就找到答案了。

但是，如果错误太多或尝试修复的代码过于庞大和复杂，即使最好的调试技术也无济于事。有时最好的选择是以退为进，对程序进行简化，直到你能掌控和理解的程度。

编程新手往往不愿意回退，因为他们无法忍受删除代码（即使它是错的）。如果你对自己写的代码感觉还不错，在删除代码之前复制一份到另一个文件中。之后，你就能每次粘贴回来一小部分代码。

找到难度大的错误需要阅读、运行、沉思以及时而后退等步骤。如果你陷入其中一种，试试其他的。

10.10 术语

可比较的：相同类型的值之间进行比较，包括大于、小于或等于。可进行比较的类型可以放在列表中，并可以排序。

数据结构：相关值的集合，常见形式有列表、字典、元组等。

DSU: “修饰-排序-去修饰”的缩写，包括构建元组列表、排序与抽取部分结果的一种模式。

聚集：组装变长参数元组的操作。

可哈希的：拥有哈希函数的类型。不可变类型，如整数、浮点数和字符串，都可以使用哈希函数；可变类型，如列表与字典，不可以使用哈希函数。

散布：将序列视为参数列表的操作。

数据结构的形状：数据结构的类型、大小与组成的概要。

单例：包含一个元素的列表（或其他序列）。

元组：不可变的元组序列。

元组赋值：右侧是序列赋值，左侧是变量元组。右侧通过检验后，将其中的元素赋予左侧的变量。

10.11 练习

习题10.1 修改之前的程序：读取与解析出以“From”开头的行，取出符合条件的行中的邮箱。使用字典统计出每个人的邮件数。

当所有的数据读取完毕，从字典中创建一个元组(count, email)列表，然后对列表进行反向排序，打印出提交最多的用户。

Sample Line:
From [email protected] Sat Jan  5 09:14:16 2008

Enter a file name: mbox-short.txt
[email protected] 5

Enter a file name: mbox.txt
[email protected] 195

习题10.2 统计出每条消息在一天中的小时分布。从以“From”开头的行中，找出时间字符串，根据冒号将其分解。对每个小时的次数进行累积，按行打印出统计数，并按照小时进行排序，程序运行结果如下所示：

Sample Execution:
python timeofday.py
Enter a file name: mbox-short.txt
04 3
06 1
07 1
09 2
10 3
11 6
14 1
15 2
16 4
17 2
18 1
19 1

习题10.3 编写一个程序，读取一个文件，按照频率降序打印出字母。这个程序将所有输入转化成小写，只统计字母a-z，不统计空格、数字、标点符号以及其他a-z之外的字符。尝试使用不同语种的文本片段，观察不同语言之间的词频差异。将结果与http://wikipedia.org/wiki/Letter_frequencies上的词频表进行比较。

¹. 有趣的事实：“元组”的命名取决于序列的长度，如一元组（single）、二元组（double）、三元组（triple,）、四元组（quadruple）、五元组（quintuple）、六元组（sextuple）七元组（septuple）等。 ↩

². 译者注：此句出自莎士比亚的《罗密欧与朱丽叶》。原文为"But, soft! what light through yonder window breaks? "，本书作者略作修改，将through改为in。 ↩

³. Python不做字面上的语法翻译。如果你使用Python的字典进行语言翻译，无法得到想要的结果。 ↩

⁴. Python 3.0中的用法有些许差异。 ↩

第10章 元组