几种常见的Python数据结构

摘要：本文主要为大家讲解在Python开发中常见的几种数据结构。

本文分享自华为云社区《Python的常见数据结构》，作者： timerring 。

数据结构和序列

元组

元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：

In [1]: tup = 4, 5, 6

当用复杂的表达式定义元组，最好将值放到圆括号内，如下所示：

In [3]: nested_tup = (4, 5, 6), (7, 8)
In [4]: nested_tup
Out[4]: ((4, 5, 6), (7, 8))

用 tuple 可以将任意序列或迭代器转换成元组：

In [5]: tuple([4, 0, 2])
Out[5]: (4, 0, 2)
In [6]: tup = tuple('string')
In [7]: tup
Out[7]: ('s', 't', 'r', 'i', 'n', 'g')

可以用方括号访问元组中的元素。和C、C++、JAVA等语言一样，序列是从0开始的：

In [8]: tup[0]
Out[8]: 's'

元组中存储的对象可能是可变对象。一旦创建了元组，元组中的对象就不能修改了：

如果元组中的某个对象是可变的，比如列表，可以在原位进行修改：

In [11]: tup[1].append(3)
In [12]: tup
Out[12]: ('foo', [1, 2, 3], True)

可以用加号运算符将元组串联起来：

In [13]: (4, None, 'foo') + (6, 0) + ('bar',)
Out[13]: (4, None, 'foo', 6, 0, 'bar')

元组乘以一个整数，像列表一样，会将几个元组的复制串联起来：

In [14]: ('foo', 'bar') * 4
Out[14]: ('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

对象本身并没有被复制，只是引用了它。

拆分元组

如果你想将元组赋值给类似元组的变量，Python会试图拆分等号右边的值：

In [15]: tup = (4, 5, 6)
In [16]: a, b, c = tup
In [17]: b
Out[17]: 5

即使含有元组的元组也会被拆分：

In [18]: tup = 4, 5, (6, 7)
In [19]: a, b, (c, d) = tup
In [20]: d
Out[20]: 7

使用这个功能，你可以很容易地替换变量的名字，其它语言可能是这样：

tmp = a
a = b
b = tmp

但是在Python中，替换可以这样做：

In [21]: a, b = 1, 2
In [22]: a
Out[22]: 1
In [23]: b
Out[23]: 2
In [24]: b, a = a, b
In [25]: a
Out[25]: 2
In [26]: b
Out[26]: 1

变量拆分常用来迭代元组或列表序列：

In [27]: seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
In [28]: for a, b, c in seq:
 ....: print('a={0}, b={1}, c={2}'.format(a, b, c))
a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9

另一个常见用法是从函数返回多个值。后面会详解。

Python最近新增了更多高级的元组拆分功能，允许从元组的开头“摘取”几个元素。它使用了特殊的语法 *rest ，抓取剩余的部分组成列表：

In [29]: values = 1, 2, 3, 4, 5
In [30]: a, b, *rest = values
In [31]: a, b
Out[31]: (1, 2)
In [32]: rest
Out[32]: [3, 4, 5]

rest的部分是想要舍弃的部分，rest的名字不重要。作为惯用写法，许多Python程序员会将不需要的变量使用下划线：

In [33]: a, b, *_ = values

tuple方法

因为元组的大小和内容不能修改，它的实例方法都很少。其中一个很有用的就是count（也适用于列表），它可以统计某个值出现频率：

In [34]: a = (1, 2, 2, 2, 3, 4, 2)
In [35]: a.count(2)
Out[35]: 4

列表

与元组对比，列表的长度可变、内容可以被修改。你可以用方括号定义，或用list函数：

In [37]: tup = ('foo', 'bar', 'baz')
In [38]: b_list = list(tup)
In [39]: b_list
Out[39]: ['foo', 'bar', 'baz']

list函数常用来在数据处理中实体化迭代器或生成器：

In [42]: gen = range(10)
In [43]: gen
Out[43]: range(0, 10)
In [44]: list(gen)
Out[44]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

添加和删除元素

用append在列表末尾添加元素：

In [45]: b_list.append('dwarf')
In [46]: b_list
Out[46]: ['foo', 'peekaboo', 'baz', 'dwarf']

insert可以在特定的位置插入元素：

In [47]: b_list.insert(1, 'red')
In [48]: b_list
Out[48]: ['foo', 'red', 'peekaboo', 'baz', 'dwarf']

插入的序号必须在0和列表长度之间。

警告：与append相比，insert耗费的计算量大，因为对后续元素的引用必须在内部迁移，以便为新元素提供空间。如果要在序列的头部和尾部插入元素，你可能需要使用collections.deque，一个双尾部队列。

insert的逆运算是 pop，它移除并返回指定位置的元素**：

In [49]: b_list.pop(2)
Out[49]: 'peekaboo'
In [50]: b_list
Out[50]: ['foo', 'red', 'baz', 'dwarf']

可以用remove去除某个值，remove会先寻找第一个值并除去：

In [51]: b_list.append('foo')
In [52]: b_list
Out[52]: ['foo', 'red', 'baz', 'dwarf', 'foo']
In [53]: b_list.remove('foo')
In [54]: b_list
Out[54]: ['red', 'baz', 'dwarf', 'foo']

如果不考虑性能，使用append和remove，可以把Python的列表当做完美的“多重集”数据结构。

用in可以检查列表是否包含某个值：

In [55]: 'dwarf' in b_list
Out[55]: True

否定in可以再加一个not：

In [56]: 'dwarf' not in b_list
Out[56]: False

在列表中检查是否存在某个值远比字典和集合速度慢，因为Python是线性搜索列表中的值，但在字典和集合中，在同样的时间内还可以检查其它项（基于哈希表）。

串联和组合列表

与元组类似，可以用加号将两个列表串联起来：

In [57]: [4, None, 'foo'] + [7, 8, (2, 3)]
Out[57]: [4, None, 'foo', 7, 8, (2, 3)]

如果已经定义了一个列表，用extend方法可以追加多个元素：

In [58]: x = [4, None, 'foo']
In [59]: x.extend([7, 8, (2, 3)])
In [60]: x
Out[60]: [4, None, 'foo', 7, 8, (2, 3)]

通过加法将列表串联的计算量较大，因为要新建一个列表，并且要复制对象。用extend追加元素，尤其是到一个大列表中，更为可取。

everything = []
for chunk in list_of_lists:
 everything.extend(chunk)

要比串联方法快：

everything = []
for chunk in list_of_lists:
    everything = everything + chunk

排序

你可以用sort函数将一个列表原地排序（不创建新的对象）：

In [61]: a = [7, 2, 5, 1, 3]
In [62]: a.sort()
In [63]: a
Out[63]: [1, 2, 3, 5, 7]

sort有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。例如，我们可以按长度对字符串进行排序：

In [64]: b = ['saw', 'small', 'He', 'foxes', 'six']
In [65]: b.sort(key=len)
In [66]: b
Out[66]: ['He', 'saw', 'six', 'small', 'foxes']

稍后，我们会学习sorted函数，它可以产生一个排好序的序列副本。

二分搜索和维护已排序的列表

bisect模块支持二分查找，和向已排序的列表插入值。

bisect.bisect可以找到插入值后仍保证排序的位置，
bisect.insort是向这个位置插入值：

In [67]: import bisect
In [68]: c = [1, 2, 2, 2, 3, 4, 7]
In [69]: bisect.bisect(c, 2)
Out[69]: 4
In [70]: bisect.bisect(c, 5)
Out[70]: 6
In [71]: bisect.insort(c, 6)
In [72]: c
Out[72]: [1, 2, 2, 2, 3, 4, 6, 7]

注意：bisect模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

切片

用切边可以选取大多数序列类型的一部分，切片的基本形式是在方括号中使用start:stop：

In [73]: seq = [7, 2, 3, 7, 5, 6, 0, 1]
In [74]: seq[1:5]
Out[74]: [2, 3, 7, 5]

切片也可以被序列赋值：

In [75]: seq[3:4] = [6, 3]
In [76]: seq
Out[76]: [7, 2, 3, 6, 3, 5, 6, 0, 1]

切片的起始元素是包括的，不包含结束元素。因此，结果中包含的元素个数是stop - start。start或stop都可以被省略，省略之后，分别默认序列的开头和结尾，负数表明从后向前切片。

展示了正整数和负整数的切片。

在第二个冒号后面使用step，可以隔一个取一个元素：

In [81]: seq[::2]
Out[81]: [7, 3, 3, 6, 1]

一个聪明的方法是使用-1，它可以将列表或元组颠倒过来：

In [82]: seq[::-1]
Out[82]: [1, 0, 6, 5, 3, 6, 3, 2, 7]

序列函数

enumerate函数

迭代一个序列时，你可能想跟踪当前项的序号。手动的方法可能是下面这样：

i = 0
for value in collection:
  do something with value
 i += 1

Python内建了一个enumerate函数，可以返回(i, value)元组序列：

for i, value in enumerate(collection):
  do something with value

当你索引数据时，使用enumerate的一个好方法是计算序列（唯一的）dict映射到位置的值：

In [83]: some_list = ['foo', 'bar', 'baz']
In [84]: mapping = {}
 同时列出序号和数据内容
In [85]: for i, v in enumerate(some_list):
 ....:     mapping[v] = i
In [86]: mapping
Out[86]: {'bar': 1, 'baz': 2, 'foo': 0}

sorted函数

sorted函数可以从任意序列的元素返回一个新的排好序的列表：

In [87]: sorted([7, 1, 2, 6, 0, 3, 2])
Out[87]: [0, 1, 2, 2, 3, 6, 7]
In [88]: sorted('horse race')
Out[88]: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

sorted函数可以接受和sort相同的参数。

zip函数

zip可以将多个列表、元组或其它序列成对组合成一个元组列表：

In [89]: seq1 = ['foo', 'bar', 'baz']
In [90]: seq2 = ['one', 'two', 'three']
In [91]: zipped = zip(seq1, seq2)
In [92]: list(zipped)
Out[92]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

zip可以处理任意多的序列，元素的个数取决于最短的序列：

In [93]: seq3 = [False, True]
In [94]: list(zip(seq1, seq2, seq3))
Out[94]: [('foo', 'one', False), ('bar', 'two', True)]

zip的常见用法之一是同时迭代多个序列，可能结合enumerate使用：

In [95]: for i, (a, b) in enumerate(zip(seq1, seq2)):
 ....: print('{0}: {1}, {2}'.format(i, a, b))
 ....:
0: foo, one
1: bar, two
2: baz, three

给出一个“被压缩的”序列，zip可以被用来解压序列。也可以当作把行的列表转换为列的列表。这个方法看起来有点神奇：

In [96]: pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),

....: ('Schilling', 'Curt')]

In [97]: first_names, last_names = zip(*pitchers)

In [98]: first_names

Out[98]: ('Nolan', 'Roger', 'Schilling')

In [99]: last_names

Out[99]: ('Ryan', 'Clemens', 'Curt')

reversed函数

reversed可以从后向前迭代一个序列：

In [100]: list(reversed(range(10)))
Out[100]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

要记住reversed是一个生成器（后面详细介绍），只有实体化（即列表或for循环）之后才能创建翻转的序列。

字典

创建字典

字典更为常见的名字是哈希映射或关联数组。它是键值对的大小可变集合，键和值都是Python对象。创建字典的方法之一是使用尖括号，用冒号分隔键和值：

In [101]: empty_dict = {}
In [102]: d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
In [103]: d1
Out[103]: {'a': 'some value', 'b': [1, 2, 3, 4]}

访问字典

你可以像访问列表或元组中的元素一样，访问、插入或设定字典中的元素：

In [104]: d1[7] = 'an integer'
In [105]: d1
Out[105]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
In [106]: d1['b']
Out[106]: [1, 2, 3, 4]

你可以用检查列表和元组是否包含某个值的方法，检查字典中是否包含某个键：

In [107]: 'b' in d1
Out[107]: True

删除

可以用del关键字或pop方法（返回值的同时删除键）删除值：

In [111]: d1
Out[111]: 
{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}
In [112]: del d1[5]
In [114]: ret = d1.pop('dummy')
In [115]: ret
Out[115]: 'another value'
In [116]: d1
Out[116]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

keys 和 values

keys 和 values 是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值：

In [117]: list(d1.keys())
Out[117]: ['a', 'b', 7]
In [118]: list(d1.values())
Out[118]: ['some value', [1, 2, 3, 4], 'an integer']

融合

用update方法可以将一个字典与另一个融合：

In [119]: d1.update({'b' : 'foo', 'c' : 12})
In [120]: d1
Out[120]: {'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

update方法是原地改变字典，因此任何传递给update的键的旧的值都会被舍弃。

用序列创建字典

常常，你可能想将两个序列配对组合成字典。下面是一种写法：

mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value

因为字典本质上是2元元组的集合，dict可以接受2元元组的列表：

In [121]: mapping = dict(zip(range(5), reversed(range(5))))
In [122]: mapping
Out[122]: {0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

后面会谈到dict comprehensions，另一种构建字典的优雅方式。

默认值

下面的逻辑很常见：

if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

因此，dict的方法get和pop可以取默认值进行返回，上面的if-else语句可以简写成下面：

value = some_dict.get(key, default_value)

get默认会返回None，如果不存在键，pop会抛出一个例外。关于设定值，常见的情况是在字典的值是属于其它集合，如列表。例如，你可以通过首字母，将一个列表中的单词分类：

In [123]: words = ['apple', 'bat', 'bar', 'atom', 'book']
In [124]: by_letter = {}
In [125]: for word in words:
  取首字母
 .....:     letter = word[0]
 .....: if letter not in by_letter:
  没有该首字母，以该首字母为键，word为值
 .....: by_letter[letter] = [word]
 .....: else:
  直接添加
 .....: by_letter[letter].append(word)
 .....:
In [126]: by_letter
Out[126]: {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

setdefault方法就正是干这个的。前面的for循环可以改写为：

for word in words:
    letter = word[0]
 by_letter.setdefault(letter, []).append(word)

collections模块有一个很有用的类，defaultdict，它可以进一步简化上面。传递类型或函数以生成每个位置的默认值：

from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
 by_letter[word[0]].append(word)

有效的键类型

字典的值可以是任意Python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。这被称为“可哈希性”。可以用hash函数检测一个对象是否是可哈希的（可被用作字典的键）：

In [127]: hash('string')
Out[127]: 5023931463650008331
In [128]: hash((1, 2, (2, 3)))
Out[128]: 1097636502276347782
In [129]: hash((1, 2, [2, 3]))  fails because lists are mutable
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-129-800cd14ba8be> in <module>()
----> 1 hash((1, 2, [2, 3]))  fails because lists are mutable
TypeError: unhashable type: 'list'

要用列表当做键，一种方法是将列表转化为元组，只要内部元素可以被哈希，它也就可以被哈希：

In [130]: d = {}
In [131]: d[tuple([1, 2, 3])] = 5
In [132]: d
Out[132]: {(1, 2, 3): 5}

集合

创建

集合是无序的不可重复的元素的集合。你可以把它当做字典，但是只有键没有值。可以用两种方式创建集合：通过set函数或使用尖括号set语句：

In [133]: set([2, 2, 2, 1, 3, 3])
Out[133]: {1, 2, 3}
In [134]: {2, 2, 2, 1, 3, 3}
Out[134]: {1, 2, 3}

集合支持合并、交集、差分和对称差等数学集合运算。考虑两个示例集合：

In [135]: a = {1, 2, 3, 4, 5}
In [136]: b = {3, 4, 5, 6, 7, 8}

合并 union 或者 |

合并是取两个集合中不重复的元素。可以用union方法，或者|运算符：

In [137]: a.union(b)
Out[137]: {1, 2, 3, 4, 5, 6, 7, 8}
In [138]: a | b
Out[138]: {1, 2, 3, 4, 5, 6, 7, 8}

交集 intersection 或者 &

交集的元素包含在两个集合中。可以用intersection或&运算符：

In [139]: a.intersection(b)
Out[139]: {3, 4, 5}
In [140]: a & b
Out[140]: {3, 4, 5}

表3-1列出了常用的集合方法。

所有逻辑集合操作都有另外的原地实现方法，可以直接用结果替代集合的内容。对于大的集合，这么做效率更高：

In [141]: c = a.copy()
In [142]: c |= b
In [143]: c
Out[143]: {1, 2, 3, 4, 5, 6, 7, 8}
In [144]: d = a.copy()
In [145]: d &= b
In [146]: d
Out[146]: {3, 4, 5}

与字典类似，集合元素通常都是不可变的。要获得类似列表的元素，必须转换成元组：

In [147]: my_data = [1, 2, 3, 4]
In [148]: my_set = {tuple(my_data)}
In [149]: my_set
Out[149]: {(1, 2, 3, 4)}

superset 和 subset

你还可以检测一个集合是否是另一个集合的子集或父集：

In [150]: a_set = {1, 2, 3, 4, 5}
In [151]: {1, 2, 3}.issubset(a_set)
Out[151]: True
In [152]: a_set.issuperset({1, 2, 3})
Out[152]: True

集合的内容相同时，集合才对等：

In [153]: {1, 2, 3} == {3, 2, 1}
Out[153]: True

列表、集合和字典推导式

列表推导式！

列表推导式是Python最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素，形成列表，在传递参数的过程中还可以修改元素。形式如下：

[expr for val in collection if condition]

它等同于下面的for循环;

result = []
for val in collection:
 if condition:
 result.append(expr)

filter条件可以被忽略，只留下表达式就行。例如，给定一个字符串列表，我们可以过滤出长度在2及以下的字符串，并将其转换成大写：

In [154]: strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
In [155]: [x.upper() for x in strings if len(x) > 2]
Out[155]: ['BAT', 'CAR', 'DOVE', 'PYTHON']

字典的推导式！

用相似的方法，还可以推导集合和字典。字典的推导式如下所示：

dict_comp = {key-expr : value-expr for value in collection if condition}

集合的推导式！

集合的推导式与列表很像，只不过用的是尖括号：

set_comp = {expr for value in collection if condition}

与列表推导式类似，集合与字典的推导也很方便，而且使代码的读写都很容易。来看前面的字符串列表。假如我们只想要字符串的长度，用集合推导式的方法非常方便：

In [156]: unique_lengths = {len(x) for x in strings}
In [157]: unique_lengths
Out[157]: {1, 2, 3, 4, 6}

map函数可以进一步简化：

In [158]: set(map(len, strings))  妙极
Out[158]: {1, 2, 3, 4, 6}

作为一个字典推导式的例子，我们可以创建一个字符串的查找映射表以确定它在列表中的位置：

In [159]: loc_mapping = {val : index for index, val in enumerate(strings)}
In [160]: loc_mapping
Out[160]: {'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

嵌套列表推导式

假设我们有一个包含列表的列表，包含了一些英文名和西班牙名：

In [161]: all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
 .....: ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

你可能是从一些文件得到的这些名字，然后想按照语言进行分类。现在假设我们想用一个列表包含所有的名字，这些名字中包含两个或更多的e。可以用for循环来做：

names_of_interest = []
for names in all_data:
 enough_es = [name for name in names if name.count('e') >= 2]
 names_of_interest.extend(enough_es)

可以用嵌套列表推导式的方法，将这些写在一起，如下所示：

In [162]: result = [name for names in all_data for name in names
 .....: if name.count('e') >= 2]
In [163]: result
Out[163]: ['Steven']

嵌套列表推导式看起来有些复杂。列表推导式的for部分是根据嵌套的顺序，过滤条件还是放在最后。下面是另一个例子，我们将一个整数元组的列表扁平化成了一个整数列表：

In [164]: some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
In [165]: flattened = [x for tup in some_tuples for x in tup]
In [166]: flattened
Out[166]: [1, 2, 3, 4, 5, 6, 7, 8, 9]

记住，for表达式的顺序是与嵌套for循环的顺序一样（而不是列表推导式的顺序）：

flattened = []
for tup in some_tuples:
 for x in tup:
 flattened.append(x)

你可以有任意多级别的嵌套，但是如果你有两三个以上的嵌套，你就应该考虑下代码可读性的问题了。分辨列表推导式的列表推导式中的语法也是很重要的：

In [167]: [[x for x in tup] for tup in some_tuples]
Out[167]: [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

这段代码产生了一个列表的列表，而不是扁平化的只包含元素的列表。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2023-05-08 11:14 华为云开发者联盟阅读(47) 评论(0) 编辑收藏举报

几种常见的Python数据结构

几种常见的Python数据结构

数据结构和序列

元组

拆分元组

tuple方法

列表

添加和删除元素

串联和组合列表

排序

二分搜索和维护已排序的列表

切片

序列函数

enumerate函数

sorted函数

zip函数

reversed函数

字典

创建字典

访问字典

删除

keys 和 values

融合

用序列创建字典

默认值

有效的键类型

集合

创建

合并 union 或者 |

交集 intersection 或者 &

superset 和 subset

列表、集合和字典推导式

列表推导式！

字典的推导式！

集合的推导式！

嵌套列表推导式

羽尘（王者段位）

温馨提示

最新会员

几种常见的Python数据结构

几种常见的Python数据结构

数据结构和序列

元组

拆分元组

tuple方法

列表

添加和删除元素

串联和组合列表

排序

二分搜索和维护已排序的列表

切片

序列函数

enumerate函数

sorted函数

zip函数

reversed函数

字典

创建字典

访问字典

删除

keys 和 values

融合

用序列创建字典

默认值

有效的键类型

集合

创建

合并 union 或者 |

交集 intersection 或者 &

superset 和 subset

列表、集合和字典推导式

列表推导式！

字典的推导式 ！

集合的推导式！

嵌套列表推导式

羽尘 （王者 段位）

温馨提示

最新会员

字典的推导式！

羽尘（王者段位）