字典和集合
需要将一系列值组合成数据结构并通过编号来访问各个值时,列表很有用。本章介绍一种可通过名称来访问其各个值的数据结构。这种数据结构称为映射(mapping)。字典是Python中唯一的内置映射类型,其中的值不按顺序排列,而是存储在键下。键可能是数、字符串或元组。
列表、字符串和字典是三种最重要的Python数据类型。
字典
列表是数值索引,不支持其它索引,而且列表相对较慢;字典的速度要快于列表,但是字典所耗费的资源比较大。
字典是一种无序可变容器,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每对之间用逗号分割,整个字典包括在花括号{}中。字典键必须唯一且不可变,值可以是任意类型,也可以重复。
# 合法
dic = {123: 456, True: 999, "id": 1, "name": 'sylar', "age": 18, "stu": ['帅哥', '美⼥'], (1, 2, 3): '麻花藤'}
print(dic[123])
print(dic[True])
print(dic['id'])
print(dic['stu'])
print(dic[(1, 2, 3)])
# 不合法
# dic = {[1, 2, 3]: '周杰伦'} # list是可变的. 不能作为key
# dic = {{1: 2}: "哈哈哈"} # dict是可变的. 不能作为key
dic = {{1, 2, 3}: '呵呵呵'} # set是可变的, 不能作为key
字典的用途
字典的名称指出了这种数据结构的用途。普通图书适合按从头到尾的顺序阅读,如果你愿意,可快速翻到任何一页,这有点像Python中的列表。字典(日常生活中的字典和Python字典)旨在让你能够轻松地找到特定的单词(键),以获悉其定义(值)。
在很多情况下,使用字典都比使用列表更合适。下面是Python字典的一些用途:
- 表示棋盘的状态,其中每个键都是由坐标组成的元组;
- 存储文件修改时间,其中的键为文件名;
- 数字电话/地址簿。
如果要存储人名和其对应的电话号码,可以采用2个列表的形式:
>>> names = ['Alice', 'Beth', 'Cecil', 'Dee-Dee', 'Earl']
>>> numbers = ['2341', '9102', '3158', '0142', '5551']
#可像下面这样查找Cecil的电话号码
>>> numbers[names.index('Cecil')]
'3158'
上面的方法可以,但是不太实用,这时候就可以采用字典:
>>> phonebook = {'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'}
#很方便的取值
>>> phonebook['Cecil']
'3258'
字典由键及其相应的值组成,这种键-值对称为项(item)。在前面的示例中,键为名字,而值为电话号码。每个键与其值之间都用冒号(:)分隔,项之间用逗号分隔,而整个字典放在花括号内。空字典(没有任何项)用两个花括号表示,类似于下面这样:{}。
字典使用举例:
- 例1、统计网站的用户主要分部在全国什么地方,我们可以通过http服务器的日志得到用户的ip地址,并将ip设置为键名,将流量和次数设置为值。这样就可以获得网站主要的用户来源,进而通过IP获得用户的地理位置。
- 例2、比如每次考试统计学生的成绩,键名可以为学生名,键值可以为学生语文、数学、英语等科目的成绩。
字典的创建
#初始化空字典
>>> d = {}
>>> d
{}
#设置键值对
>>> d = {'a':'abc','tom':[1,2,'ab']}
>>> d
{'a': 'abc', 'tom': [1, 2, 'ab']}
#可使用函数dict从其他映射(如其他字典)或键-值对序列创建字典
>>> d1 = dict([('one', 1),('two', 2),('three', 3)])
>>> d1
{'one': 1, 'two': 2, 'three': 3}
#使用关键字实参来调用dict函数
>>> d2 = dict(one=1,two=2,three=3)
>>> d2
{'one': 1, 'two': 2, 'three': 3}
#利用fromkey,格式为:dict.fromkeys(iterable,'M')
>>> d3 = dict.fromkeys('abc')
>>> d3
{'a': None, 'b': None, 'c': None}
>>> d4 = dict.fromkeys('abc','test')
>>> d4
{'a': 'test', 'b': 'test', 'c': 'test'}
>>> d5 = dict.fromkeys(['harry','tom','lily'],'teacher')
>>> d5
{'harry': 'teacher', 'tom': 'teacher', 'lily': 'teacher'}
基本的字典操作
字典的基本行为在很多方面都类似于序列。
- len(d)返回字典d包含的项(键-值对)数。
- d[k]返回与键k相关联的值。
- d[k] = v将值v关联到键k。
- del d[k]删除键为k的项。
- k in d检查字典d是否包含键为k的项。
虽然字典和列表有多个相同之处,但也有一些重要的不同之处。
- 键的类型:字典中的键可以是整数,但并非必须是整数。字典中的键可以是任何不可变的类型,如浮点数(实数)、字符串或元组。
- 自动添加:即便是字典中原本没有的键,也可以给它赋值,这将在字典中创建一个新项。然而,如果不使用append或其他类似的方法,就不能给列表中没有的元素赋值。
- 成员资格:表达式k in d(其中d是一个字典)查找的是键而不是值,而表达式v in l(其
中l是一个列表)查找的是值而不是索引。这看似不太一致,但习惯后就会觉得相当自然。毕竟如果字典包含指定的键,检查相应的值就很容易。
字典案例:
# 一个简单的数据库
# 一个将人名用作键的字典。每个人都用一个字典表示,
# 字典包含键'phone'和'addr',它们分别与电话号码和地址相关联
people = {
'Alice': {
'phone': '2341',
'addr': 'Foo drive 23'
},
'Beth': {
'phone': '9102',
'addr': 'Bar street 42'
},
'Cecil': {
'phone': '3158',
'addr': 'Baz avenue 90'
}
}
# 电话号码和地址的描述性标签,供打印输出时使用
labels = {
'phone': 'phone number',
'addr': 'address'
}
name = input('Name: ')
# 要查找电话号码还是地址?
request = input('Phone number (p) or address (a)? ')
# 使用正确的键:
if request == 'p': key = 'phone'
if request == 'a': key = 'addr'
# 仅当名字是字典包含的键时才打印信息:
if name in people:
print("{}'s {} is {}.".format(name, labels[key], people[name][key]))
这个程序的运行情况类似于下面这样:
Name: Beth
Phone number (p) or address (a)? p
Beth's phone number is 9102.
字典方法
字典的方法很有用,但其使用频率可能没有列表和字符串的方法那样高。
1. clear
方法clear删除所有的字典项,这种操作是就地执行的(就像list.sort一样),因此什么都不返回(或者说返回None)。
>>> d = {}
>>> d['name'] = 'Gumby'
>>> d['age'] = 42
>>> d
{'age': 42, 'name': 'Gumby'}
>>> returned_value = d.clear()
>>> d
{}
>>> print(returned_value)
None
这为何很有用呢?我们来看两个场景。下面是第一个场景:
>>> x = {}
>>> y = x
>>> x['key'] = 'value'
>>> y
{'key': 'value'}
>>> x = {}
>>> y
{'key': 'value'}
下面是第二个场景:
>>> x = {}
>>> y = x
>>> x['key'] = 'value'
>>> y
{'key': 'value'}
>>> x.clear()
>>> y
{}
在这两个场景中,x和y最初都指向同一个字典。在第一个场景中,我通过将一个空字典赋给x来“清空”它。这对y没有任何影响,它依然指向原来的字典。这种行为可能正是你想要的,但要删除原来字典的所有元素,必须使用clear。如果这样做,y也将是空的,如第二个场景所示。
2. copy
方法copy返回一个新字典,其包含的键值对与原来的字典相同(这个方法执行的是浅复制,因为值本身是原件,而非副本)。
>>> x = {'username': 'admin', 'machines': ['foo', 'bar', 'baz']}
>>> y = x.copy()
>>> y['username'] = 'mlh'
>>> y['machines'].remove('bar')
>>> y
{'username': 'mlh', 'machines': ['foo', 'baz']}
>>> x
{'username': 'admin', 'machines': ['foo', 'baz']}
当替换副本中的值时,原件不受影响。然而,如果修改副本中的值(就地修改而不是替换),原件也将发生变化,因为原件指向的也是被修改的值。
为避免这种问题,一种办法是执行深复制,即同时复制值及其包含的所有值,等等。为此,可使用模块copy中的函数deepcopy。
>>> from copy import deepcopy
>>> d = {}
>>> d['names'] = ['Alfred', 'Bertrand']
>>> c = d.copy()
>>> dc = deepcopy(d)
>>> d['names'].append('Clive')
>>> c
{'names': ['Alfred', 'Bertrand', 'Clive']}
>>> dc
{'names': ['Alfred', 'Bertrand']}
3. fromkeys
方法fromkeys创建一个新字典,其中包含指定的键,且每个键对应的值都是None。
>>> dict.fromkeys(['name', 'age'])
{'age': None, 'name': None}
#如果你不想使用默认值None,可提供特定的值。
>>> dict.fromkeys(['name', 'age'], '(unknown)')
{'age': '(unknown)', 'name': '(unknown)'}
4. get
方法get为访问字典项提供了宽松的环境。通常,如果你试图访问字典中没有的项,将引发错误。
>>> d = {}
>>> print(d['name'])
Traceback (most recent call last):
File "<stdin>", line 1, in ?
KeyError: 'name'
而使用get不会这样:
>>> print(d.get('name'))
None
使用get来访问不存在的键时,没有引发异常,而是返回None。你可指定“默认”值,这样将返回你指定的值而不是None。
>>> d.get('name', 'N/A')
'N/A'
如果字典包含指定的键,get的作用将与普通字典查找相同。
>>> d['name'] = 'Eric'
>>> d.get('name')
'Eric'
字典方法案例:
# 一个使用get()的简单数据库
# 一个将人名用作键的字典。每个人都用一个字典表示,
# 字典包含键'phone'和'addr',它们分别与电话号码和地址相关联
people = {
'Alice': {
'phone': '2341',
'addr': 'Foo drive 23'
},
'Beth': {
'phone': '9102',
'addr': 'Bar street 42'
},
'Cecil': {
'phone': '3158',
'addr': 'Baz avenue 90'
}
}
# 电话号码和地址的描述性标签,供打印输出时使用
labels = {
'phone': 'phone number',
'addr': 'address'
}
name = input('Name: ')
# 要查找电话号码还是地址?
request = input('Phone number (p) or address (a)? ')
# 使用正确的键:
key = request # 如果request既不是'p'也不是'a'
if request == 'p': key = 'phone'
if request == 'a': key = 'addr'
# 使用get提供默认值
person = people.get(name, {})
label = labels.get(key, key)
result = person.get(key, 'not available')
print("{}'s {} is {}.".format(name, label, result))
通过修改程序,get提高了灵活性,让程序在用户输入的值出乎意料时也能妥善处理。
Name: Gumby
Phone number (p) or address (a)? batting average
Gumby's batting average is not available.
5. items
方法items返回一个包含所有字典项的列表,其中每个元素都为(key, value)的形式。字典项在列表中的排列顺序不确定。
>>> d = {'title': 'Python Web Site', 'url': 'http://www.python.org', 'spam': 0}
>>> a = d.items()
>>> a
dict_items([('title', 'Python Web Site'), ('url', 'http://www.python.org'), ('spam', 0)])
>>> type(a)
<class 'dict_items'>
返回值属于一种名为字典视图的特殊类型。字典视图可用于迭代。另外,你还可确定其长度以及对其执行成员资格检查。
>>> len(a)
3
>>> ('spam',0) in a
True
视图的一个优点是不复制,它们始终是底层字典的反映,即便你修改了底层字典亦如此。
>>> d['spam'] = 1
>>> ('spam',0) in a
False
>>> d['spam'] = 0
>>> ('spam',0) in a
True
可以将字典项复制到列表中
>>> b = list(d.items())
>>> b
[('title', 'Python Web Site'), ('url', 'http://www.python.org'), ('spam', 0)]
>>> d['spam'] = 1
>>> b
[('title', 'Python Web Site'), ('url', 'http://www.python.org'), ('spam', 0)]
>>> d
{'title': 'Python Web Site', 'url': 'http://www.python.org', 'spam': 1}
>>> a
dict_items([('title', 'Python Web Site'), ('url', 'http://www.python.org'), ('spam', 1)])
6. keys
方法keys返回一个字典视图,其中包含指定字典中的键。
>>> d = {'title': 'Python Web Site', 'url': 'http://www.python.org', 'spam': 0}
>>> d.keys()
dict_keys(['title', 'url', 'spam'])
7. pop
方法pop可用于获取与指定键相关联的值,并将该键值对从字典中删除。
>>> d = {'title': 'Python Web Site', 'url': 'http://www.python.org', 'spam': 0}
>>> d.pop('spam')
0
>>> d
{'title': 'Python Web Site', 'url': 'http://www.python.org'}
8. popitem
方法popitem类似于list.pop,但list.pop弹出列表中的最后一个元素,而popitem随机地弹出一个字典项(python3.6是删除最后一个)。
>>> d1 = dict.fromkeys([1,2,3,4,5,6],'test')
>>> d1
{1: 'test', 2: 'test', 3: 'test', 4: 'test', 5: 'test', 6: 'test'}
>>> d1.popitem()
(6, 'test')
>>> d1
{1: 'test', 2: 'test', 3: 'test', 4: 'test', 5: 'test'}
>>> d1.popitem()
(5, 'test')
>>> d1.popitem()
(4, 'test')
>>> d1.popitem()
(3, 'test')
>>> d1.popitem()
(2, 'test')
>>> d1.popitem()
(1, 'test')
>>> d1
{}
>>> d1.popitem()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: 'popitem(): dictionary is empty'
9. setdefault
方法setdefault有点像get,因为它也获取与指定键相关联的值,但除此之外,setdefault还在字典不包含指定的键时,在字典中添加指定的键值对。
>>> d2 = {}
>>> d2.setdefault('刘德华','天王')
'天王'
>>> d2
{'刘德华': '天王'}
>>> d2.setdefault('张学友')
>>> d2
{'刘德华': '天王', '张学友': None}
>>> d2['张学友'] = '歌神'
>>> d2
{'刘德华': '天王', '张学友': '歌神'}
>>> d2.setdefault('张学友','天王')
'歌神'
>>> d2
{'刘德华': '天王', '张学友': '歌神'}
指定的键不存在时,setdefault返回指定的值并相应地更新字典。如果指定的键存在,就返回其值,并保持字典不变。与get一样,值是可选的;如果没有指定,默认为None。
10. update
方法update使用一个字典中的项来更新另一个字典。
>>> d2
{'刘德华': '天王', '张学友': '歌神'}
>>> d3 = {'黎明':'帅哥'}
>>> d2.update(d3)
>>> d2
{'刘德华': '天王', '张学友': '歌神', '黎明': '帅哥'}
>>> d2.update({'刘德华':'大帅哥'})
>>> d2
{'刘德华': '大帅哥', '张学友': '歌神', '黎明': '帅哥'}
对于通过参数提供的字典,将其项添加到当前字典中。如果当前字典包含键相同的项,就替换它。
11. values
方法values返回一个由字典中的值组成的字典视图。不同于方法keys,方法values返回的视图可能包含重复的值。
>>> d2
{'刘德华': '大帅哥', '张学友': '歌神', '黎明': '帅哥'}
>>> d2.values()
dict_values(['大帅哥', '歌神', '帅哥'])
>>> d2.update({'郭富城':'帅哥'})
>>> d2.values()
dict_values(['大帅哥', '歌神', '帅哥', '帅哥'])
>>> test = d2.values()
>>> d2['刘德华'] = '帅哥'
>>> test
dict_values(['帅哥', '歌神', '帅哥', '帅哥'])
集合
set和dict类似,是一组key的集合没有value,而且keys不可以重复并且必须为不可变对象。相当于一个只有key没有value的字典。
集合在Pyhton中的关键字是set,也是以{}的形式展示,形式: {1,2,3,‘abc’,‘xyz’} ;
使用:可以用来去重或者数学集合运算(比如去重列表)。
>>> lst = [1,3,4,112,23,1,3,1,41,12,3,1]
#这样就没有重复的元素出现了,我们再将集合转换成列表
>>> print(set(lst))
{1, 3, 4, 41, 12, 112, 23}
#这样就把没有重复的集合转成列表了
>>> list(set(lst))
[1, 3, 4, 41, 12, 112, 23]
集合的增删改查
集合是无序,可变的数据类型,说到可变我们就知道集合是能够增加和删除等操作的,我们来看看怎么操作。
增加
>>> s = {"刘嘉玲", '关之琳', "王祖贤"}
>>> s.add("郑裕玲")
>>> print(s)
{'王祖贤', '刘嘉玲', '郑裕玲', '关之琳'}
>>> s.add("郑裕玲") # 重复的内容不会被添加到set集合中
>>> print(s)
{'王祖贤', '刘嘉玲', '郑裕玲', '关之琳'}
>>> s = {"刘嘉玲", '关之琳', "王祖贤"}
>>> s.update("麻花藤") # 迭代更新
>>> print(s)
{'藤', '麻', '刘嘉玲', '王祖贤', '关之琳', '花'}
>>> s.update(["张曼⽟", "李若彤","李若彤"])
>>> print(s)
{'藤', '麻', '张曼⽟', '李若彤', '刘嘉玲', '王祖贤', '关之琳', '花'}
删除
>>> s = {"刘嘉玲", '关之琳', "王祖贤","张曼⽟", "李若彤"}
>>> item = s.pop() # 随机弹出⼀个.
>>> print(s)
{'李若彤', '刘嘉玲', '王祖贤', '关之琳'}
>>> print(item)
张曼⽟
>>> s.remove("关之琳") # 直接删除元素
>>> print(s)
{'李若彤', '刘嘉玲', '王祖贤'}
>>> s.remove("⻢⻁疼") # 不存在这个元素. 删除会报错
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: '⻢⻁疼'
>>> print(s)
{'李若彤', '刘嘉玲', '王祖贤'}
>>> s.clear() # 清空set集合.需要注意的是set集合如果是空的. 打印出来是set() 因为要和dict区分的.
>>> print(s)
set()
修改
# set集合中的数据没有索引. 也没有办法去定位⼀个元素. 所以没有办法进⾏直接修改.
# 我们可以采⽤先删除后添加的⽅式来完成修改操作
s = {"刘嘉玲", '关之琳', "王祖贤","张曼⽟", "李若彤"}
# 把刘嘉玲改成赵本⼭
s.remove("刘嘉玲")
s.add("赵本⼭")
print(s)
查询
#set是⼀个可迭代对象. 所以可以进⾏for循环
>>> s = {"刘嘉玲", '关之琳', "王祖贤","张曼⽟", "李若彤"}
>>> for e1 in s:
... print(e1)
...
张曼⽟
李若彤
刘嘉玲
王祖贤
关之琳
集合常用操作
Python中的集合跟数学上的集合是一致的,不允许有重复元素,而且可以进行交集、并集、差集等运算。
>>> s1 = {"刘能", "赵四", "⽪⻓⼭"}
>>> s2 = {"刘科⻓", "冯乡⻓", "⽪⻓⼭"}
# 交集:两个集合中的共有元素
>>> print(s1 & s2)
{'⽪⻓⼭'}
>>> print(s1.intersection(s2))
{'⽪⻓⼭'}
# 并集
>>> print(s1 | s2)
{'⽪⻓⼭', '冯乡⻓', '刘科⻓', '赵四', '刘能'}
>>> print(s1.union(s2))
{'⽪⻓⼭', '冯乡⻓', '刘科⻓', '赵四', '刘能'}
# 差集:得到第⼀个中单独存在的
>>> print(s1 - s2)
{'赵四', '刘能'}
>>> print(s1.difference(s2))
{'赵四', '刘能'}
#反交集:两个集合中单独存在的数据
>>> print(s1 ^ s2)
{'冯乡⻓', '刘能', '刘科⻓', '赵四'}
>>> print(s1.symmetric_difference(s2))
{'冯乡⻓', '刘能', '刘科⻓', '赵四'}
>>> s1 = {"刘能", "赵四"}
>>> s2 = {"刘能", "赵四", "⽪⻓⼭"}
#子集判断
>>> print(s1 < s2)
True
>>> print(s1.issubset(s2))
True
#超集判断
>>> print(s1 > s2)
False
>>> print(s1.issuperset(s2))
False