title: 数据 category: page slug: data sortorder: 0501 toc: True sidebartitle: 5. 数据 meta: Python 可以通过分析、可视化、持久化来处理数据。到 Full Stack Python 上学习更多相关知识。 authors: haiiiiiyun.github.io updated: 2016-07-07 10:26
数据
虽然数据是一个极其庞大的主题,但它可以细分成许多的子主题,包括(排序不分先后):
- 数据处理
- 机器学习
- 数据分析
- 可视化
- 地理空间映射
- 通过 关系型数据库 和 NoSQL 数据存储 进行持久化
- 对象-关系 映射器
- 自然语言处理 (NLP)
- 索引,搜索和提取
针对以上的所有主题, Python 社区已经创建并将持续创建大量的开源库和教程资料。
为什么说 Python 是一门处理数据任务的好语言?
Python 有着广泛的开源代码库,它的社区成员来自各行各业,具有不同的行业背景,他们的贡献使得这些库变得日益精良。
另外, Python 处理数据的相关代码能和 Web 框架 及 Web API 结合,从而创建一些很难用其它语言创建的软件。例如,Ruby 对于创建 Web 应用来说是一门极好的语言,但是它的数据分析和可视化的相关库,相比于 Python 生态系统的当前状况,会显得相当匮乏。
Python 基于数据的应用为何变得如此广泛?
Python 是一门通用编程语言,它适用于很多的问题领域。在过去的几十年中, Python 在科学和金融社区中变得越来越流行。那些项目,像 pandas 已经成长为一个由对冲基金赞助的项目了,而 NumPy 和 SciPy 都是在学术环境中创建的,之后的改进由更广大的开源社区进行。
问题是:为什么使用 Python 来创建这些项目?答案是运气和开源社区的成长皆而有之:随着 Python 的成熟,那些没有按计算机科学家的标准通过正式培训的人也能开始使用了。它的实效型语法和显式方式,使得那些没有编程背景知识的高智商的人们能够立即拾起这门语言,以相比于其它编程语言更加自然的方式完成他们自己的工作,而正是这种广泛采用促进了社区的发展。随着时间的推移,在金融界和科学社区中使用的这些代码被共享了出来,与此同时,全球的开源社区也正在蓬勃发展,这进一步促进了它在更多的软件开发者中的流行和使用。
在 Python 被广泛用于处理所有类型的数据的背后,毫无疑问有这样的因素:它恰好是那个地点那个时间最合适的那门语言。尽管如此,创建如今这么多的数据处理代码库,对于全球范围内的大量工程师和科学家来说,也是一项相当艰巨的工作。
通用 Python 数据相关的资源
PyData 是一个 Python 数据工具的开发者和用户社区。他们在世界各地开展精彩的会议,并资助开源的数据相关的库进行持续开发。
Continuum Analytics 是著名的 Python 公司之一,它将大量的时间和金钱投入到了数据领域。
针对科学家的 Python 速成课程 使用 iPython Notebook 为科学领域的人们提供了 Python 语言的概要阐述。
Travis Oliphant 在他的两个视频 Python 在大数据分析中的角色:过去、现在和将来 及 创建 PyData 社区中,根据他作为该社区的领导者和成员的亲身体验,以历史的角度讲述了 Python 数据工具在过去的 20 年中是如何演化的。