2. 端到端的机器学习项目 - 2.1 使用真实数据 - 《大数据》

学习机器学习最好使用真实数据进行实验，而不仅仅是人工数据集。以下是一些可以获得数据的地方。

流行的开放数据存储库：
- UC Irvine Machine Learning Repository(http://archive.ics.uci.edu/ml/)
- Kaggle datasets (https://www.kaggle.com/datasets)
- Amazon’s AWS datasets (http://aws.amazon.com/fr/datasets/)
元门户站点（它们会列出开放的数据存储库）：
- Data Portals (http://dataportals.org/)
- OpenDataMonitor (http://opendatamonitor.eu/)
- Quandl (http://quandl.com/)
其他一些流行的开放数据存储库页面：
- Wikipedia’s list of Machine Learning datasets (https://goo.gl/SJHN2k)
- Quora.com (http://goo.gl/zDR78y)
- The datasets subreddit (https://www.reddit.com/r/datasets)

本章的学习选择的是StatLib库中加州住房价格的数据集。该数据集基于1990年加州人口普查的数据。虽然是个比较旧的数据，但是有很多可以学习的特质，为了学习的目的，增加了一个分类属性，并且移除了一些特征。