学习机器学习最好使用真实数据进行实验,而不仅仅是人工数据集。以下是一些可以获得数据的地方。
- 流行的开放数据存储库:
- UC Irvine Machine Learning Repository(http://archive.ics.uci.edu/ml/)
- Kaggle datasets (https://www.kaggle.com/datasets)
- Amazon’s AWS datasets (http://aws.amazon.com/fr/datasets/)
- 元门户站点 (它们会列出开放的数据存储库):
- Data Portals (http://dataportals.org/)
- OpenDataMonitor (http://opendatamonitor.eu/)
- Quandl (http://quandl.com/)
- 其他一些流行的开放数据存储库页面:
- Wikipedia’s list of Machine Learning datasets (https://goo.gl/SJHN2k)
- Quora.com (http://goo.gl/zDR78y)
- The datasets subreddit (https://www.reddit.com/r/datasets)
本章的学习选择的是StatLib库中加州住房价格的数据集。该数据集基于1990年加州人口普查的数据。虽然是个比较旧的数据,但是有很多可以学习的特质,为了学习的目的,增加了一个分类属性,并且移除了一些特征。
