我们下载的数据会以arff文件的格式(.arff type files are used for weka)进行保存, 这个时候如果要进行模型的训练,我们还是希望可以转换为numpy的格式。此时 scipy.io.arff.loadarff就可以用来完成对arff文件的读取,这里主要还是记录一下loadarff的使用, 方便以后遇到arff文件的时候知道应该如何进行处理。
参考资料
- Loading .arff type files in python
- SciPy官方说明: scipy.io.arff.loadarff
Python读取arff文件简单例子
下面看一个读取的简单例子.
- from scipy.io import arff
- import pandas as pd
接着使用arff.loadarff来进行文件的读取, 此时会有两部分内容返回:
- data. The data of the arff file, accessible by attribute names.
- meta Contains information about the arff file such as name and type of attributes, the relation (name of the dataset), etc.
- data, meta = arff.loadarff(‘TimeBasedFeatures-Dataset-15s.arff’)
我们需要的数据在data中, 此时已经是array的格式. 为了显示的方便, 我们还是可以将其转换为dataframe的格式.
- df = pd.DataFrame(data)
- data.head()