1. sklearn特征抽取

1.1 安装sklearn

pip install Scikit-learn -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

没有报错，导入命令查看是否可用：

注：安装scikit-learn需要Numpy,pandas等库。

例子：

# 特征抽取
# 导入包
from sklearn.feature_extraction.text import CountVectorizer
# 实例化CountVectorizer
vector = CountVectorizer()
# 调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
# 打印结果
print(vector.get_feature_names())
print(res.toarray())

运行结果：

通过例子我们可以得出结论，特征抽取对文本等数据进行特征值化。

作用：对字典数据进行特征值化。

类：sklearn.feature_extraction.DictVectorizer

DictVectorizer语法：

DictVectorizer(sparse=True,…)

from sklearn.feature_extraction import DictVectorizer
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化
dict = DictVectorizer()
# 调用fit_transform
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data)
return None
if __name__ == "__main__":
dictvec()

运行结果：

修改属性，让数据更直观。

from sklearn.feature_extraction import DictVectorizer
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化
dict = DictVectorizer(sparse=False)
# 调用fit_transform
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data)
return None
if __name__ == "__main__":
dictvec()