VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > temp > python入门教程 >
  • 使用gensim框架和随机文本训练Word2Vector模型

1.gensim的安装#

可以使用如下命令安装gensim


Copy
conda install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim==3.8.2

2.生成分词列表#

这一步已经有生成好的分词列表可以忽略 项目列表:

点击查看代码

3.模型训练以及保存和测试#


Copy
import gensim from gensim.models import Word2Vec, word2vec # 加载语料库 #sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]] # 训练模型 words_file='data.txt' #words_file是词语文件的名称,其中包含一行一个词语的文本。 #word2vec.LineSentence是gensim库中的语料生成器,它可以将一个文件转换为词语列表。 sentences = list(word2vec.LineSentence(words_file)) # 加载分词后的文件 #sentences是训练语料库,是一个列表,每一个元素是一个词列表,表示一个句子 #size参数指定词向量的维数。 #window参数指定在一个句子中,一个词的上下文词的数量 #min_count参数指定在训练模型时,词频低于指定数量的词将被忽略 #workers参数指定训练模型时使用的工作线程数 model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 保存模型 model.save("word2vec.model") # 加载模型 model = gensim.models.Word2Vec.load("word2vec.model") # 测试五组词的相似度 test_words = ["数据", "领域", "规模", "融合", "模型"] for word in test_words: similar_words = model.wv.most_similar(word) print("Word:", word) print("Similar words:", similar_words)

运行结果图

 


相关教程