使用gensim框架和随机文本训练Word2Vector模型

当前位置:

首页 > temp > python入门教程 >

使用gensim框架和随机文本训练Word2Vector模型

1.gensim的安装#

可以使用如下命令安装gensim

Copy

conda install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim==3.8.2

2.生成分词列表#

这一步已经有生成好的分词列表可以忽略项目列表：

点击查看代码

3.模型训练以及保存和测试#

Copy

import gensim from gensim.models import Word2Vec, word2vec # 加载语料库 #sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]] # 训练模型 words_file='data.txt' #words_file是词语文件的名称，其中包含一行一个词语的文本。 #word2vec.LineSentence是gensim库中的语料生成器，它可以将一个文件转换为词语列表。 sentences = list(word2vec.LineSentence(words_file)) # 加载分词后的文件 #sentences是训练语料库，是一个列表，每一个元素是一个词列表，表示一个句子 #size参数指定词向量的维数。 #window参数指定在一个句子中，一个词的上下文词的数量 #min_count参数指定在训练模型时，词频低于指定数量的词将被忽略 #workers参数指定训练模型时使用的工作线程数 model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 保存模型 model.save("word2vec.model") # 加载模型 model = gensim.models.Word2Vec.load("word2vec.model") # 测试五组词的相似度 test_words = ["数据", "领域", "规模", "融合", "模型"] for word in test_words: similar_words = model.wv.most_similar(word) print("Word:", word) print("Similar words:", similar_words)

运行结果图

栏目列表