Word2Vec模子——将文本转换成向量的方法

显示全部楼层 · 2023-8-23 11:40:11

在美赛的时间，用了一下这个模子，发一下。
        Word2Vec是一种用于将文本转换为向量表示的技术。它是Google在2013年开辟的一种工具，紧张用于将单词转换为向量表示，并在向量空间中找到单词之间的语义关系。Word2Vec模子有两种架构：连续词袋模子（Continuous Bag-of-Words，简称CBOW）和跳跃式模子（Skip-Gram）。
        在CBOW模子中，模子试图从上下文中推断出当前单词，而在Skip-Gram模子中，模子试图从当前单词中推断出上下文单词。Word2Vec的目标是学习到一个向量空间，使得在这个向量空间中，语义上相似的单词在空间上也比较靠近。详细地说，Word2Vec将单词表示为高维向量，这些向量被计划为捕获到单词在上下文中出现的概率分布。这些向量被练习出来后，可以用于各种自然语言处置惩罚使命，如文本分类、语言翻译和感情分析等。
        在一样平常环境下，Skip-gram算法对于练习较小的语料库大概低频单词表现较好，而CBOW算法对于练习较大的语料库大概高频单词表现较好。
话不多说，直接上代码。

import pandas as pd
from gensim.models import Word2Vec
# 读入数据
# 读取训练文本
with open('output.txt', 'r', encoding='utf-8') as f:
sentences = [line.strip().split() for line in f]
# 训练Word2Vec模型
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4, sg=1)
model.save('word2vec.model')
# 读取另一个文件，提取单词的特征向量并保存到vector.csv
df = pd.read_csv('word.csv',encoding="gbk")
word_list = df['Word'].tolist()
vectors = []
for word in word_list:
if word in model.wv:
vectors.append(model.wv[word])
else:
vectors.append([0] * 100) # 如果单词不在词汇表中，填充为0向量
vectors_df = pd.DataFrame(vectors)
vectors_df.to_csv('2.csv', index=False, header=None)

复制代码

然后我解释一下每一步都是干什么的。

with open('output.txt', 'r', encoding='utf-8') as f:
sentences = [line.strip().split() for line in f]

复制代码

打开名为 "output.txt" 的文件并读取其中的文本，将其转化为一个嵌套列表的情势，每个列表表示文本中的一句话，每个句子中的单词被拆分成单独的元素。

model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4, sg=1)
model.save('word2vec.model')

复制代码

利用 Word2Vec 对句子举行练习。其中，vector_size 表示特性向量的维度，window 表示在每个单词周围的最大隔断，min_count 表示单词的最小出现次数，workers 表示并行练习的线程数，sg 表示利用的算法范例（sg=1表示利用Skip-gram算法举行练习，而sg=0表示利用CBOW算法举行练习）。末了将练习好的模子生存在名为 "word2vec.model" 的文件中。