博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Doc2Vec,Word2Vec文本相似度 初体验。
阅读量:6200 次
发布时间:2019-06-21

本文共 1189 字,大约阅读时间需要 3 分钟。

参考资料 :

接上篇 :

import jiebaall_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)print(all_list)every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))import tracebackdef filtered_punctuations(token_list):    try:        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',                        '/','\xa0','。',';','、']        token_list_without_punctuations = [word for word in token_list                                                         if word not in punctuations]        #print "[INFO]: filtered_punctuations is finished!"        return token_list_without_punctuations    except Exception as e:        print (traceback.print_exc())from gensim.models import Doc2Vec,Word2Vecimport gensimdef list_crea(everyone):    list_word = []    for k in everyone:        fenci= filtered_punctuations(k)        list_word.append(fenci)    return list_wordaa_word = list_crea(every_one)print(type(aa_word))  #aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面say_vector = model['java']  # get vector for wordmodel.similarity('计算', '计算机')

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121673

你可能感兴趣的文章
VS2008 工具箱都是textbox(报表设计时)
查看>>
POJ 1276 Cash Machine(多重背包)
查看>>
Mono 学习之旅一
查看>>
iframe框架之间js方法相互调用及数据传递
查看>>
[C] zintrin.h: 智能引入intrinsic函数 V1.02版。支持VC2012,增加INTRIN_ALIGN、INTRIN_COMPILER_NAME宏...
查看>>
PLsql 从数据库中读取数据的小例子
查看>>
ARM gcc 内嵌汇编
查看>>
Inno Setup
查看>>
Linux Deepin 新增北理工等3处新镜像服务
查看>>
分享:gzip头部格式
查看>>
Java实现最简单的拖拽代码示例
查看>>
mysql 查看表的类型
查看>>
仿百度下拉框--ajax
查看>>
CentOS 6.3安装(详细图解教程)
查看>>
session创建问题
查看>>
人大金仓 国产数据库第一品牌
查看>>
环境变量问题
查看>>
C++操作MySQL,有用的朋友顶下,辛苦的原创啊. - 天下 - C++博客
查看>>
《Two Dozen Short Lessons in Haskell》学习(十七) - Modules as Libraries
查看>>
解决Oracle错误ORA-15061一例
查看>>