size顿时是什么词性的词词

红酒 | 林黛玉 | 动画制作 | 桌面游戏 | 奥运会 | 休闲游戏 | Unity（游戏引擎） | 英文歌曲 | 梦幻西游电脑版 | 六爻 | 面相 | 书籍改编电影 | 名侦探柯南 | 脱发 | 智力游戏 | 西游记 | 三国志（游戏） | Android | 足球欧洲杯 | 赛尔号 | 央视 | Xbox One | 办公室 | 黑龙江省 | 钢铁雄心4 | 魔兽争霸3混乱之治 | 郭德纲 | 邓超（演员） | 翡翠 | 显卡 | 供暖 | DotA | 盗墓笔记（小说） | 百度云 | 海贼王 | 德州扑克 | 游戏策划 | 街机 | 三国人物 | 跆拳道 | 肖战 | 街头篮球 | 校服 | 电视节目 | 九龙 | 模拟人生4 | 罗兰 | 中国象棋 | Overlord（动画） | 配音 | 二次元 | 意大利 | 日本文化 | 部落冲突（游戏） | 移民 | 法国 | 热血传奇（游戏） | 侠盗猎车手：圣安地列斯 | 概率论 | 赛车 | 艺考 | 卡通 | 造梦西游 | 角色扮演 | 投资 | 演技 | QQ炫舞 | 欧洲冠军联赛 | 齐内丁·齐达内 | 竞技游戏 | 拳皇 | 环境保护 | 摄影技巧 | 微电影 | 古墓丽影（游戏） | 科幻小说 | EXO | NBA篮球 | 任天堂 | 太原市 | 鲜奶 | 韩国 | 电视 | 民国 | 动物 | 网页游戏 | 建筑 | 暗黑破坏神3（游戏） | 三国 | 后宫·甄嬛传（书籍） | 英国 | 插件 | 名言 | 恐怖黎明 | 微整形 | 钢笔 | 电吉他 | 眼袋 | 舰队 Collection | 猫和老鼠 | 莎车县 | 王力宏（人物） | 街机游戏 | Galgame | 白酒 | 羽生结弦 | 海淘 | 魔兽争霸3冰封王座 | 烘焙 | 纸尿裤 | 服装面料 | 掌上游戏机 | 国际足联世界杯 | 跑步 | 美剧推荐 | 运动 | 算法 | 摩羯座 | 羽毛球技术 | 铜仁市 | 张璐 | 麦克风 | 中国足球 | 几何学 | 诸葛亮 | 机器人 | 株洲 | 星座爱情 | 骊威 | 头发护理 | 曹操 | 英雄传说：闪之轨迹（游戏） | 汽车设计 | iOS应用 | 饮料 | 澳门特别行政区 | iOS游戏 | 离婚 | 设计师 | 模拟人生3 | 中医学 | 陈奕迅 | 天下2（游戏） | 男性 | 娱乐圈 | 古典音乐 | 游戏开发 | 杨凡 | 洛奇英雄传 | 文身 | 大富翁（游戏） | 神话 | 生活 | 美发 | 美的 | 冰箱 | 前女友 | 服务器 | 日语歌曲 | 郭富城 | ps4 | 姓氏 | 动画电影 | 孕妇 | 战神（游戏） | 泾川县 | 护发 | 易烊千玺 | 流星花园 | 体育赛事 | 摇滚乐 | 双眼皮 | 命令与征服：红色警戒2（游戏） | 徐佳莹 | 公共交通 | 外星人 | 华语流行音乐 | 螃蟹 | 高一 | 内黄县 | 滦州市 | 游戏手柄 | 旅行 | 云计算 | 飞机 | 王俊凯 | 英格兰足球超级联赛 | 炉石传说 | 欧阳娜娜 | 京剧 | 购机咨询 | 电脑配置 | 多肉植物 | 联赛 | 处女座 | 俄罗斯 | 事故 | 赵丽颖（演员） | 美国 | 胡歌（演员） |

你的位置：网站首页 >> 频道首页 >>语言 >>size顿时是什么词性的词词

size顿时是什么词性的词词

来源：蜘蛛抓取(WebSpider) 时间：2020-01-29 09:18 标签：顿时是什么词性的词

实现对语料库文件的加载并且对其进行分词filename指定语料库文件，而分词使用jieba来实现最后返回一个包含语料库所有词的list。

这里我们是要建立一个大小为50000的词汇vocabulary昰从语料集中获取的所有单词，统计vocabulary每个单词出现的次数而且是取出现频率最多的前49999个词，count词典方便后面查询某个单词对应出现的次数接着我们建立dictionary词典，它是单词与索引的词典方便后面查询某个单词对应的索引位置。接着我们将vocabulary所有单词转换成索引的形式保存到data中凡是不在频率最高的49999个词当中的我们都当成是unknown词汇并且将其索引置为0，此过程顺便统计vocabulary包含了多少个unknown的词汇另外还要建立一个反向索引词典reversed_dictionary，可以通过位置索引得到单词

提供一个生成训练批数据的函数，batch_size是我们一次取得一批样本的数量num_skip则可以看成是我们偠去某个词窗口内的词的数量，比如前面我们说到的窗口大小为2则某个词附近一共有4个词最终最多可以组成4个训练样本，但如果你只需偠组成2个样本的话则通过num_skip来设置skip_window则用于设定窗口的大小。取样本时是在整个vocabulary通过滑动窗口进行的得到的batch和labels都是单词对应的词典索引，這对后面运算提供了方便

train_inputs是一个[batch_size]形状的输入占位符，它表示一批输入数据的索引train_labels是一个[batch_size, 1]形状的正确的分类标签，它表示一批输叺对应的正确的分类标签

embeddings变量用来表示词典中所有单词的128维词向量，这些向量是会在训练过程中不断被更新的它是一个[vocabulary_size, embedding_size]形状的矩阵，這里其实是[]因为我们设定词汇一共有50000个单词，且它的元素的值都在-1到1之间

接着使用NCE作为损失函数，根据词汇量数量vocabulary_size以及词向量维度embedding_size构建损失函数即可NCE是负采样损失函数，也可以试试用其他的损失函数nce_weights和nce_biases是NCE过程的权重和偏置，取平均后用梯度下降法优化损失函数

最後对embeddings进行标准化，得到标准的词向量再计算所有词向量与我们选来校验的词的相似性（距离）。

创建会话开始训练设置需要訓练多少轮，由num_steps指定然后通过generate_batch获取到一批输入及对应标签，指定优化器对象和损失函数对象开始训练每训练2000轮输出看下具体损失，每10000輪则使用校验数据看看他们最近距离的8个是什么词

选取300个词汇并使用TSNE对其进行降维然后画图。

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了有需要的朋友可以购买。感谢各位朋友

size顿时是什么词性的词词

我要回帖

更多关于顿时是什么词性的词的文章

随机推荐

size顿时是什么词性的词词

我要回帖

更多关于 顿时是什么词性的词 的文章

随机推荐

更多关于顿时是什么词性的词的文章