tfidf模型构建文章查重系统
引子想象一个场景:现在有近九万条新闻(如下图所示),其中一部分新闻来自于新华社,还有一部分新闻来自其他媒体,如何判断其他媒体是不是抄袭了新华社的新闻呢?
其中关键在于衡量文章的特征,以及两篇文章特征的相似关系,而在文本数据中常见的特征就是关键词。因此我们可以采取以下办法
分词:按照一定规则进行提
...
踩坑记--win10安装ubuntu虚拟机
发表于
|
分类于
踩坑
[TOC]
下载VMware虚拟机下载时选择”免费产品试用版和演示板块”的”Workstation Pro”,安装好后再进行激活。
安装时全部默认”下一步”,最后一步输入产品密钥(请自行百度),输入完成激活。
下载Ubuntu官网下载速度可能比较慢,推荐阿里开源镜像源
在VMware中安装Ubunt
...
CNN对CIFAR10图像分类
发表于
|
分类于
深度学习
CNN概念卷积:探测上一层特征的局部连接,即使得原信号特征加强,并降低噪音。
卷积核:可以看成是一个权值矩阵窗口,它会在二维输入数据上”滑动”,对当前输入元素做点积运算。
特征图:卷积操作后的图像就是特征图。
多通道卷积:每个卷积核都是一种特征提取方式,因此可以对每个通道添加一个卷积核以提取该通道
...