两篇word文档比较相似度
其实问题提出是源于计算机学院实验室的实验报告比对,由于很多同学在写实验报告的时候经常有抄袭现象,所以受老师委托想研究一下这个东西。但是在网上查找的时候,要么是使用word自带工具要么是使用一些现成的软件。
问题:
1.实验报告中文字不一定完全相同,或者说不可能完全相同,就算是复制粘贴的文档学生也会把学号姓名改掉
2.其实有时候学生改的不仅仅是学号姓名,有可能删掉某一段、某一句、或某个词
3.只比对文字,对于word文档中出现的图片之类,无视
我个人想法:首先这个东西判断是不是抄袭应该有个标准,就是相似度,我个人想是不是先通过中文分词,将其中的重要词汇提取,然后判断一下在这两篇文档中所占的比例,有点和搜索引擎中的中文分词,词频统计有关。
希望大家多多指教,给出个可行方案或其他解决办法
[解决办法]
Total Commander 的比较功能可以比较Word文档。
[解决办法]
按字节比较吧