如何通过编程实现判断一篇文章来源于网络?
本帖最后由 swKingo 于 2022-7-24 11:01 编辑近期单位开展了一次征稿,但是要防止网络抄袭,特别是通过百度搜索后抄袭网络文章。有什么好的办法或者思路能够编程实现自动检验?我的思路是对稿件文字按字数(比如一次50个字)进行分别百度搜索,再截取搜索结果首页的红色匹配文字的连续字数,超过阈值10个的视为抄袭可疑,再对该网络文章和稿件进行全文匹配,看看有什么办法得到近似度再确定抄袭。不知道各位大侠还有什么好的思路。
楼下有好多人回复使用论文查重的办法进行检查,但是这个办法可行性可能有点片面,第一个我们这次征稿的规格比不上论文,学术性非常低;第二是查重的接口未知,可能有收费或者次数限制的问题;第三是查重的服务方收录的内容主要是正式文章还不如百度的接地气,内容具有片面性,稿件内容有可能无法在论文查重的背景下被发现抄袭问题。 接入知网万方维普查重 不是很多的话去找几个大学生或者准大学生,成本低多了 按论文查重就好了 建议先把所有收到的稿件相互比对,判断两个稿件中是否有一段几乎一样
然后再按照你的方法进行判断 论文查重是不是就是这样子的句句对比文库 论文查重 先在收到的投稿中进行查重是个不错的方法,然后再按照你说的办法应该可以提升一点效率 确实可以试试论文查重 论文查重貌似是句查
页:
[1]