一种充分利用现有资源的开放性作业查重系统设计
2017年5月20日 08:43 作者:lunwwcom【关键词】开放作业 查重 现有资源 低成本
1 引言
随着时代的变化,教育观念的进步,对
教学效果的评价方式也日趋多样。开放性作业
以其生活化、实践性等特点,能够激发学生的
自发创造力,提高学生教学参与,成为广大高
校教师的新选择。
开放性作业实施过程当中存在以下问题:
(1)作业大部分依然以纸质形式存在,
不易于长期存档和查询。
(2)作业完成存在许多相互抄袭的行为。
给老师的评分的公平性带来了很大的挑战。大
部分学校现在都购买了论文查重或科技查新服
务,却鲜有学校能够进行开放作业的查重。
为解决以上问题,我们提出了一种充分
利用现有资源进行开放性作业查重的系统设计
方案。该方案充分利用现有资源,能够大幅降
低系统成本,在教师教学经费并不充裕的情况
下能够大范围的推广。
2 总体方案
文/岳亚伟
利用现有博客空间资源进行
作业提交,使用开源框架进行开
放作业收集,利用文本重复算法
进行作业重合度计算。该系统充
分利用现有资源,大幅降低系统
成本,易于部署实现。
摘 要
系统流程按照先后次序分为开放作业提
交、开放作业收集、开放作业查重三个步骤。
2.1 开放作业提交方案
传统考试系统提交一般是自己开发web
界面,将学生的前台数据获取并存入后台数
据库。该方案需要开发前台Web 界面,后台
数据库设计,需要购买服务器并且很难保证数
据的安全。为了最大限度的降低系统成本,我
们要求每个授课教师注册一个博客帐户,每个
上课的学生注册一个博客帐户并关注该授课教
师。学生在博客系统中进行作业的编辑、录入,
并以博文的形式发布作业,博文标题需要是老
师给的作业标题。
2.2 开放作业收集方案
该步骤完成开放作业的收集存档工作。
初始化爬虫爬取页面为授课教师博客页面。获
得关注该授课教师的所有学生粉丝的列表。对
该列表进行遍历获得每个学生的博客ID,并
进行网址补全,得到每个学生博客页面的地址。
爬取每个学生所有的博文,获得博文标题、博
文作者、博文内容、博文发表时间等信息。将
这些信息一方面以Word 形式存到教师PC 机
上进行存档,另一方面存放到教师PC 机上的
MYSQL 数据库中以供查询。
2.3 开放作业查重方案
该步骤完成开放作业的查重工作。该步骤
采用的主要算法是google 公司提出的simhash
算法。通过分词算法将文本表示成向量形式,
通过simhash 算法将其转换为二进制的文本指
纹表示,最后计算两段文本指纹之间的海明距
离,得到作业之间的重合程度。该步骤中使用
IKAnalyzer 工具包进行中文文本的分词,得到
一个重复率得分矩阵。
试运行结果如图1。
可以看出作业1 和作业2 应该有抄袭嫌
疑,只是更改了语句顺序,作业3 则没有抄袭
作业1、作业2。作业1、作业2、作业3 的
hash 码值及各个作业之间的海明距离如图2 所
示。
3 结论
提出了一种新充分利用现有资源的开放
性作业查重系统设计方案。利用现有的博客系
统进行作业的提交,通过爬虫将开放性作业自
动收集,通过simhash 算法得到开放性作业的
重复率得分。系统设计中最小化硬件及软件开
发方面的投入,避免了安全方面的投入,部署
较为简单,适合大范围推广。
参考文献
[1] 董博, 郑庆华, 宋凯磊, 田锋, 马瑞. 基
于多SimHash 指纹的近似文本检测[J].
小型微型计算机系统,2011,11:2152-
2157.
[2] 卢小康, 王小华, 王荣波. 一种句子级别
的中文文本复制检测方法[J]. 杭州电子
科技大学学报,2009,06:45-48.
[3] 温慧明, 宫晓辉. 基于Solr 的科技成果
查新系统的构建研究[J]. 计算机技术与
发展,2014,06:67-70.
[4] 李俊丽. 基于Linux 的python 多线程
爬虫程序设计[J]. 计算机与数字工
程,2015,05:861-863.
[5] 潘磊宁. 基于Lucene 的商品垂直搜索引
擎研究与实现[D]. 东华大学,2015.
作者简介
岳亚伟(1988-),男,山东省菏泽市人。硕
士学位。主要研究方向为嵌入式软件开发。
作者单位
山西农业大学 山西省太谷县 030801
●项目基金:山西农业大学青年创新基金:农业图像智能分类综合应用研究, 项目编号20142-08。
图1
图2