随着信息技术在高校的普及,高校的硬件设备和应用系统汇集了越来越多的数据,如何从这些海量的数据中获取有价值的信息,以便各层决策者更快速、更科学、更准确地做出决策,成为高校信息化建设者们必须思考的问题。

高校软硬件系统沉淀的数据主要包括:有线和无线网登录日志、各业务系统和网站登录日志、防火墙及各类设备登录日志、用户访问日志、校园卡消费及刷卡数据、借还书数据、门禁刷卡数据,此外还包括各类信息管理系统数据,如教师和学生基本信息、科研成果数据、学生选课和课程成绩数据、学科建设数据等,这些数据统称为"校园数据"。

我国有些高校已经认识到"校园数据"中蕴含的价值,进行了一些校园数据的分析工作,并取得了一些成果。在国外,目前美国的哈佛大学、西北大学等学校有少量的此类研究,由于欧洲和北美洲有严格的个人隐私保护法,因此,国外的研究主要聚焦在课程资源管理平台和课程管理系统的登录数据分析上,尚未看到公开发表的涉及师生个人隐私数据的分析文献和案例。

国内外高校数据分析现状

目前,高校数据分析中,利用校园"一卡通"数据进行决策支持分析的成果最多。如樊搏(2015)、费小丹(2015)等从一卡通消费记录判断学生是否为贫困生;陈锋(2014)利用校园一卡通用户就餐消费行为数据,分析学生消费行为和食堂运营状况;薛黎明等(2014)也从时间、消费场所、用户性别等不同的维度分析校园一卡通消费数据辅助学校有关部门决策。

有关Web挖掘和门禁刷卡记录的研究主要集中于高校数字化图书馆的相关研究当中。其中,大量对高校Web挖掘的研究集中于通过Web挖掘为读者提供个性化知识服务(欧阳烽,2008)(张沛露,2010)(赵静,2013)(程思祥,2013);而对图书馆刷卡记录的研究则主要集中于刷卡数据与学生学习行为、模式及学习成绩之间的关联分析(滕清秀,2007)(吴志强,2012)(周琳,2015)。

近些年来,随着在线教学的兴起,出现了一些对在线学习数据的挖掘和分析类的研究。Tonetti和Natale(2015)、Enright和Refinetti(2017)、Benjamin Smarr和Aaron Schirmer(2018)等利用学生登录教学资源管理平台的数据和学生成绩数据,分析学生的学习习惯、作息规律与学业成就之间的关系。

中国也有学者对在线教育平台数据进行研究,如张羽(2013)、许楠(2015)、王萍(2015)等通过分析Moodle、edX、MOOCs等平台的用户学习数据,发掘学习者的行为特征;张进良(2014)从在线学习数据分析角度研究教师的发展问题;孙曙辉(2015)从学习数据分析角度研究智慧课堂组织问题。

目前,虽然对高校数据的研究看似不少,但都是基于简单数据、简单模型和简单工具的浅层次分析,真正有价值、有实际意义的研究极少。比如,校园网各类硬件的登录日志分析,与教学过程及效果有关的综合数据分析等具有重要研究和决策参考价值的研究基本为空白。投入实际应用的研究成果少,且重合度高,应用价值低。总之,目前对于校园数据分析的研究还处于起步阶段。

高校数据分析主要场景

高校管理信息化的三条主线是教学、科研和管理,而支持这三条信息化主线的是校园网络关键基础设施。因此,高校数据分析的主要应用场景有四种类型:校园网络数据分析、教学数据分析、科研数据分析以及面向校级宏观决策的综合数据分析。

01 校园网络数据分析

现代校园网络是一个包括终端设备(无线AP、POS机、门禁等)、汇聚交换机、AC控制器、核心交换机、负载均衡设备、流量控制设备、计费系统、防火墙、堡垒机、服务器、存储等诸多设备的复杂系统,这些设备记录着海量的登录和访问日志,对这些数据的分析和挖掘能够为很多业务部门提供有价值的信息。

02 教学数据分析

校园数据分析对于提升教师能力也有重要的意义。以前的教学主要依靠教师的个人经验和感觉,教师教学能力的学习曲线比较平缓,在教师教学能力提升过程中,教学质量难以得到保证。如果能够对教学资源管理平台中的学生学习数据进行分析,教师就可以得知学生的兴趣点和难点,从而帮助教师有的放矢地把握教学重点和教学难点,提升教学效果。通过对不同老师教学方法和教学效果的横向对比,也可以帮助老师吸取别人的优点,提高教学能力。同时,教学数据也可以为教学管理者提供全面、科学的教师评价依据,而目前,教学管理者对教师的评判只能依据单一的学生评教数据,而学生评教受师生情感、考试分数、学生个人兴趣等诸多因素的影响,主观且不全面,饱受教师们诟病。

03 科研数据分析

科研水平是衡量现代大学办学质量的重要指标之一。目前的科研数据分析仅是对课题级别(国家级、省部级、厅局级等)、课题类型、资助金额、科研成果质量(发表在何种刊物上)等简单的静态分析,缺乏对科研过程的动态管理和对提高科研质量的决策支持分析。科研管理效率低下、科研质量难以科学评定是长期困扰我国高校科研管理的主要问题。

将科研成果数据、科研项目数据和教师有关信息进行综合分析,可以获得高"投入--产出比"的科研项目及其负责人和团队成员,为将来的项目评审提供参考;对科研数据进行动态分析,可以发现"高成长"的科研人员和科研部门,予以重点关注;对全校科研成果进行聚类分析,可以发现潜在的科研团队和可以进行研究的跨学科课题。

同时,也可以通过对科研项目数据的挖掘和分析,为项目过程管理提供帮助,比如,可以通过邮件和短信,对项目进度进行提醒,对将要超时的项目进行预警;利用公开科研数据库的有关数据,可以为项目团队成员提供同类研究课题的进展情况报告,以便本校科研人员了解行业最新进展情况。

04 面向校级宏观决策的数据分析

作为一个运营单位,高校也有"投入"和"产出",通过对"投入"和"产出"的对比分析,可以评价学校教学、科研和管理的效率;通过对过程数据的分析,可以找出学校管理的盲点和弱点,有针对性地进行改进。

对高校招生数据、学生在校表现数据和校友会数据进行深度分析和挖掘,可以发现哪些地区、学校的学生质量更高,也可以发现保送生和参加考试的学生哪个群体更有潜力,还可以发现学生在大学期间的学习成绩、社会活动等方面的表现与学生将来职业发展之间的相关关系。这些分析不仅可以发现问题,还可以为学校在将来做更优的招生和教学管理决策提供辅助和支持。

对学科、学院、系所等教学和科研单位的数据分析和挖掘,可以发现哪些学科有更高的边际产出;哪些学科的投入周期比较长,从而需要持续投入;哪些学科的学缘结构不合理,需要调整;哪些学科的交叉性很强,需要学校创造交叉的条件;引进人才和自有人才谁的"性价比"更高;各学科和各单位投入和产出对比等等有价值的信息。

如果能够结合其他同类高校和同类专业的数据进行分析,还可以更加详细地了解其他学校和专业与本校及本校的同类专业之间在人才结构、教学设置、科研项目和科研成果等方面存在的差异,为有针对性的改进提供准确的参考数据,对于建设一流大学和一流学科具有重要意义。

目前可用的主流分析工具

在我国教育软件市场,做数据分析的公司基本分为两类:一是自己开发软件,二是在开源软件基础上提供二次开发和运维服务。

高校的数据属于各个不同的业务部门,单做一个部门的数据分析往往没有实际意义,因此,高校数据分析,离不开数据的聚合和交换,而数据的交换,往往又离不开数据交换工具和统一的数据格式规范。

01 产品工具

目前,我国教育软件市场,做数据分析平台的主要厂家及产品有东软、普元、树维、金智、苏迪、易普拉格、三盟等。

东软利用Oracle Business Intelligence等工具,进行信息分析的聚合,在底层数据整合的基础上,提供统一的服务界面;普元是国内较为资深的中间件厂商,普元的底层数据交换提供了较为强大的数据交换、数据整合和大数据分析功能;树维依靠在高校一卡通和教务管理市场积累的技术和数据,采用普元的底层数据交换工具,现在也在开发高校数据分析工具;金智是国内教育软件市场资格较老的软件公司,从2015年初开始开发面向高校的工作流引擎和数据分析平台;苏迪从2015年开始涉足高校数据分析,基于普元的底层数据交换平台和工作流引擎,开发数据分析工具;易普拉格依靠在高校科研管理市场积累的经验,以科研数据为主线,也在开发校园数据分析平台;三盟近两年在校园大数据分析领域也进行了很大的投入。

此外,还有一些国际厂商开发的成熟的数据分析工具,如Oracle Business Intelligence(OBI)、Oracle Data Mining(ODM)、SAP HANA、Mathworks等,但它们的目标市场并不在高校;也有一些优秀的单机数据分析软件,如SPSS、SAS等,但它们不能提供数据聚合和在线分析功能;也有一些小厂商提供数据分析和报表生成工具,但功能有限,成功案例少。

02 开源工具

自上世纪90年代后期以来,"开源运动"在世界范围内兴起,并逐步发展成一股潮流,近30年的时间里,一些软件精英贡献了大量的开源软件,其中不乏优秀之作。比如,在数据分析领域,就有多达几十款的与数据分析有关的软件工具。由于开源平台越来越完善,开源工作者的分工很细,开源工具的分类也很细,就数据分析与挖掘来说,主要有数据存储、开发平台、开发工具和集成、分析和报告工具等四种类型的开源工具。

  • 数据存储

    主要包括Apache Hadoop、MySQL、众多NoSql数据库等。

  • 开发平台

    主要包括Apache Hadoop平台、Storm等。

  • 开发工具和集成

    主要包括Python和R语言等。

  • 分析和报告工具

    主要包括Jaspersoft、Pentaho、ELK、Talend等。

目前,在高校市场,仅Hadoop、MySQL、ELK有一些实际的应用,但案例很少,数据分析的规模也很小。其它软件尚未见到有文字描述的成功应用。

虽然大家对校园数据分析抱有很高的期望和美好的憧憬,但是,由于数据不全、数据量不足、数据整合困难、成功案例太少、资金缺乏等历史和现实原因,当前,高校的校园数据分析尚属于萌芽、起步阶段,只有很少的一些学校做了有限的尝试,还有一些学校处于酝酿、需求调研和立项阶段。虽然市场上有一些成熟的工具可供使用,也有一些成功路径可供参考,还有一些有项目经验的公司可以提供技术协助,但是,由于数据分析有很强的领域性,只有本领域的人才能深刻理解数据之间的逻辑关系和数据挖掘结果的内在含义。因此,如果想让高校数据分析工作发挥最大效能,必须依靠学校自身来主导数据采集、数学建模、分析和结果解读等工作。

赵衍,作者单位为上海外国语大学信息技术中心)

来源:《中国教育网络》2019年5月刊

声明:本文来自中国教育网络,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。