本文由《现代远程教育研究》杂志授权发布
作者:顾小清、郑隆威、简菁
摘要
教育大数据为教育信息化的发展带来了新的机遇,而对教育大数据应用的实现首先依赖于对来源广泛的教育数据的获取。在这些有待获取的海量的教育数据中,学习经历数据作为一种承载着学习者在学习过程中的学习行为、学习活动、学习进程和与之交互的学习环境等教育信息的数据,蕴含着丰富的学习分析价值。随着相关学习技术的迅速发展,学习经历的跟踪在技术层面已经得以实现,但学习经历的复杂性、多样性和数据劣构性等特点阻碍了对其广泛的应用。由美国“高级分布式学习”组织发布的Experience API(xAPI)规范为破解这一难题提供了可行途径。xAPI规范利用“活动流”来描述学习经历,通过Statement来记录学习经历,并通过语义定义将其转化为良构且易于扩展的数据,为大数据背景下学习经历数据的获取提供了指导性的框架,同时通过实现了接口规范的学习记录仓储(LRS)来共享学习经历数据,由此实现对教育大数据尤其是学习经历数据的获取和共享。
关键词:教育大数据;学习分析;学习经历;xAPI;LRS
一、引言
随着大数据(Big Data)的崛起和数据密集科学的发展,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。在教育领域,教育大数据的概念越来越多地被提及,人们用它来定义信息爆炸时代产生的海量教育数据。美国科学基金会提出了教育大数据的研究目标:更好地理解人们在智慧环境下的学习;通过教学设计把创新技术和工具嵌入到学习过程中,改进学习和测验方式;设计新的技术,并将其整合到学习环境中。(Wactla,2012)教育大数据在带来机遇的同时,也意味着多方面的困难和挑战,其中最突出的挑战是如何获取来源广泛的教育数据。另外,作为教学活动过程重要载体的数字学习资源,其中蕴含着丰富的潜在教育数据,而以这些数字学习资源为载体的学习经历数据,其可能承载的教育价值,以及如何发挥这些潜在的教育价值,还有待进一步研究与挖掘。从技术实现的角度,这一具有潜力的研究需求,由于Experience API规范的提出及其提供的学习经历数据记录框架,为教育大数据的获取及共享的实现提供了技术基础。
Experience API(简称xAPI,也称Tin Can API)由美国“高级分布式学习”组织(Advanced Distributed Learning,ADL)于2013年发布了1.0.0版本。(Advanced Distributed Learning,2013)该规范规定了“训练与学习框架”(Training & Learning Architecture,TLA)中“学习经历跟踪”(Experience Tracking)组件的一个核心部分,为如何在学习过程中对学习经历数据进行跟踪、描述以及分享提供了指导性的框架。
在此背景下,本文试图以教育大数据研究中的学习经历数据的获取及共享为切入点,首先对这两方面的研究现状进行综述与分析,然后通过分析xAPI的关键问题与运行机制,尝试将xAPI规范的应用作为实现教育大数据获取的方案,以期进一步推进教育大数据的纵深研究。
二、相关研究
1.学习经历数据的获取
(1)获取学习经历的意义
学习经历(Learning Experience)是指学习发生时出现的与课程、计划或其他教学参与者所进行的任何交互或其他经历。它可以发生在传统的学习环境(如学校、教室)及非传统的学习环境(如室外)中,也可以发生在传统的教学互动情境(如学习者直接向老师、教授学习)或非传统的教学互动情境(如学习者通过游戏、交互应用进行学习)中。(Glossary of Education Reform,2013)每一个学习经历都包含学习活动是如何发生(How)、何时发生(When)以及何地发生(Where)的,它更强调教学互动的目的——学习,而学习经历发生的地点(如学校、教室)或形式(如课程、计划)只是其中的一部分。
在传统学习情境下,对学习经历的获取被称为是一种监测(Monitoring)活动,即教师通过持续地跟踪学生的学习以便进行教学决策和对学生的学习进度进行反馈。(Cotton,1988;Wilkins,2008)监测学生的学习被认为是高质量教学的核心,同时也是区别学校、教师是否高效的主要因素之一。(Cotton,1988)监测同样可以应用于在线学习。一个良好的在线教学系统应能够定期监测学习者的学习进程以及测试学习者对知识技能的掌握程度,(Helic et al.,2000)通过评估和测量学习者的学习经历使教师能够度量学生的响应、反馈以及进度,以帮助教师从社交、行为、认知的层面感知到远程学习者。(Galusha,1998)这种方式在一定程度上弥补了在线学习中因缺乏正常的人际交流而对学习者造成的妨害。(Ragan,1999)
(2)教育大数据背景下学习经历数据的价值
大数据在教育领域的具体应用主要有学习分析(Learning Analytics,LA)和教育数据挖掘(Educational Data Mining,EDM)。(Bienkowski et al.,2012)由于学习是学生与学习内容、学习环境、学习伙伴和教师之间复杂的交互过程,(顾小清等,2012)因而教育数据挖掘和学习分析这两个方面应用的基础数据都应是基于学习过程的数据,既包括学生、学习内容、学习环境、学习伙伴和教师的数据,还包括学生对各种客观资源的操作数据以及这些因素之间的关系数据。
这些积累的学习经历数据蕴含了巨大的分析价值。建立学生学习的数据库来存储学生与学习内容的互动时间和行为,以及用户知识模拟、用户行为分析、用户经验分析,这些都是自适应学习环境的组成部分。(Bienkowski et al.,2012)学习过程中的学习经历可以在任何地点、任何时间内发生,例如对学习资源的标注行为、工作中的业务表现、移动学习中与移动应用的交互等。这些学习经历都值得记录,形成的大数据既可以帮助学习者分析和优化学习经历,也可以成为教学、销售、人力资源等行业的辅助工具。(Duhon,2014)教师和未来的劳动力市场雇主可以根据学习过程中的数据了解学习者的学习行为特征,如学习速度、领悟能力、与其他学习者的互动合作等,以便他们结合学习者的学习经历和学习结果对其进行更加全面的评估。(张羽等,2013)
(3)获取学习经历数据的研究现状
当前大数据在社会经济学中的应用,多表现为通过现实生活中的数据挖掘检测复杂的社会系统,如借助移动终端(包括传感器、GPS定位仪、智能手机等)收集数据,识别社会情境下用户的日常活动,并将实时数据与历史数据进行关联,推测其人际关系。(Eagle et al.,2006)学习经历数据的获取方式更类似于这种“实时数据流与历史数据的关联”,这种数据会以“数据流”的形式高频次地产生,在获取、记录数据流的同时还需要关联整合历史环境信息,以实现环境化、个人化的信息空间。
传统意义上对学习经历数据的获取通常会忽视对环境信息、个人化信息的处理,(Eaves,2012)其数据主要源自描述性的反馈、成绩信息、任务完成情况等教育测量途径。例如,Cotton(1988)提出通过监测学生的表现、作业、测试、评论来收集学生的学习数据。但这种通过口头反馈或书面反馈的测量方式所提供的信息结构松散,表达不够准确。随着技术的发展,学者们开始基于在线教学平台采用量化的方式来获取数据,这种方式通常会事先设置观测点以测得学习者的变化,并以得分、成长曲线等方式呈现出来,最终用数据的增益情况量化学习者的进步程度。(Suen et al.,2012)例如,Mazza与Dimitrova(2004)利用远程教学平台中课程管理系统生成的日志数据帮助教师了解学生的学习动态,并利用信息可视化生动地呈现出复杂且多维度的学生数据,以辅助教师改善教学。为了提高教学资源在不同教学平台间的兼容性和可重用性,ADL发布了SCORM标准用于指导学习资源包装,并使学习管理系统(Learning Management System,LMS)能够跟踪学习者与学习资源交互的数据,包括成绩、书签信息、完成情况等。但是,SCORM仅能基于网络会话(Session)对学习经历数据进行记录,其记录的学习经历具有一定的局限,缺乏持续性及环境化的信息,并且不适用于移动终端数据的采集和记录。而随着泛在学习环境的不断丰富,基于移动终端的泛在学习数据的采集不容忽视。同时,由于SCORM中的教育测量方式在概念和操作上都较为简单,而学习过程中的影响因素非常之多,要想通过有限的测量结果来完全解释学生的学习过程甚为困难。
结合大数据资源的特性,(Global Pulse,2012)学习过程中大数据采集的难点主要体现在5个方面:一是数字化生成,即学习经历数据在产生之初就应该是数字化的(相对于手动数字化);二是被动产生,即当学习发生时,学习经历数据需要由学习系统自动产生;三是自动采集,即学习经历数据产生后可以被提取、存储;四是时空上可跟踪,即需要采集环境信息,支持非正式学习情境(如移动学习);五是持续分析,即可对采集的学习经历数据进行实时分析。
2.教育大数据的共享
数据的获取是教学数据挖掘的核心环节。(Bienkowski et al.,2012)大数据应用于教育的前提条件是拥有海量的教育数据。为了使现有的数据资源物尽其用,最有效的方式就是共享数据。共享不仅有利于加速教育大数据产品的开发,也有利于降低研究成本。
尽管目前已经存在一些具有潜在开发价值的教育数据,但仍有大量的教育数据难以甚至无法获取,这样的数据源如同一个个“信息孤岛”,相互之间功能无法关联,数据无法共享。造成“信息孤岛”的主要原因包括:数据互操作不易、数据格式缺乏标准、数据服务难以扩展,以及数据安全及隐私存在隐患。
(1)数据互操作性问题。不同的数据系统之间其数据缺乏互操作性(Data Interoperability)。所谓互操作性是指系统输入输出的数据流及数据格式可以完全被其他系统所识别、整合和交换,以便用于数据分析。(Bienkowski et al.,2012)尽管目前众多教育领域已经实现了信息化,但其所部署的系统往往都采用封闭的系统架构,系统之间相互独立,因而造成教育数据严重隔离的现象。这些系统包括学生信息系统、教师在线教科书系统、作业提交系统、作业帮助系统以及评价系统等。缺乏数据互操作性问题在其他领域也普遍存在。联合国发布的报告显示,联合国内部的部门之间都很难做到大数据的共享。(Global Pulse,2012)
(2)数据格式的标准化问题。对大数据的利用就是将劣构、复杂的数据转变成可执行的信息。
(Global Pulse,2012)大数据一般可以分为三种类型:结构化数据、非结构化数据、半结构化数据。结构化数据能直接被机器读取并识别;半结构化数据的结构通常是不规则的(Irregular)、隐式的(Implicit)或不完整的(Partial);(Abiteboul,1997)非结构化数据通常只具有语义结构,需要通过机器学习(Machine Learning)才能对其进行操作,(Bienkowski et al.,2012)例如对非结构化或半结构化数据进行清洗以及对超大规模数据进行集成。(祝智庭等,2013)此外,传统的关系型数据库中的数据关系通常由人工提前设计,而大数据往往是高频率自动产生的、大规模的数字化信息。这些数据通常信息量庞大且多为半结构化或非结构化类型,被称为原始数据(Raw Data)。(Global Pulse,2012)为了能让原始数据转化为可供分析之用的“数据的数据”(Data about Data),就需要为这些原始数据提供数据收集模型。但不同的分析需求需要建立不同的模型。例如,对于相同类型的教育大数据源,从学习分析的角度可能会倾向于在一开始就收集固定格式的数据,而从数据挖掘的角度则倾向于尽可能地收集更多的数据以挖掘潜在的模型。这就有可能造成在某些系统中作为重要变量的数据在其他系统中被忽略了,从而导致数据源难以整合。
(3)数据服务扩展问题。传统的数据公共服务系统往往都是由数据库与数据应用组成,这种架构一般用于特定的用途和特定的时间,数据库与数据呈现之间形成紧耦合,不利于从数据中提取潜在的信息以及适应内部和外部需求的变化。(Eaves,2012)
(4)数据安全及隐私问题。高度的数据收集和共享机制为各种组织机构间的合作和研究工作提供了巨大便利,但目前对用户数据的收集、存储、管理和使用等还有很多漏洞。(冯登国等,2014)有些数据由于涉及国家安全、知识产权、个人信息等,出于对数据安全及隐私的保护而将其进行隐藏,这在一定程度上影响了教育大数据的共享与实际应用。例如,尽管目前多家教育服务商已经开始对用户的学习数据进行采集,但出于对商业竞争力与用户隐私的考量,服务商往往不会共享所采集到的教育数据。(Global Pulse,2012)
总体来说,大数据的共享已不仅仅是数据源个体之间交换数据的问题,而是需要一套完善的数据服务体系,尤其对于像教育这样的公共事业,教育大数据的共享需要从数据共享平台和公共服务的角度去考虑。
在技术方面,越来越多的大数据应用开始引入语义技术,通过语义链接,使数据的描述更为规范且富含机器可理解的语义。(刘炜等,2013)这种“语义化”的数据,采用非关系型数据库(Not Only SQL,NoSQL)进行存储,它常以URI(Uniform Resource Identifier,通用资源标识符)作为数据标识,提供数据共享的媒介,以使机器能更好地读取这些数据,从而增强大数据的互操作性。例如,中国人民大学网络与移动数据管理实验室(WAMDM)开发的集成数据库系统——Scholar Space能够对异构的数据进行抽取和集成,通过提取关系和实体,对数据进行关联和聚合,并采用统一定义的结构对数据进行存储。(孟小峰等,2013)美国金融服务公司State Street通过在现有的关系型数据库上添加一个语义映射层,以此来提高不同数据源的整合效率。(Tucci,2012)在教育领域中,西蒙斯指出学习分析技术的数据来源包括智能化的数据。所谓智能化数据是指通过语义分析及连接技术来处理的源自课程、学期考试和其他来源的数据。(Siemens,2010)例如,“学习注册站”(The Learning Registry)就是通过对教学者、学习者与在线学习资源交互时产生的元数据和社交型元数据进行的学习分析,而这些数据可以作为学习资源分析、资源推荐、趋势监测、用户体验监测的数据基础。
在策略方面,越来越多的机构从宏观层面提出了大数据的共享解决方案。例如,联合国Global Pulse(以下简称GP)实验室的“大数据基础设施策略”(GlobalPulse,2013)旨在搭建一个良性的基于大数据开发的研究和宣传环境。合作伙伴可以通过四种方式与GP实验室开展合作:一是数据共享,即通过共享数据集或提供流式数据的存储,以支持GP实验室在各领域的公共研究;二是技术共享,即提供数据共享、数据挖掘、实时的学习分析与可视化工具;三是专家共享,即通过共建特定的项目将工程师、数据统计专家、研究者整合在一起;四是资助共享,即通过提供资金支持,以支持大数据转变为公共产品。“大数据基础设施策略”要求国家层面的合作伙伴通过上述四种方式向GP实验室提供可持续的资源,实现数据的分享,以保证开展研究的数据来源。
另一个值得关注的例子是美国白宫发布的“数字政府”(Digital Government),它从实施层面为大数据平台提供了具体的策略。“数字政府”战略旨在开放公共数据服务,促进国家的创新,提高公共服务的质量。(American Federal CIO Council,2012)该战略明确了未来公共信息服务的概念模型(见图1)。在保障安全和隐私的大背景下,数字政府被分为三层:信息层(The Information Layer)、平台层(The Platform Layer)、表现层(The Presentation Layer)。每一层对应不同的服务对象:信息层承载所有信息,包括结构化的“数据”和非结构化的“内容”;平台层承载所有信息管理的系统及运行,主要包括网络API、内容管理系统、公共业务服务等;表现层定义了信息组织和提交给信息消费者的方式,如网站、移动应用等。信息层和表现层的分布能分离信息本身和表现形式。这种开放数据和内容的做法意味着当需要给客户提供服务时,可以直接在平台层重复使用相同的网络API去完成相同的操作行为。这种分层方式分离了数字信息的创建、传播和呈现。数据的分享主要存在于平台层,平台层通过定义应用及系统之间的标准规范来实现数据的分享,有利于提高数字信息的重用并降低成本。而在表现层,盈利及非盈利组织将政府所开放的信息和数据用不同的表现形式向公众发布。这种低耦合度的方式使数字信息服务更加灵活,各层专注于各自的责任,在规范的约束下各层在内部可以不断扩展。例如,当某个应用功能发生改变时,只需要改变数据来源接口即可,而无需对底层数据进行修改。
三、ExperienceAPI与教育大数据
1.ExperienceAPI(xAPI)概述
Experience API是一种用来存储和访问学习经历的技术规范。(Advanced Distributed Learning,2014a)它是“训练与学习框架”(TLA)的一个部分。TLA并不是一种系统或软件,而是一种类似SCORM的抽象的框架,用于指导学习系统应用和创建。TLA包含一套标准化的网络服务规范和开源软件,旨在创建一个多元的连通训练和学习的环境。(Advanced Distributed Learning,2014b)TLA包含学习经历跟踪(Experience Tracking)、内容代理与理解(Content Brokering and Understanding)、学习者档案(Learner Profiles)、能力网络(Competency Networks)四个部分。其中,学习经历跟踪部分定义了如何跟踪学习者的学习经历数据,这一部分还有一个重要的功能是允许采集到的学习经历数据在获得授权的系统间实现共享。(Advanced Distributed Learning,2014c)目前,学习经历跟踪部分包含两个项目,一个是网络服务规范——Experience API(xAPI)规范;另一个是开源软件项目——学习记录仓储(Learning Record Store,LRS)。需要说明的是,尽管TLA官方网站中将xAPI和LRS列为学习经历跟踪部分下的两个项目,但从逻辑上来考虑,两者并不是并列的关系。笔者认为,xAPI规范类似“一张图纸”,而LRS则是依照这张图创建的“产品”。
xAPI所跟踪的学习经历可以来自多种学习环境,包括正式课程、模拟仿真、基于网页或视频的非正式学习、电脑游戏和社交媒体等。其跟踪的数据不仅包括在以上环境中的诸如成绩、作业完成情况等传统学习经历数据,也包括学习者的行为记录,如“看了一篇文章”或“观看了一部培训视频”。与SCORM必须基于传统Web浏览器的特点不同,xAPI与平台、硬件设备无关,尤其适用于移动学习。xAPI不仅能够记录学习活动提供者所创建的学习经历,也提供了对数据的检索、读取和写入功能,这使得其他系统在网络环境下能够连接并使用这种服务。xAPI规范目前以一种分享社区的模式发展着,由来自全世界的贡献者共同维护。(Hruska,2012a)
2.xAPI与学习经历数据
(1)利用活动流描述学习经历
xAPI利用“活动流”(Activity Stream)来描述学习经历。(Hruska,2012b)活动流是一种个人在特定网站中的所有活动行为的信息集合,广泛应用于社交网站的各种情境中(如Facebook、Twitter、人人网等),常用来反映社交网站用户的社交行为。这些活动流都遵从活动流规范(The Activity Stream Specification)。活动流规范是开源网络基金会(Open Web Foundation)下的一个项目,由众多网络服务商(包括Facebook、Twitter、Google)所支持和维护,定义了基于JSON格式和XML格式的Atom发布协议(Atom Publishing Protocol)。此外,该项目还初步定义了一些动词和活动,以辅助人们利用流(Stream)来对交互行为进行建模。
xAPI遵从活动流规范,定义了如何生成和采集学习活动流数据,并将这些数据组织到有意义的学习情境中。它采用一种可互操作的方法,通过基于学习的活动流将学习经历数据进行封装。xAPI采用的活动流主要包含三种元素:预定义的操作者(Actor)、预定义的动作(Verbs)以及与学习经历相关的活动(Activities),这种可交换的活动流数据保持了学习情境的意义。(Murray et al.,2013)这三种元素可组合成一组最简洁的活动流格式:<操作者(Actor),动作(Verb)和对象(Object)>。其中,操作者是活动的作用者,例如学习者、老师、学习小组;动作代表活动的行为,例如阅读、观看、教授;对象是操作者交互的对象,通常指一种学习活动或一种学习对象,例如一堂课、一项测试、一本书、一部视频。举例来说,利用这种格式的活动流描述传统学习行为可以是:“我(Actor)学习了(Verb)二元一次方程课程(Activity)”,而在非正式学习情景中可将学习行为描述为:“小王(Actor)回看了(Verb)介绍xAPI的YouTube视频(Activity)”。在理想的情况下,xAPI的活动流可以通过这三种元素描述所有领域的经历,而不仅仅是学习经历。(Duhon,2014)
(2)利用Statement记录学习经历数据
活动流是xAPI描述学习经历所遵从的规范,学习经历最终会以具有语义结构的数据形式存在,xAPI规范中称之为“Statement”。Statement是xAPI规范定义的核心类型。它包含学习经历的所有属性,除了上述提到的操作者、动作、对象三种必选属性之外,还包括结果、环境、时间戳等可选属性(见表1)。
Statement是来自目前学习经历的映射。Duhon(2014)将xAPI中学习经历数据的形成过程分解为三个步骤——“经历-事件-陈述”(Experience to Events to Statements,EES)。首先,描述性地总结学习过程中的学习经历,然后通过选择恰当的动作将学习经历概述转化为一个特定的学习事件,最后将学习事件映射为一组具有具体语境意义的陈述对象,从而记录下完整的学习经历。例如,在技术问答网站Stack Overflow中利用xAPI可以这样记录学习经历:第一步,提出用户有哪些经历,主要包括发布技术问题、回答问题、赞成已有的答案、对答案评分、对答案进行二次编辑、接受答案等。第二步,对第一步提出的经历进行筛选并概括为一组特定的与学习相关的事件,包括:在社区中提出一个问题,表明学习的需求;对问题提交一个答案,反映回答者对学习需求的帮助;接受一个答案,说明回答者的帮助解决了学习的需求;接受一个对答案的建议性编辑,肯定其他参与者对学习帮助的改进。第三步,将第二步概括出的学习事件映射到Statement对象上,如“提出问题”可以映射为{具体的人}提问了{问题}附分组信息{问题标签}类别{类别信息的标识}父级{问题所在的网站}。实例化后即:{小王,一个StackOverflow的社区成员}提问了{“如何解决Javascript的内存溢出问题?”}附分组信息{标签:Web前端,内存管理,Javascript}以及类别{“Web前端问题”}父级{网站StackOverflow}。这样一条Statement例子完整地描述了一个具体的、有意义的学习经历,同时也包含了大量的环境信息。这些信息使学习经历更容易被识别且更具可读性:“分组信息”利于主题的识别以及相关内容的关联,“类别”有助于系统对其进行分类,“父级”则定位了发生学习经历所在的环境。
(3)xAPI规范中语义的定义
学习经历的语义定义并不在xAPI的规范之内,只有极少数的术语由于技术上的必要性而被强制定义,大部分语义都由社区来定义。xAPI提供了一种可扩展的模式来实现学习经历数据中的语义定义(如图2所示),这种模式类似于Facebook的Open Graph接口(https://developers.facebook.com)以及Twitter的Slang接口(http://www.noslang.com)。在不同的领域中,动作和活动的含义也会有所差别,而且随着技术的发展也会出现新的动作、活动。例如,当出现新的学习情境时,用户可以根据动作、活动模型扩展出适合新的学习环境的动作、活动,并且这种动作、活动也能被遵循xAPI规范的其他系统所识别。社区驱动使xAPI非常强大,社区所驱动的语义创建能够顺利地融入我们的日常活动,更贴切地描述隐性的学习经历。(Mueller et al.,2014)社区主要对Statement中的动作和活动进行语义定义。其中,动作在描述学习经历中起关键作用。从上述例子的第二步可以看出,动作决定了学习事件的意义,反映了学习经历中操作者如何参与学习事件、如何与学习对象交互。与此同时,为了让xAPI数据在系统之间能够传播和交换,各系统间需要共享一套动作定义,这套动作定义应该是普遍适用的,而且用户可以直接重用这些动作。目前,ADL已经基于Schema.org框架定义了一套适用于学习经历的动作,这些动作来自多种已存在的学习活动,包括在线课程、游戏、现实世界、视频、图片、论文、博客等。(Hruska,2012a)但需要指出的是,这些动作集合并不包含在xAPI规范的范围之内。此外,动作定义的筛选策略也能反映出对学习经历跟踪的粒度(Granularity)。并非所有粒度级别的学习经历都有必要概括为学习事件,筛选策略应该由数据的使用需求所决定。例如,在在线视频学习环境下,“播放”、“暂停”、“调节声音”等简单动作并不具有太多记录价值,而“回看视频片段”、“关闭时是否看完视频”等学习事件中所发生的动作对于学习分析则更具分析价值。Duhon(2012)指出,具体的动作定义有助于系统明确发生的学习行为,而过度宽泛的动作定义会降低学习经历数据的有效性,使系统需要获取更多的数据来分辨动作在不同语境下的准确含义。
3.基于LRS的学习经历数据的获取与共享
(1)LRS概述
xAPI规范不仅定义了如何记录学习经历数据,也定义了学习经历数据存储、检索的规则。开发者只要实现了这些规则,便可以创建基于xAPI的学习经历跟踪服务,这种服务可以安全地存储Statement并将其传输到其他特定的系统中。(Advanced Distributed Learning,2014d)这种存储学习经历信息的系统被称为学习记录仓储(Learning Record Store,LRS),它通过xAPI定义的接口来交换Statement对象。LRS是对xAPI规范的实例化,主要体现在将xAPI规范中抽象的接口实现为具体的网路服务。LRS可以通过这些服务来收集、返回Statement以及与Statement相关的数据,但这种数据交换并不仅局限于传统的LMS中,它还可以与其他LRS或应用进行数据交换。LRS与LMS相比,主要区别如表2所示。
(2)LRS的数据获取
在传统的LMS中,学习者的数据只能保存在LMS中或LMS运行的模块中。与LMS不同,LRS可以与所有支持xAPI规范的应用共享数据,因此,LRS既可以作为LMS的一部分存在,也可以成为一个独立的系统。这种情况下,LRS往往以一种网络服务的形式存在,它允许其他系统通过xAPI规范的接口输入或检索Statement。这意味着学习者可以从LMS中解放出来,学习系统也无需仅仅通过网络会话(Session)来获取学习数据。无论在离线还是在线的状况下,学习者的学习数据可以保存在任何支持xAPI规范的系统和设备中。需要指出的是,尽管LRS与LMS差别较大,但是并不会影响LRS支持SCORM标准的学习内容。只要SCORM内容的动作对象和LMS通信模块遵循xAPI规范,LRS便能够从SCORM标准的LMS中获取学习数据。
(3)LRS与教育大数据共享
LRS的数据主要来自“活动提供者”的输入和其他LRS的共享,对“活动提供者”并没有具体的要求,任何设备和系统只要遵从xAPI规范,便可以向LRS传输数据。“数据消费者”只要获得LRS的授权便可以从中获取数据,这些“消费者”可以对数据进行分析、可视化、呈现等处理,但这些处理方式并不由LRS来决定。这种将数据、服务、应用解耦处理的方式,正是xAPI与其他语义模型最明显的区别。xAPI可以看作是对“数字政府”数字服务模型的一种实现:“信息层”的Statement专注于将学习经历转化为数据,而不考虑如何传输数据;“平台层”的LRS专注于通过网络接口分享来自“信息层”的数据,而不考虑如何使用、呈现数据。这种解耦的处理方式使教育数据服务更加灵活、易于扩展,为教育大数据提供了一种新的数字服务范式。
(4)企业级LRS框架
LRS既可以是LMS中的一个组件,也可以是一个独立的企业级系统。(Rustici Software,2012a)如果作为LMS的一部分,那么LRS需要考虑如何对私有存取行为进行处理,因为LMS通常会将LRS视为一个私有的数据库而不是公共的网络服务。如果是作为一个企业级系统,那么这样的LRS会较为复杂,需要考虑身份验证、数据检索、并发控制等需求的实现(如图3所示)。但无论选择哪一种类型的LRS,都必须实现四个接口(API),这四个接口是LRS最低限度的功能。此外,企业级LRS需要实现的主要需求还包括接口、安全性、深度查询及数据质量。(Rustici Software,2012b)
接口。LRS的接口分为两类:一类是Statement接口(Statement API),用于输入和输出Statement对象;另一类是文档接口(Document APIs),主要用来存取更丰富的信息(如字符串、Word文档、图片、视频等),而并不涉及对Statement对象的处理。文档接口包括状态接口(State API)、活动描述接口(Activity Profile API)、动作者描述接口(Agent Profile API)。状态接口通常用于暂存活动内容的状态,以便在不同的会话、设备中重现学习活动;活动描述接口用于存放和获取活动的完整描述;动作者描述接口用于存放和获取动作者的资料。这四个接口都遵循RESTful架构,支持对LRS中数据以Web资源请求操作的方式进行处理,包括获取、更新、增加以及删除。
安全性。为了保证数据的安全性和个人隐私,LRS需要设定身份验证机制,以保证应用或个人必须通过验证或得到授权后才能访问LRS内的数据。xAPI规范规定LRS必须支持两种身份验证机制:HTTP基础验证和OAuth开放授权。如果使用HTTP基础验证,应用需通过提交认证信息来让LRS验证身份。当用户通过第三方应用在LRS中存取数据时,通常需要获得OAuth授权。OAuth授权协议允许用户让第三方应用访问该用户在某一网站上存储的私密的资源,而无需将用户名和密码提供给第三方应用。LRS通过向第三方应用发放令牌、授权证书、临时证书等方式进行授权,获得授权后的应用便可以通过接口访问权限作用域中的信息。
深度查询。由于Statement接口只可查询Statement对象,而Statement对象并不包含学习经历的所有内容,其很多属性是以类似“指针”或“引用”的形式存在于Statement对象中,因此,如果需要获取一条完整的学习经历数据,通常需要多次的数据查询,而反复在LRS中查询并不是一种高效的方式,当数据请求较多时可能会导致系统的负担很重。因此,LRS采用深度查询的方法,将一条数据的Statement对象及其关联对象全部查询并整合完毕后,一次性地将结果返回给数据请求方。
数据质量。作为一种数据服务,LRS需要保证所有数据的有效性。LRS会对所有输入的数据进行约束和校验,主要包括语法、格式化、JSON的值是否匹配规范要求等。当发现错误或不准确的Statement对象时,LRS会对其进行特殊的处理——由于Statement对象具有不可变的特性,因此它们不能被删除,LRS会将它们置为无效,并在查询时对其进行过滤。此外,由于LRS流通的数据量较为庞大,因此还需要考虑并发性的问题,以及避免发生数据被覆盖的情况。
四、总结与展望
教育大数据的应用价值在于将数据用作学习分析。xAPI作为学习经历数据收集的规范,有助于为学习分析提供各种粒度的实时信息,从而完成对学习经历的实时跟踪。在传统的在线学习模式中,xAPI的特性无法最大程度的发挥。在移动学习和泛在学习日益普及的大背景下,人们通过移动设备在网络中探索、娱乐、学习已经成为常态,几乎所有的交互、协作都可以在移动设备上展开,而且人们在移动设备及移动应用中交互的意愿相较于以往也更加强烈,这为xAPI采集学习活动各异的学习经历创造了机会。在移动应用及移动学习有可能为教育大数据带来丰厚的数据积累的背景下,xAPI将能够支持移动平台的各项功能以创建新类型的学习经历,两者的结合将会产生增值效应。目前国外已经基本完成遵循xAPI规范开发的ADB(Actionable Data Book),并计划依次在平台端、安卓端、IoT端(可穿戴设备、实验室设备、传感器等)进行实践,以此将该规范进行推广。另外,隐私问题仍然是实践中的一个重要问题。学习者数据的所有权究竟应属于学习者本人,还是应与平台端(或资源提供方)共享,隐私锁(Privacy Key)究竟该怎么锁,又将如何实现,这些仍是实践过程中需要仔细考虑的问题。
作者简介:顾小清,博士,教授,博士生导师;郑隆威,博士研究生;简菁,硕士研究生,华东师范大学教育信息技术学系(上海200062)。
基金项目:2011年度新世纪优秀人才计划“基于个人数字终端的信息化创新应用研究:资源、服务及应用实例”(NCET-11-0140);上海市教育科学2013年度重点课题“基于‘绿色指标’的学习行为建模及其应用研究”(A1309)。
转载自:《现代远程教育研究》2014年5期/总131期
排版、插图来自公众号:MOOC(微信号:openonline)
产权及免责声明本文系“MOOC”公号转载、编辑的文章,编辑后增加的插图均来自于互联网,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时内审核处理。
了解在线教育,
把握MOOC国际发展前沿,请关注:
微信公号:openonline
公号昵称:MOOC