教育部高校大学外语教指委秘书长、南京大学大外部主任王海啸教授,在2015年7月第二届语言智能大会上发布了《百万同题英文写作大数据报告·多学段版》,本报告以英语写作作为切入点,对本科、高职和中学不同学段学生的学习习惯、自主学习过程、错误修正方式等进行了全面的分析和比较,同时还从英语写作数据中挖掘了学生的阅读偏好和进行了价值分析。王海啸教授对数据进行了全面解读:“从这些数据中我们可以看到学生的最真实的英文写作情况,更可以看到在数据本身之外我们的外语教学应该如何进行”。

尊敬的周校长(首都师范大学副校长周建设教授),各位专家各位老师们、同行,大家好。当我接到让我发布百万同题大数据报告这个任务的时候我很兴奋,但是来到这个会场以后,我发现一个问题,就是每个与会代表的袋子里,都已经在昨天晚上就拿到了这个数据报告。今天让我来发布,我就纳闷,我说我该说什么呢?后来想一想,大数据的时代,一切都是正常的。我记得马云在建他的网上银行的时候,曾经有过一个产品,一个宣传产品,产品里面有这样一句话,大概这个意思:我们是面对小微企业用户贷款,那么我们的信用的审查过程是在每个申请贷款人在申请之前我们就已经完成了。当你提出申请的时候,我们就已经知道你要申请多少。大数据的时代就是这样的,就是当我们用户还没有知觉的时候,数据就已经出来了。就是当我还在说我想发布的时候,我们的老师们手上面就已经拿到数据了。所以我今天想说一些我对于这个数据背后的一些理解和想法。

首先我们看一下我们祖国的地图,批改网首先需要大数据,而大数据是需要大面积,大范围,我们知道这张图就告诉我们它覆盖了多大的范围,多少的人群。有一点我觉得很奇怪,就是我们在活动开始的一个多月前就说要搞一个百万同题,那我说我们去年做的是十万同题,结果超过了十万,那么今年要做百万同题,我说一下子跨越那么大可能吗?结果是一百零九万多。我有一个纳闷就是我问张总(批改网CEO、北京语言智能研究院执行院长张跃研究员):你们到底是怎么知道能够达到一百万,甚至出头的,为什么你没有说一千万,为什么没有说五十万,为什么说一百万,张总神秘兮兮的告诉我说这是大数据。他是分析了整个我们全国使用批改网的目前的院校,以及潜在的用户,以及当当网的赞助支持,以及在活动之前的一些宣传,根据这一切来进行判断,实践证明这个判断还是靠谱的,这是我对于第一个数据的解读。

那么我们再看一下第二个数据,就是我们这里边有本科,有高职,有中学,这个是很有意义的,因为现在刘校长(广东外语外贸大学副校长刘建达教授)在建一个中国的英语能力等级量表,那么这个中国英语能力等级量表里面就应该涉及到中国的教育体制里面的所有全学段,我们的数据将会对于我们接下来的类似的像这样一种全国性的等级量表,对于全国各学段的学生的英语能力做一个整体的判断。那么对学生写作时段的分析,我们做了一些初步的判断,表明学生平时周一到周五的时候老师布置会多一点,前面一段会多一点,后面一段会少一点,但是我对这个数据图形的理解是这样的:老师们的工作实际上是全时段的,学生们的学习也是全时段的。

这里我们来看一下,下面这张图就更有意思了。学生的提交作业的时间一直到了凌晨两点钟,甚至到三点钟的时候还是有学生在做。再往后,高峰出现从十九点开始,再往后,这个图表告诉我们什么?这个图表告诉我们,英语老师可能关注的是课堂里面45分钟的课怎么上,但这张图告诉我们英语学习是发生在课堂之内,更发生在课堂之外。那么我们的老师在备课的时候,有没有去关心学生们在十七点以后、十九点以后在干什么?这是给我们老师的一个提醒。同时我觉得这张图还可以给周校长(首都师范大学副校长周建设教授)、石校长(原四川大学副校长石坚教授)这样一些校领导一个启发:我们的新生进校之后,允不允许他们在宿舍里面用电脑?第二,宿舍管理员应不应该十一点就拉电?第三,学校建校园网的时候,首先要在在实验室建网、教室里建网,但是我们发现学生十九点以后大部分时间都在宿舍里,宿舍的网络应该是反应一个学校信息化程度高低的一个重要标志,这张图明确告诉我们这样一种信息。

下面我们再来看一下学生自主学习行为的这样一些数据。这次活动有109万篇作文提交,而更多的人提交作文的次数不仅仅只有一次,而是很多次。学生会花很多时间去做一件事情,以前可能只发生在游戏上面,但是今天我们看到发生在学生的学习行为里面

接下来的一张图告诉我们:各个地区他们是如何努力的去、不断的完善、不断修改(自己的作文)。从进一步的数据我们可以看到这个修改不仅仅是单纯的改错,它背后的动因是什么呢?是刺激。什么刺激?是分数的刺激。这个刺激不仅仅是个体的分数刺激,而是同伴的分数刺激。就是说当他看了自己的分数、自己的排名后,再看到别人的分数、别人的排名后,他会要往上冲,这种刺激引导着他不断地去修改,不断地去完善自己的作业。那么这种刺激跟玩游戏有什么差别呢?它们两者的的差别在于前者是实实在在的帮助学生提高他们的英语水平。为什么呢?这里有数据,比如说词汇的丰富度提高了、词长提高了、词汇难易度提高了……这些都表明他们的努力都是有回报的,这种回报不仅仅是一种精神上的回报,而且实实在在的英语能力也得到了提高。

句子也有变化,从句的密度提升了。也就是说句子的复杂度提升了。但是我们发现另外还有一个问题就是句子的长度略有下降,这里面还有一个奥妙,我觉得我们可以进一步去分析,为什么说句子长度下降可能是好事呢?事实上我们发现很多二语学习者,他们最常犯的一个错误就是联动,就是把不该放在一起的成分,放在同样一个成分里头。一个句子里面可能会有很多个本来应该做谓语的动词串在一起了,就像我经常在上课时举的一个例子:“我把手放到伸进口袋,掏出我的手机看一看短信。”这个汉语就是一句话:我把手伸进口袋掏出手机看短信,翻译成英语:”I put my hands into my pocket, Took out my cellphone, Read mymessage.”这是个典型的汉语的句子,可是英语是不能这样简单地说的,那么我们如何去解决这个问题呢?而解决这个问题就可能会导致句子的长度下降。这是一个可能的解释,接下来我们还要进一步去分析。

其他的比如说学生修改的词汇不仅仅是在句子层面进行修改,在篇章的层面也有修改。这里的数据告诉我们学生确实在修改他们的篇章,长度在变长。语法的维度错误也在下降,这些都是我们预期之中的。

但是我们看一下还有一些数据非常好玩的,不是所有的语法错误都等量的出现,也不是所有的语法错误都是等量的被修改。比如说像名词的可数性,数量是很大的,搭配错误数量也是很大,但是它们下降的幅度是不一样的,比如说这里名词的可数性是下降了56%,但是搭配错误只降了35%。这就告诉我们,我们的教学里面的重点是什么?我们的老师的重点是什么?老师要教学生我们以往可能更关注的这种mechanical errors,但是学生最难处理的是这些搭配错误,我们要关注这些成分缺失,关注这些学生们不能够通过自动评分系统来解决的问题,这是我们老师要去关注的内容。

中式英文是批改网的一大贡献,我觉得他们是帮助学生减少了很多中式英文这样的错误。同学们都写了什么呢?以往我们都认为无论是在大学英语教学里,还是在中学英语教学里都不太重视学生的写作,为什么呢?因为写作确实是很难,老师要去批改也很难,但是我们也发现当我们在和一些老先生交流的时候,他们都会说:最能够反映一个人的英语水平的任务就是写作,最高水平的就是写出来的。所以李院士(中国人工智能学会理事长李德毅院士)要去做一个人工智能,而这个人工智能的最高境界就是要让机器去作诗,不但写作还要作诗,但是我们知道虽然写作很难,但是我们还是要去写!为什么呢?因为接下来的这几张图片,我会说学生的写作不仅仅是帮助学生写作,而且还会帮助他们阅读,而且还会帮助他们提高词汇量,而且还会帮助他们学习语法,而且还会帮助他们提高口语,听力,翻译等等

这里有一部分的证明,学生作品里面涉及了这么多的内容,这些内容哪里来的?是学生们读来的,如果他们不读的话,是写不出这些内容的,而且这里面有一部分西方作品,有一部分中国作品,其实我们刚才关心的学生数据分析语义的问题,我觉得这里已经给我们一些分析语义的入口,如果说这篇作文是写这个东西的理由,我们就会发现既然我们能提取这么多的内容那么我们就可以判断学生的某一篇作文跟我们的这个题目是不是有关系,如果学生作文中一点都没有涉及,那么在语义的相关性方面我就会判他差一点是可以实现的,这是第一个问题。我们再来看一看第二个问题,西方的作品很多,而中国的作品却很少,为什么呢?因为这是一篇英文作文,可以理解。接下来我们再看一下这些作品里面童话的阅读量大,小说品种多,说明童话的阅读量在中学的阅读里面还是占到很大比重的,如果再写别的,可能会反应更多的,比如动画、动漫这些东西,还好这里就只是到童话为止。除了这些以外,还能不能有更多的东西,比如更多的科普的作品,更多的哲学的作品,我们以后的中小学教育里面需要我们更多的去关注这些东西,这里也有很多的作家和名人,这也是给我们语义分析的一个入口。从这张图上我们可以看到西方名人比较多,说明学生对于西方名人的一种崇拜。名言警句多告诉我们什么呢?如果前面那些阅读都是发生在写作之前,我相信这些名言警句的出现说明新的阅读,发生在他们写作过程中间。也就是说这些学生他们在写这篇作文的时候,他们要去看大量的资料,这就是我说的为什么写作也同时促进了学生的阅读水平,而这种阅读是有目的阅读、有意义的阅读、是主动的阅读、不是老师强迫他去阅读的,是更加有效的阅读,把阅读放在写作里面,这也是有效的提高他们语言能力的最佳途径和方法。这里有这么多关键词,这些关键词告诉我们什么呢,也是一样的,如果我们分析一篇新的作文,新的作文里面没有这些关键词,那么这篇作文很有可能跟我们的作文的关联性就很小,这就是语义分析。

那么我们再看一下不同类型的院校会有什么差别呢?比如说这里有985、211、本科、高职和中学的一些数据,这些数据告诉我们都是一些很正常的数据,就是说越是高层次的学校,他们的语言水平越高,还有地区的一个数据对比。

但是我想分享一下最后这组数据,句子语法正确率,985的bar最长,但是211学校的和中学的差不多,难怪很多的学生说,如果你让我进大学的时候考四六级我还能考过,学两年后我过不了了,老师们不用寒心,对于这种数据,我们可以有几种解读,第一种解读就是中学生的语法准确性是第一要务,然后才是内容,才是篇章。但是到了大学以后,大学老师都要求学生注重逻辑,注重内容的表达,语法上就不是很重视;第二种解读就是我们在布置这个任务的时候,中学和大学对作文的字数要求也不一样,一般来说中学里面规定的长度都比大学里面要短一些,因此写得越短,犯的错误就可能就越少了;第三种原因,是大学老师很少去关心学生写什么,很少去批改什么东西,但是中学老师经常会手把手地去帮助学生去修改,去polish,在此我要向在座的各位中学老师致敬,中学老师确实是为大学老师减少了很多的工作量,非常感谢你们,这组数据也确实告诉我们中学老师的付出是有汇报的,而大学老师的努力可能没有体现在这个数据上面,但是可能我们在的努力体现在别的数据上面,比如前面的词汇丰富度等等。还有一个从这个数据上看不出来的一个问题,我们有一个博士生做了一个关于英语专业的四个年级的学生的语法准确性的发展,实际上发现类似的这样一个曲线,大一的学生在学期末他们的语言的准确率是最高,然后大二急速下降,大三、大四缓慢的增长,其实原因是一样的,他们在语言的流利性、内容的丰富性和语言的准确性在重新做调整,我觉得这也是反应了语言习得的一个自然的规律。

今天我就分享了自己对于这些数据背后的一些挖掘,一些想法,我们期待更多的分享我们期待我们的同行们、我们的老师一起来挖掘更多的数据价值。为中国的大数据,为中国教育的明天一起努力,谢谢。

下载更多视频,请点击【阅读原文】



欢迎投稿 职场/创业方向. 邮箱wangfzcom(AT)163.com:王夫子社区 » 南京大学大外部主任王海啸教授:解读2015百万同题写作大数据——英语学习是发生在课堂之内,更发生在课堂之外

点评 0

评论前必须登录!

登陆 注册