對于各大考試來說,閱卷是相當重要的一環(huán),同時也耗時耗力。而隨著人工智能不斷升級,近年來機器人閱卷技術已日漸成熟。
近日,科大訊飛相關人士表示,在教育部考試中心的組織下,智能閱卷技術,已經(jīng)在全國多個省份的大規(guī)??荚嚕ㄈ缰懈呖?、成人高考、學業(yè)水平測試等考試)中通過了多次多范圍試點驗證。
在2017年湖北省的中考中,襄陽市率先引進了智能評卷系統(tǒng),該市教育考試院院長劉朝志對媒體表示,“相比人工閱卷,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補其在雷同卷、空白卷處理上的不足。”
大規(guī)??荚囍幸堰M行多次多范圍試點驗證
2016年3月,教育部考試中心和科大訊飛成立了聯(lián)合實驗室,共同開展人工智能技術在智能閱卷、命題、考試評價分析等方面的研究。
近日,科大訊飛方面告訴澎湃新聞,目前,在考試中心的組織下,科大訊飛的全學科智能閱卷技術已在學業(yè)水平測試,例如大學英語四六級,以及全國多個省份的高考、中考、成人高考等大規(guī)模考試中進行了多次多范圍試點驗證。
驗證結果表明,計算機評分結果已經(jīng)達到了現(xiàn)場閱卷老師的水平,完全滿足大規(guī)??荚嚨男枰?。
以往,進行幾十萬、幾百萬份考試試卷樣本的分析需要耗費巨大的人力資源,可行性很低,但如今通過精準的圖文識別以及海量文本檢索技術,可以快速核對檢查所有試卷與目標相似的文本,并迅速提取并標注出可能存在問題的試卷。
據(jù)《襄陽晚報》報道,與往年中考閱卷不同的是,2017年湖北襄陽市中考閱卷在全省率先引進了智能評卷系統(tǒng)。閱卷點一位技術人員說,智能評卷系統(tǒng)可進行工作量分析,可列出每個評卷源評卷總量,監(jiān)控每個老師的評卷質量。
襄陽市教育考試院院長劉朝志稱,有了智能閱卷大數(shù)據(jù),每道題的得分情況,全市的平均點,哪塊知識學生掌握得好,哪一塊教育教學不到位,都可出一份教育教學診斷報告,更有利于老師教、學生學。“相比人工閱卷,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補其在雷同卷、空白卷處理上的不足。”
據(jù)襄陽市教育考試院中招科工作人員龔勛介紹,智能閱卷系統(tǒng)可覆蓋絕大多數(shù)的范文。運用智能系統(tǒng)后,可在海量數(shù)據(jù)里面搜索,就能準確判斷是否抄襲了范文。
7月19日,劉朝志向澎湃新聞表示,目前還需更多時間才能對外透露更多信息。
科大訊飛方面告訴澎湃新聞,智能閱卷采用了基于深度神經(jīng)網(wǎng)絡學習的圖文識別技術,已經(jīng)達到人眼識別中英文手寫字符相當?shù)乃?。該項技術應用于正式考試中,可以輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進一步提升人工閱卷評分的效率、準確性和公平性,從而對整個產(chǎn)業(yè)產(chǎn)生極大的變革。
此外,通過該項技術,將全部考生作答試卷都進行電子化后生成的海量、準確的分析數(shù)據(jù)也為之后教與學的研究提供了有力素材,并且提供了未來可被良好應用的、與考試閱卷業(yè)務深度結合的突破點。比如,通過智能化的評分和批改加強與真實的課堂更好地結合。
“在做的大項目中有一些技術成果可以用于高考閱卷,但根本的目的是引入人工智能將閱卷推向3.0時代。”6月,科大訊飛輪值總裁吳曉如對澎湃新聞表示,“閱卷1.0時代是紙筆閱卷,2.0時代是在網(wǎng)上把人組織起來用機器自動評閱一些客觀題,而在人工智能時代,已經(jīng)可以開始對主觀題進行自動評閱。”
機器批改主觀題早不再是空想
一般考試中通常包含客觀題和主觀題兩個部分。而在有了答題卡、掃描儀后,客觀題全部可以由機器批閱。不僅閱卷速度大大提升,而且更加準確。
而自20世紀60年代以來,國外許多專家和學者就開始致力于主觀題的機器閱卷技術研究,出現(xiàn)了各種不同的自動批改系統(tǒng),例如美國的MBA、托??荚囍芯蛻昧薊-rater系統(tǒng)。但這些系統(tǒng)大部分針對的都是第二語言作文,即非母語作文。但是,批閱學生用母語寫的作文需要在更高層次,比如作文的文采、篇章的銜接、作文立意等方面做出評判。
到了2015年11月,科大訊飛的機器智能閱卷技術在安慶、合肥等地成功試點應用。經(jīng)過對人機評分結果的分析,計算機在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水平。這意味著,機器評閱主觀題已不再是空想。
那么,對于沒有客觀標準答案的主觀題,機器閱卷的原理和依據(jù)是什么?吳曉如解釋,機器閱卷和人工閱卷的本質區(qū)別在于工作機理的差異。機器是通過統(tǒng)計、推理、判斷來決策,這與人的思維方式不同。在閱卷過程中,機器采用智能學習的方式。通常一組專家評閱約500到1000份試卷后,機器就能學習到這一種試卷的評閱模式并形成一個模型。這種模型對其他試卷就可以形成有效的處理和覆蓋,再根據(jù)該模型自動評閱其他試卷。
而對于度量標準則是,先推選一組公認閱卷水平較高的專家,把這一組專家對一組試卷給出的平均分作為一種相對標準。之后,把機器最后的測試結果、其他測試員測試的結果與專家的平均分比較。如果機器和專家給出平均分更接近、相關度更高,才認為機器評閱的結果達到預期。
“只有一種簡單的或是標準化的測試模式實際上是非常容易作弊的,但從目前很多應用的結果來看,還沒有一種辦法能夠很好地欺騙機器”,吳曉如說,“就像Alpha Go下圍棋一樣,并不是說找到一種客觀、標準的套路就可以打敗它。”
此外,對于機器閱卷是否會抹殺學生創(chuàng)造力的擔憂,吳曉如表示,閱卷中機器會把與眾不同的、富有創(chuàng)造力的試卷挑出來交給人工處理。還有,對于犯了低級錯誤但有新思路導致測試成績不佳的考卷,也需要現(xiàn)場的測試員和專家來判斷。
吳曉如說,實際上,機器主觀題閱卷已經(jīng)過了很長一段時間的驗證。“很多教育專家、一線教師、校長一開始都對機器閱卷不認同,但通過結果的現(xiàn)場對比,這些專家最后還是認可機器要比人工測試的結果更好。”
探索作文自動評分
而在國內近年的主觀題的機器閱卷技術研究中,最令外界眼前一亮的是哈工大訊飛聯(lián)合實驗室研發(fā)的語文作文評分技術。
要給作文評分就需要面對觀性相當強的文本。那機器應該從哪些維度去評判?又如何去量化這些維度?
研究人員介紹,就像在中、高考閱卷中,全國的教師以一套統(tǒng)一、嚴格的標準來進行評分一樣,機器批閱作文,最重要的也是讓機器學到這套標準,然后按標準批閱。
也就是,教師們先設置一套通用的從字跡工整度、詞匯豐富性、句子通順度、文采、篇章結構、立意等多個層次綜合評估一篇作文質量的解決方案。之后,機器就可以利用算法從少量人工評分的樣本中學習獲得作文評分標準。比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學習教師的閱卷方法,學到200份的時候機器就可以代替人工,自動對剩下的試卷進行智能化打分。
作文評分系統(tǒng)中,詞匯豐富性和立意屬于內容相關的特征;字跡工整度、局部連貫性、句法正確性和篇章結構屬于表達相關的特征;文采屬于發(fā)展等級特征。另外,該技術還利用人工神經(jīng)網(wǎng)絡對作文的語義進行深度表示,從而得以從宏觀上把握文章的立意。
而這每一項標準背后都需要復雜、精密的技術來支持。例如,判斷字跡工整度就需要用到手寫識別技術,即自動將圖片中的手寫體字轉寫為文本的同時,給出識別概率,以此來表示工整度。再例如,判斷一篇作文是否離題,就先需要根據(jù)題目內容提取關鍵詞,并根據(jù)主題進行擴展,同時提取作文中的關鍵詞,再計算作文的關鍵詞和題目的關鍵詞的相似度。另外,也可以在該次考試的大規(guī)模數(shù)據(jù)上訓練主題模型,得到全局的主題分布,然后和待考察作文的主題分布對比。
參與國家“863計劃”(國家高技術研究發(fā)展計劃)的科大訊飛方面表示,隨著人工智能技術的發(fā)展,未來,除了開放式的作文,甚至政治、歷史、地理科目的問答題機器都可以自動閱卷。
當全自動機器閱卷成為現(xiàn)實后,教師們將會有更多的時間和精力投入到對教學方法、教學手段等創(chuàng)造性工作的研究中,從而為學生帶來質量更高、更全面的教育。
已有0人發(fā)表了評論