人工智能

“翟天臨”克星?哥本哈根大學開發反“槍手”AI,識別作業代寫準確率接近90%

廣告
廣告

大數據文摘出品

編譯:曹培信、周家樂

隨著畢業季的鄰近,翟天臨又一次被網友們罵上了微博熱搜。

翟的論文抄襲事件過后,許多高校都加強了論文評審標準,更有嚴格的院校連非畢業生的論文結課都要查重。

許多深夜改論文的學生于是結伴來到微博@翟天臨:你睡了嗎?你怎么睡得著?我還在改論文!你配睡覺嗎!

圖片來自微博

翟天臨自己可能也沒有想到,竟然陰差陽錯對中國高校教育做出了卓越的貢獻。

然而,也有學渣表示,以后查重這么嚴,抄襲是不可能了,只能找人代寫了。

早有媒體曝光過學術圈“論文代寫”的產業鏈。據第一財經報道,相關淘寶搜索的本科文科論文每千字200元左右。

不過,這條“學術歪路”也要被AI堵死了。近日,哥本哈根大學的研究人員的最新研究稱,剛剛開發出一款“反槍手代寫”的AI系統。

這款系統意圖通過智能寫作分析技術,來檢測論文作弊。可以根據你的寫作習慣,確定論文究竟是你自己寫的作業還是由他人代寫。

根據對13萬份書面作業的分析,科學家們可以以近90%的準確率檢測出學生究竟是自己寫的作業,還是由代筆撰寫。

基本上可以達到“代寫”作業一抓一個準的結果了。

高中代寫成風,哥本哈根大學的神操作

這套針對學生論文作弊行為的研究,已經在哥本哈根大學計算機科學系(DIKU)進行了幾年了,最初,這款研究是針對丹麥的高中生進行的。

在丹麥,高中目前主要使用的作業查重平臺叫做Lectio,可以用來檢查學生的作業中是否有段落是直接復制先前提交的作業的。

然而,隨著各類線上服務平臺的盛行,在丹麥高中生中,找人代寫作業變得越發容易。

面對這種情況,學校一直缺乏有效的檢測手段。

學習軌跡項目或“SRP”(丹麥語的“Studie Retnings Projekt”)是丹麥高中畢業生的必修跨學科課程,也是一項非常重要的書面作業。在這個項目中的作弊現象尤其引人注目。

由于SRP對于畢業十分重要,很多學生們在丹麥競拍網站Den Bla Avis上發布他們的寫作任務來找人代寫。

和中國的老師和大多數查重系統一樣,Lectio只能查重,沒法判斷一份作業是否是找人代寫的。

哥本哈根大學的一些院系一直和很多高中有著SRP項目的合作,深受代寫作弊行為之害,一直在探究解決之道。

這所大學的計算機科學系DABAI項目組決定教教這些偷懶的高中生們“做人”。

DABAI(丹麥大數據分析驅動創新中心)是一個成立于2016年的丹麥國家研究中心。除了研究機器學習的高效算法,這個研究小組本來就對學生教育特別關注。之前,他們曾研究了“優化學生的個性化學習”、“提高教師洞察力”等教育項目。

名叫“槍手”的反槍手神器

這個防作弊程序被叫做Ghostwriter(槍手),它本質上屬于一種基于機器學習和神經網絡技術的一款文本分析程序。

項目組成員Stephan Lorenzen博士稱,這款程序可以比較該學生最近提交和以前提交的文章來識別寫作風格的差異。

“程序會關注單詞長度、句子結構以及單詞的使用方式等諸多特征。例如,它會察覺‘for example’被寫成了‘ex’,還是‘e.g.,’。”

其數據集來自為丹麥高中提供Lectio平臺的MaCom公司,該公司覆蓋了丹麥90%以上的高中,他們為GhostWriter項目的研究人員提供了13萬份不同高中學生書面作業。

這個研究組認為,這款產品非常具有實際效用,很多學校對于找出“論文究竟是誰寫的”這個問題有著越來越高的技術需求。

但Stephan Lorenzen博士也認為,“在此之前,還需要認真討論一下應用這項技術所面臨的倫理問題。我們不能把這個程序得到的結論作為判別是否作弊的唯一標準,更應該把它看作一份輔助性的證據。”

Ghostwriter是怎么工作的?

Ghostwriter程序使用Siamese 神經網絡來區分不同文本的寫作風格:通過大量數據的訓練,學習不同寫作風格的外在表現(representation),然后進行比對。

這個項目分兩步來解決作者身份驗證問題。首先是解決了計算兩個文本之間寫作風格相似性的問題,主要通過使用Siamese網絡學習相似度函數s:T×T→[0,1]。其次是再解決作者A的驗證問題,通過比對未知作者文本X和已知是作者A的文本T之間的相似性。

在網絡方面,他們考慮使用不同的輸入通道考慮幾種不同的體系結構(例如,char,word,POS-tags),最終確定了一種表現最佳的網絡架構:

Best performing network

編碼部分包括一個字符嵌入(Embd),然后是兩個不用的卷積層,每個卷積層后面都有一個全局最大池化層(GMP)。

在比較部分,他們首先計算合并層中的編碼之間的絕對差值,然后,應用4個密集層,每層有500個神經元,最后使用具有兩個輸出的softmax層來進行歸一化。

他們將數據集分為三份,T-train用于訓練,T-val用于訓練提前停止和selecting Cs,T-test僅用于估測試模型。

經過訓練,模型的準確率達到了87.5%。

最后實現的功能就是,當學生提交作業時,該網絡會將其與以前的作業進行比較。對于每個作業,神經網絡都會計算出一個百分數,用于表示新舊作業的相似性。然后,通過綜合考慮新舊作業相似性、交作業時間等多種因素計算出一個加權平均值。這個最終值就可以用來表示新作業和學生寫作風格之間的相似性。

這一研究已經被發表在一篇名為《識別高中代寫“槍手”》的論文中。

論文鏈接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了論文,還能與警方合作篩查偽造文本

除了代寫作業,Ghostwriter的技術也可以應用于社會的其他地方。

例如,該程序可輔助警方的文檔審查員執行各類文件的真偽分析任務,比如一份商業合同是否是偽造的;或者一個離奇的自殺案中,死者留下了一封遺書,這封遺書是不是死者本人寫的等等。

“與警方合作將是一件有趣的事情。警方現有的方法是聘用文件審查員來定性的比較文本之間的相似性和差異。而我們的方法則適用于大數據并自動找到其中潛藏的模式。我認為結合兩者將有利于警察開展工作。”Lorenzen說,他強調這里也同樣需要討論其面臨的倫理問題。

這項利用人工智能來檢測作業中作弊行為的技術,具有廣泛的應用前景。

目前,它還被用來分析Twitter文本,以確定文本內容是由真實用戶撰寫的,還是由水軍或機器人編寫的。也就是說,淘寶店鋪雇傭水軍好評,很有可能也能被識別出來。

相關報道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

我還沒有學會寫個人說明!

GoldenDB ,一個已經全面支撐銀行核心系統的國產數據庫

上一篇

我的代碼和注釋都寫的像坨屎,那又怎么樣?

下一篇

你也可能喜歡

“翟天臨”克星?哥本哈根大學開發反“槍手”AI,識別作業代寫準確率接近90%

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
双色球常规走势图 私立牙科诊所赚钱 手机农场偷菜赚钱游戏下载 新兴平台可以赚钱 身份证注册app赚钱 石天冬怎么赚钱 多少级5开赚钱 自由幻想 小区赚钱 如何让公司赚钱 凡购商城是怎样赚钱 里鬼徽章怎么赚钱 下载程序赚钱的app 银行批量业务赚钱