這個人是世界上最會騙人的教授,他總能想出有趣的點子,設(shè)計有趣的游戲,“騙”你為他干活。
最妙的是,全世界的人都心甘情愿地“上套”。
0 1
第一個“騙局”:標(biāo)記圖片
我們都知道,計算機通常無法直接理解圖像,比如說,你想在網(wǎng)上搜索兔子的圖片,只有正確標(biāo)注了“兔子”標(biāo)簽的圖片才能被找到。
不幸的是,數(shù)以百萬計的在線圖片和視頻要么標(biāo)簽錯誤,要么描述拼寫錯誤,因此搜索引擎幾乎不可能找到它們。
怎么才能給這些圖片打上有意義的標(biāo)簽?zāi)兀?/p>
2003年,路易斯(Luis von Ahn)在卡內(nèi)基梅隆大學(xué)讀博士,他的研究方向是“人機計算”,意思是將人類智力與計算機相結(jié)合,就可以解決任何一方都無法單獨解決的問題。
![]()
為了驗證他的想法,路易斯設(shè)計了一個叫做ESP的游戲。
這個在線游戲極其簡單,用戶登錄后,會隨機分配一個伙伴,兩人互不相識,也無法交流。
然后系統(tǒng)給雙方展示同一張圖片,兩個游戲者的任務(wù)就是輸入可能的詞或者短語來描述這張圖片,如果雙方達(dá)成一致,那個這個詞、短語就會被用來描述這幅圖片。
![]()
新奇的體驗很快吸引了上百萬的玩家,兩年時間內(nèi)就有3000多萬幅圖片被標(biāo)注。
你可能覺得這種方式比較粗糙,比起李飛飛十年后來建立的ImageNet在分類和準(zhǔn)確上差遠(yuǎn)了,但是這種打標(biāo)簽的方式對于搜索引擎來說足夠了。
![]()
比如下面這幅圖片,人們給它打的標(biāo)簽是:guys sitting music,有了這些標(biāo)簽,搜索引擎就足以把它找出來,展示給用戶了。
![]()
2005年是路易斯大獲成功的一年,他的畢業(yè)論文《Human computation》獲得了卡內(nèi)基梅隆大學(xué)計算機學(xué)院的最佳博士論文獎。
同時,他發(fā)明的ESP游戲技術(shù)也被Google看上,將其收購,并將其更名為Google Image Labeler。
0 2
第二個“騙局”:驗證碼
早在2000年,路易斯就和同事一起發(fā)明了驗證碼,有效地阻止了“機器人”自動注冊,發(fā)廣告的難題。
![]()
但是驗證碼對用戶影響巨大:我們不得不瞇起眼睛,小心翼翼地輸入這些單詞,輸錯了就得重來一遍。
路易斯看到這種情況,又開始琢磨了,既然用戶費了這么大勁,為什么不把“識別單詞”這個事兒給利用起來,讓它產(chǎn)生價值呢?
比如有很多書籍,想數(shù)字化進(jìn)入電腦的時候,就得用OCR技術(shù)掃描。![]()
但是對老舊書籍,字體模糊,OCR也識別不了,那能不能讓人來識別呢?
比如有個單詞是fox,在書中模糊看不清了,那就形成圖片,當(dāng)作驗證碼讓用戶來識別。
用戶A看到了,識別成了"fxx"
用戶B看到了,識別成了"fox"
用戶C看到了,識別成了"foc"
用戶D看到了,識別成了"foo"
每個用戶都有自己的識別結(jié)果,系統(tǒng)可以在后臺做交叉驗證,如果發(fā)現(xiàn)大多數(shù)用戶都輸入了fox,那fox就可以認(rèn)為是是正確的詞。
這樣用戶付出的勞動變成了有價值的“人肉OCR”。
可是,這么弄驗證碼的話有個巨大的漏洞:因為系統(tǒng)也不知道正確答案,機器人就可以隨意輸入了!
路易斯就想了另外一招,每次展示兩個詞。
一個詞是系統(tǒng)已知的,當(dāng)作真正的驗證碼。
另外一個詞是系統(tǒng)不確定的單詞,讓用戶做人肉OCR。
舉個例子,下圖中的morning這個詞OCR識別不了,就把它當(dāng)成不確定的詞,讓用戶識別。
與此同時,再提供一個系統(tǒng)已經(jīng)知道的詞“overlooks”,當(dāng)作驗證碼。
![]()
只有那些正確地輸入了overlooks的用戶,系統(tǒng)才認(rèn)為這是一個真人,才會對他輸入的另外一個詞做進(jìn)一步處理(例如交叉驗證)。
2007年,路易斯發(fā)表了一篇論文,把這種驗證碼稱為reCAPTCHA。
reCAPTCHA 不僅提升了網(wǎng)絡(luò)安全,還充分利用了廣大網(wǎng)民的勞動,確實是一個精妙的發(fā)明。
2009年,Google看到reCAPTCHA在大規(guī)模數(shù)字化項目(如圖書數(shù)字化、檔案整理等)上的潛力,把它收購了,開始了一個雄心勃勃的Google圖書館項目,計劃將世界上的每一本書都數(shù)字化,創(chuàng)建一個供所有人訪問的數(shù)字圖書館。
截至2019年,Google利用掃描技術(shù)和reCAPTCHA,一共錄入了4000萬種書籍,非常驚人。
0 3
第三個“騙局”:Duolingo
連續(xù)成功“欺騙”兩次以后,路易斯決定再干一票大的。
在什么行業(yè)折騰比較好呢?
他想起來了自己求學(xué)經(jīng)歷,出生在危地馬拉,這個中北美洲國家非常貧窮,但是路易斯的媽媽卻在教育上傾其所有,讓他就讀于危地馬拉的美國學(xué)校,與危地馬拉富人和外國外交官的子女一起就讀,8歲時就給他買了Commodore 64 計算機,從此路易斯對計算機產(chǎn)生了濃厚的興趣。
![]()
教育太重要了,創(chuàng)業(yè)就做教育方向!
當(dāng)年他申請杜克大學(xué)時,不得不花費 1200 多美元飛往鄰國薩爾瓦多參加托福考試,這筆巨款讓他無比感慨:考試行業(yè)真是壓榨學(xué)生啊!
所以就做語言教育,顛覆這個行業(yè)!
路易斯延續(xù)了reCAPTCHA的思路,建立了一個叫做Duolingo的“眾包翻譯”網(wǎng)站。
![]()
這個網(wǎng)站上有各種語言(英語、法語、德語、中文......)的課程,用戶學(xué)完課程以后,會遇到一些翻譯練習(xí),這些句子并不是隨便寫的,而是來自真實的文章(比如CNN的新聞文章、BuzzFeed的網(wǎng)站內(nèi)容),系統(tǒng)把同一段文字分配給多個學(xué)習(xí)者,采納最合理的結(jié)果。
更妙的是,翻譯的結(jié)果可以再賣給CNN、BuzzFeed賺錢!
很多人笑稱:在Duolingo,大家一邊學(xué)習(xí),一邊被“騙去打工”。
學(xué)習(xí)者得到免費學(xué)習(xí),企業(yè)得到低成本翻譯,這種雙贏的模式雖然聽起來很好聽,但是不太適合擴展,像CNN、BuzzFeed這樣的客戶太少,從長期來看,這種“勞動變現(xiàn)”的故事很酷,但并不符合教育產(chǎn)品的核心。
2014年,Duolingo逐漸將盈利的重點轉(zhuǎn)向廣告、考試(Duolingo English Test)和后來的訂閱服務(wù)(Duolingo Plus/Super)。
不過Duolingo那種游戲化學(xué)習(xí)的方式,得到了很好的保留:
每次學(xué)習(xí)都是一個“關(guān)卡”;
練習(xí)有經(jīng)驗值(XP)、連勝天數(shù)(streak);
失敗時會扣除“l(fā)ives”,需要重新挑戰(zhàn);
用戶可以和朋友競爭排名。
這種機制讓學(xué)習(xí)語言變成了刷游戲,很多人本來只是隨便試試,卻被連續(xù)打卡的 streak 機制“套牢”。
有用戶 streak 了 1000 多天,生怕斷掉,于是出國時寧愿用漫游網(wǎng)絡(luò)也要繼續(xù)練習(xí)。
如果你注冊了,但不學(xué)習(xí),Duolingo的催促機制也非常詼諧幽默,有網(wǎng)友曬 streak 破千的截圖,評論區(qū)全是“我不敢停,怕貓頭鷹半夜來我家”。
每次我看到Duolingo發(fā)的郵件,都會忍不住會心一笑,點開鏈接,再去學(xué)一會兒。
![]()
2013 年,蘋果公司將 Duolingo 評選為年度 iPhone 應(yīng)用,這是教育類應(yīng)用的首例。
2014年,Duolingo Crunchies 大賽中榮獲最佳教育初創(chuàng)公司獎,并且是 2013 年和 2014 年 Google Play 中下載次數(shù)最多的“教育應(yīng)用”。
2018,2019年入選CNBC“50大顛覆者”榜單。
2020 年 7 月,《個人電腦雜志》將其評為“最佳免費語言學(xué)習(xí)應(yīng)用”
如今,Duolingo支持43種語言的課程和認(rèn)證,從熱門的語言(英語,法語,德語)到瀕臨滅絕的語言(夏威夷語,納瓦霍語等)都有覆蓋,甚至還有《權(quán)力的游戲》中的高等瓦雷利亞語(High Valyrian)和《星際迷航》中的克林貢語(Klingon)!
![]()
Duolingo 的用戶群體,也超出了創(chuàng)始人最初的預(yù)期,從發(fā)展中國家的低收入群體,到中學(xué)大學(xué)的學(xué)生,甚至在歐洲難民潮期間,很多敘利亞難民用 Duolingo 免費學(xué)習(xí)德語和英語,以便融入新的環(huán)境。Duolingo 因此被 NGO、聯(lián)合國等機構(gòu)推薦。
![]()
路易斯說:“我們最自豪的不是市值,而是有數(shù)以百萬計的人因為 Duolingo 改變了人生軌跡。”
0 4
總結(jié)
從標(biāo)記圖片,到驗證碼,再到學(xué)習(xí)語言,路易斯這三次“欺騙”都獲得了巨大的成功。
而這一切背后的的核心思想,就是路易斯的博士論文《Human computation》:把一些計算機難以完成,但人類很擅長的任務(wù),通過某種方式分配給人來做,然后把結(jié)果匯總起來,就好像是人類在“充當(dāng)計算機的一部分”。
用這種方式,把每個人微不足道的碎片時間和好奇心利用起來,匯集成不可阻擋的洪流。
這就是最了不起的騙局,它不僅沒有傷害,反而形成了推動世界進(jìn)步的力量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.