我給AI當(dāng)老師:辛苦又廉價(jià),比教人還費(fèi)勁

2023-02-20 12:33:28來(lái)源:引領(lǐng)外匯網(wǎng)

我給AI當(dāng)老師:辛苦又廉價(jià),比教人還費(fèi)勁,人工智能也沒(méi)那么神奇,多少人把幾百萬(wàn)、幾千萬(wàn)的句子掰開(kāi)揉碎了教它才教明白,教人才沒(méi)這么費(fèi)勁。

人工智能也沒(méi)那么神奇,多少人把幾百萬(wàn)、幾千萬(wàn)的句子掰開(kāi)揉碎了教它才教明白,教人才沒(méi)這么費(fèi)勁。

編者按:本文來(lái)自微信公眾號(hào) 經(jīng)濟(jì)觀察報(bào) (ID:eeo-com-cn),作者:鄭晨燁,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

每當(dāng)丈夫上班、兒子返校,家住武漢的全職媽媽吳海燕便會(huì)坐到電腦前開(kāi)始一天的工作,在一個(gè)被稱(chēng)為“freespace魚(yú)眼語(yǔ)義分割”的項(xiàng)目中進(jìn)行標(biāo)注工作。


【資料圖】

之所以叫魚(yú)眼語(yǔ)義分割,是因?yàn)閰呛Q鄻?biāo)注的圖片全都來(lái)源于車(chē)載魚(yú)眼攝像頭所錄視頻。這些圖片的場(chǎng)景大多在停車(chē)場(chǎng)中,吳海燕需要做的是利用點(diǎn)陣工具,將立柱、柵欄、機(jī)動(dòng)車(chē)、行人等物體的接地點(diǎn)標(biāo)出并鏈接,形成一塊藍(lán)色的封閉多邊形區(qū)域,這塊區(qū)域就是freespace(可行駛區(qū)域)。

當(dāng)吳海燕將一段視頻的300幀圖像全部標(biāo)注好,這些數(shù)據(jù)集便可用于訓(xùn)練智能汽車(chē)的自動(dòng)駕駛算法,幫助AI(人工智能)理解在停車(chē)場(chǎng)哪些區(qū)域可以行駛、哪些區(qū)域可以泊車(chē)以及哪些區(qū)域不能觸碰。

“現(xiàn)在看到新聞里很火的ChatGPT都有種親切感,好像是自己手把手教出來(lái)的?!?月15日,吳海燕告訴經(jīng)濟(jì)觀察報(bào)。

這樣一份可以被形容為AI“老師”的工作,在《國(guó)家職業(yè)分類(lèi)大典(2022年版)》中被稱(chēng)為數(shù)據(jù)標(biāo)注員,即通過(guò)對(duì)圖片、語(yǔ)音、文本等數(shù)據(jù)進(jìn)行標(biāo)注和加工,為AI算法學(xué)習(xí)及優(yōu)化提供樣本。

像吳海燕這樣的兼職數(shù)據(jù)標(biāo)注員,僅在其工作的平臺(tái)就有近兩萬(wàn)人,他們的職業(yè)背景和社會(huì)身份各異,既有吳海燕這樣的家庭主婦,也有大城市的基層白領(lǐng),以及部分殘障人士。

這些數(shù)據(jù)標(biāo)注員正處在火熱AI賽道的最底層,用日復(fù)一日的枯燥勞動(dòng),為如今大放異彩的各類(lèi)AI應(yīng)用提供重要的數(shù)據(jù)養(yǎng)料,他們所在的行業(yè)也被統(tǒng)稱(chēng)為“人工智能基礎(chǔ)數(shù)據(jù)服務(wù)”。

根據(jù)IDC發(fā)布的數(shù)據(jù),近5年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模年復(fù)合增長(zhǎng)率達(dá)到47%,預(yù)期2025年將突破120億元,占到中國(guó)人工智能市場(chǎng)規(guī)??傤~約10%。

一、“數(shù)據(jù)標(biāo)注員”

2月15日,經(jīng)濟(jì)觀察報(bào)記者在兼職平臺(tái)報(bào)名了一份數(shù)據(jù)標(biāo)注員的兼職,當(dāng)晚,項(xiàng)目負(fù)責(zé)人趙強(qiáng)杰電話詢(xún)問(wèn)了記者的基本情況,隨后將記者拉至一個(gè)名為“試標(biāo)”的微信群里。

“新進(jìn)群的同學(xué)先看群公告,再看聊天記錄里的視頻,看完有想做(數(shù)據(jù)標(biāo)注)的,私聊找我試標(biāo),只差三個(gè)人了。”

這是一份時(shí)長(zhǎng)36分鐘的標(biāo)注培訓(xùn)視頻,示范了如何在一幀車(chē)載魚(yú)眼攝像頭錄制的視頻中,通過(guò)將立柱、機(jī)動(dòng)車(chē)、行人等障礙物的接地點(diǎn)連接到一塊,從而精準(zhǔn)標(biāo)注出一塊藍(lán)色區(qū)域。

“標(biāo)注人員需以封閉多邊形的形式標(biāo)出視頻每一幀畫(huà)面中障礙物接地點(diǎn)freespace的邊界?!迸c教學(xué)視頻配套的另一份培訓(xùn)文檔上有對(duì)該項(xiàng)目的概述。

“freespace簡(jiǎn)單說(shuō)就是可行駛區(qū)域,常見(jiàn)于泊車(chē)場(chǎng)景的數(shù)據(jù)標(biāo)注,通過(guò)將柵欄、墻面等障礙物阻隔的近端區(qū)域,未被機(jī)動(dòng)車(chē)占用的可泊車(chē)位等邊界的像素坐標(biāo)信息標(biāo)注后,用于幫助AI定義可行駛區(qū)域,可以實(shí)現(xiàn)自動(dòng)泊車(chē)、一鍵呼叫等功能?!鄙虾R患抑悄苡布髽I(yè)的算法工程師馮易向經(jīng)濟(jì)觀察報(bào)解釋。

趙強(qiáng)杰所說(shuō)的試標(biāo),便是兼職數(shù)據(jù)標(biāo)注員的面試,通過(guò)標(biāo)注“實(shí)戰(zhàn)”來(lái)測(cè)試應(yīng)聘者的工作能力,在大致看完了標(biāo)注項(xiàng)目的教學(xué)視頻后,記者私聊了趙強(qiáng)杰,表達(dá)了想要試標(biāo)的意愿,隨后得到一個(gè)測(cè)試賬號(hào)。

記者登錄一個(gè)名為數(shù)加加眾包的數(shù)據(jù)標(biāo)注平臺(tái),并在其中打開(kāi)了趙強(qiáng)杰指定的測(cè)試項(xiàng)目。在觀看教學(xué)視頻之初,這份標(biāo)注工作的難度并不高,只不過(guò)是按照既定規(guī)則將畫(huà)面中可行駛區(qū)域標(biāo)注出來(lái)。

但在實(shí)際操作過(guò)程中,記者還是遇到了不少難題,例如畫(huà)面中遠(yuǎn)處的立柱被遮擋,無(wú)法準(zhǔn)確標(biāo)出邊界與接地點(diǎn),抑或是畫(huà)面遠(yuǎn)處過(guò)于模糊,無(wú)法區(qū)分標(biāo)注物體所屬類(lèi)型。

用了將近10分鐘,記者勉強(qiáng)完成了第一幀圖像的標(biāo)注,過(guò)程中,趙強(qiáng)杰多次催促了記者。

“你確定你看過(guò)視頻了嗎?看過(guò)視頻是不可能還標(biāo)成這樣的,要像你這樣標(biāo),AI學(xué)完車(chē)就直接撞柱子上了?!痹谑盏搅嗽嚇?biāo)注的圖像后,趙強(qiáng)杰向記者反饋。

他還告訴記者,通常一段魚(yú)眼視頻會(huì)有20幀圖像需要標(biāo)注,熟練的數(shù)據(jù)標(biāo)注員一天需要標(biāo)200~300幀畫(huà)面,像記者這樣的標(biāo)注速度無(wú)法勝任兼職工作。

圖說(shuō):上圖為記者完成的道路場(chǎng)景語(yǔ)義分割標(biāo)注,下圖為符合AI訓(xùn)練標(biāo)準(zhǔn)的道路場(chǎng)景語(yǔ)義分割標(biāo)注。

在記者進(jìn)行試標(biāo)的同時(shí),一位在深圳上班的白領(lǐng)董程也加入了趙強(qiáng)杰的群。

他稍早前在社交平臺(tái)上看到有關(guān)兼職數(shù)據(jù)標(biāo)注員的介紹信息,隨后被“下班兼職、工資日結(jié)、日薪300、就像連連看”等關(guān)鍵詞吸引,在私聊發(fā)布信息的博主后,獲得了趙強(qiáng)杰的聯(lián)系方式并進(jìn)群。

同記者一樣,董程也在隨后的試標(biāo)中被趙強(qiáng)杰淘汰,記者對(duì)比了董程標(biāo)注的截圖與趙強(qiáng)杰提供的正確標(biāo)注截圖,發(fā)現(xiàn)除了個(gè)別點(diǎn)位的標(biāo)注不同外,大致區(qū)域范圍其實(shí)并沒(méi)有太大差異。

“自動(dòng)駕駛類(lèi)的數(shù)據(jù)標(biāo)注需求是很?chē)?yán)的,不精細(xì)的數(shù)據(jù)甲方是不會(huì)驗(yàn)收的,你看起來(lái)可能就差一點(diǎn)點(diǎn),但是人人都差一點(diǎn)點(diǎn),累積起來(lái)給到AI訓(xùn)練那邊可能就會(huì)是天大的錯(cuò)誤,如果出現(xiàn)無(wú)效訓(xùn)練,輕則浪費(fèi)一些成本,重則要出人命的?!泵鎸?duì)記者的疑問(wèn),趙強(qiáng)杰說(shuō)。

深圳一家AI企業(yè)的產(chǎn)品經(jīng)理何茂對(duì)記者表示,在算力、算法和數(shù)據(jù)構(gòu)成AI應(yīng)用的三大要素中,訓(xùn)練的準(zhǔn)備數(shù)據(jù)可以算得上是最重要環(huán)節(jié),谷歌大腦創(chuàng)始人吳恩達(dá)就曾指出:“AI研究80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,確保數(shù)據(jù)質(zhì)量是最重要的工作;業(yè)界如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機(jī)器學(xué)習(xí)的發(fā)展會(huì)更快。”

何茂告訴記者,當(dāng)前主流的機(jī)器學(xué)習(xí)算法為有監(jiān)督學(xué)習(xí),即讓機(jī)器通過(guò)標(biāo)簽化的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,“就像人類(lèi)一樣,小時(shí)候有人告訴你什么是汽車(chē),什么是飛機(jī),教你學(xué)會(huì)了鑒別,這就叫有監(jiān)督學(xué)習(xí)”。

而在有監(jiān)督學(xué)習(xí)中,通過(guò)對(duì)大量原始語(yǔ)音、視頻、文本及圖片數(shù)據(jù)進(jìn)行加工處理,從而使機(jī)器能夠識(shí)別和學(xué)習(xí)這些信息的數(shù)據(jù)標(biāo)注工作,便成了機(jī)器學(xué)習(xí)順利進(jìn)行的關(guān)鍵環(huán)節(jié)?!皩?duì)經(jīng)過(guò)標(biāo)注的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,可以讓AI在未來(lái)再次接收到對(duì)應(yīng)數(shù)據(jù)時(shí),能夠進(jìn)行簡(jiǎn)單分類(lèi)并輸出正確判斷,例如freespace數(shù)據(jù)標(biāo)注,便能夠讓AI在泊車(chē)場(chǎng)景下快速判斷可行駛區(qū)域與可停泊車(chē)位,所以數(shù)據(jù)標(biāo)注就像是AI的啟蒙老師,教給不同場(chǎng)景下的AI最基礎(chǔ)的鑒別和分類(lèi)功能?!焙蚊忉?。

馮易指出,對(duì)于有監(jiān)督學(xué)習(xí)算法來(lái)說(shuō),訓(xùn)練數(shù)據(jù)的需求空間還很大,所以基礎(chǔ)數(shù)據(jù)服務(wù)對(duì)模型算法發(fā)揮著關(guān)鍵支撐作用。

二、“訓(xùn)練”ChatGPT

根據(jù)應(yīng)用場(chǎng)景的不同,數(shù)據(jù)標(biāo)注也分很多類(lèi)型,像趙強(qiáng)杰、吳海燕最近在做的魚(yú)眼freespace標(biāo)注就屬于語(yǔ)義分割的一種。

“根據(jù)不同物體、區(qū)域的外形進(jìn)行描邊標(biāo)注,將對(duì)應(yīng)邊界像素?cái)?shù)據(jù)對(duì)應(yīng)到具體類(lèi)別和屬性,使機(jī)器能夠快速識(shí)別,相當(dāng)于告訴機(jī)器什么樣的是車(chē)、什么樣的是路、什么樣的是樹(shù)等等,主要應(yīng)用在自動(dòng)駕駛、智慧安防等場(chǎng)景?!焙蚊嬖V記者。

而近期大火的ChatGPT屬于NLP(自然語(yǔ)言處理)模型的一種,這類(lèi)模型的訓(xùn)練同樣需要標(biāo)注員進(jìn)行對(duì)應(yīng)的數(shù)據(jù)標(biāo)注,趙強(qiáng)杰在去年底就曾接到過(guò)自然語(yǔ)義類(lèi)型的標(biāo)注任務(wù),“那是一個(gè)十萬(wàn)條的新聞情感分類(lèi)標(biāo)注項(xiàng)目,要根據(jù)每條新聞的內(nèi)容進(jìn)行正面、中性、負(fù)面三種類(lèi)型的標(biāo)注”。

據(jù)了解,情感標(biāo)注是指針對(duì)原始文本、語(yǔ)音等自然語(yǔ)言?xún)?nèi)容進(jìn)行情緒傾向的判定,幫助NLP模型人類(lèi)語(yǔ)境與情感。

趙強(qiáng)杰舉例,“比如,機(jī)器收到了一句‘今天是周五’,這句話可能在傳達(dá)正面情緒,如果后面緊接著補(bǔ)一句‘我還要加班’,就變成了負(fù)面情緒的表達(dá),理解用戶情緒能夠幫助AI更好地組織回答”。

在趙強(qiáng)杰展示的項(xiàng)目說(shuō)明文檔中,記者看到了其團(tuán)隊(duì)去年所接新聞情感標(biāo)注項(xiàng)目的具體要求,客戶希望標(biāo)注團(tuán)隊(duì)根據(jù)新聞內(nèi)容,判斷其對(duì)經(jīng)濟(jì)的影響好壞,從而進(jìn)行三種類(lèi)型的分類(lèi)。

例如,在該文檔中,有一則新聞內(nèi)容是在去年北京市某場(chǎng)新冠疫情防控工作新聞發(fā)布會(huì)上,通報(bào)了多名違反疫情防控相關(guān)規(guī)定,及涉嫌妨害傳染病防治罪的相關(guān)責(zé)任人,該則新聞的標(biāo)注處有一個(gè)數(shù)字0,即此新聞表達(dá)的為負(fù)面情緒。

“情感標(biāo)注的項(xiàng)目任務(wù)比較常見(jiàn),除了在智能客服、智能家居領(lǐng)域,還可以用在輿情監(jiān)測(cè)上,幫助企業(yè)快速鎖定負(fù)面輿情,進(jìn)行公關(guān)處理。”趙強(qiáng)杰說(shuō)。

相較于略顯簡(jiǎn)單的情感標(biāo)注,吳海燕去年還曾參與過(guò)更為復(fù)雜的詞性及句法標(biāo)注,這類(lèi)經(jīng)過(guò)標(biāo)注后的數(shù)據(jù),便被用于訓(xùn)練類(lèi)似于ChatGPT這類(lèi)自然語(yǔ)言處理模型。

吳海燕回憶,該項(xiàng)目的原始數(shù)據(jù)主要為采集自各類(lèi)社交平臺(tái)評(píng)論區(qū)的語(yǔ)句,標(biāo)注員要將語(yǔ)句中的詞匯語(yǔ)法屬性以及句中的依存關(guān)系進(jìn)行標(biāo)注。

以“今天凌晨蘋(píng)果公司發(fā)布了iPhone14”一句為例,該句中一共有“今天、凌晨、蘋(píng)果、公司、發(fā)布、了、iPhone、14”八個(gè)需要標(biāo)注的詞性以及依存句法,其中今天為時(shí)間詞,標(biāo)注為t,該短語(yǔ)又屬于定中關(guān)系,需標(biāo)注為ATT;凌晨同樣屬于時(shí)間詞,標(biāo)注為t,但在句法上屬于狀中結(jié)構(gòu)需標(biāo)注為ADV。

“原始的文本數(shù)據(jù)直接給到機(jī)器當(dāng)然是識(shí)別不了的,所以需要進(jìn)行標(biāo)注,給每一個(gè)詞語(yǔ)、句子進(jìn)行定性,從而可以使用模型做分析和表達(dá)。”馮易向記者解釋。

他告訴記者,目前中文領(lǐng)域主流的詞性標(biāo)注法,為北京大學(xué)計(jì)算語(yǔ)言所在2003年推出的語(yǔ)料庫(kù)加工規(guī)范,其中將中文詞性分為39類(lèi),包括“形容詞、時(shí)間詞、人名、地名、成語(yǔ)”等等,而中文作為典型的大字符集語(yǔ)言,僅僅標(biāo)注詞性仍難以用于高效訓(xùn)練模型,因此就需要進(jìn)一步標(biāo)注句法。

“常用的漢字可能都有七八千個(gè),所有漢字加一塊有10萬(wàn)個(gè),還存在同音、同義、歧義等情況,這就需要將句法標(biāo)注和詞性標(biāo)注結(jié)合起來(lái),依存句法標(biāo)注簡(jiǎn)單來(lái)說(shuō),就是分解一段句子,尋找其內(nèi)部詞語(yǔ)之間的依存關(guān)系,從而實(shí)現(xiàn)對(duì)不同語(yǔ)句結(jié)構(gòu)的高效概括,讓AI能夠通過(guò)分析句子結(jié)構(gòu)提煉出相關(guān)信息,以便更準(zhǔn)確、自然地給到用戶回復(fù)?!瘪T易表示。

何茂亦表示,諸如詞性及句法標(biāo)注只不過(guò)邁出了NLP模型訓(xùn)練的第一步,后續(xù)還要經(jīng)過(guò)特征工程(將詞句向量化,便于計(jì)算機(jī)識(shí)別)、選擇模型、訓(xùn)練模型、評(píng)估模型及測(cè)試上線,如果沒(méi)有高質(zhì)量的優(yōu)秀訓(xùn)練數(shù)據(jù)集作為基礎(chǔ),后面的所有工作都無(wú)從談起。

“ChatGPT的誕生本質(zhì)上還是屬于‘大力出奇跡’的事情,依靠大數(shù)據(jù)、高算力、大模型硬堆出來(lái)的人工智能,背后包含了數(shù)不清的標(biāo)注員、訓(xùn)練師的勞動(dòng)成果?!焙蚊f(shuō)。

如今,回憶起去年曾經(jīng)參與的文本標(biāo)注項(xiàng)目,再來(lái)看眼下到處都能刷到的有關(guān)ChatGPT的新聞,吳海燕覺(jué)得有些不以為然:“人工智能也沒(méi)那么神奇,多少人把幾百萬(wàn)、幾千萬(wàn)的句子掰開(kāi)揉碎了教它才教明白,教人才沒(méi)這么費(fèi)勁?!?/p>三、“企業(yè)工會(huì)”的眾包

“你是數(shù)加加公司的人嗎?是代表數(shù)加加招人嗎?”在記者加入的試標(biāo)群中,有應(yīng)聘者艾特了趙強(qiáng)杰提問(wèn)。

“我們是數(shù)加加旗下的企業(yè)公會(huì),就是以團(tuán)隊(duì)形式領(lǐng)取任務(wù)的眾包組織,群里只有我一個(gè)對(duì)接人,其他人找你們都不要相信?!壁w強(qiáng)杰回答。

眾包即一家企業(yè)或機(jī)構(gòu)將工作任務(wù)拆分包裝為不同的項(xiàng)目,以自愿自由的形式通過(guò)互聯(lián)網(wǎng)外包給非特定群體。

國(guó)內(nèi)最早讓大眾了解到眾包的,便是每日穿行在大街小巷的百萬(wàn)外賣(mài)小哥,對(duì)企業(yè)來(lái)說(shuō),眾包降低了用工成本,提高了業(yè)務(wù)運(yùn)行效率,對(duì)從業(yè)者來(lái)說(shuō),眾包形式靈活、多勞多得。

而對(duì)人工智能數(shù)據(jù)標(biāo)注這樣的工作來(lái)說(shuō),以眾包模式運(yùn)轉(zhuǎn)無(wú)疑是最優(yōu)解,因?yàn)閿?shù)據(jù)標(biāo)注這份工作實(shí)在是太過(guò)瑣碎、辛苦且廉價(jià)。

像趙強(qiáng)杰就已經(jīng)記不清遇到過(guò)多少干了兩天就打退堂鼓的標(biāo)注員,“大家都覺(jué)得這份工作簡(jiǎn)單,好像坐在電腦前把東西框起來(lái)就能輕輕松松掙錢(qián),實(shí)際哪有那么好的事”。

對(duì)AI訓(xùn)練來(lái)說(shuō),數(shù)據(jù)標(biāo)注的質(zhì)量具有十分重要的意義,如果在標(biāo)注過(guò)程中出現(xiàn)不準(zhǔn)確乃至錯(cuò)誤,很有可能會(huì)導(dǎo)致十分嚴(yán)重的后果?!氨热玺~(yú)眼語(yǔ)義分割,該標(biāo)的柱子沒(méi)標(biāo)出來(lái),該圈的區(qū)域沒(méi)圈進(jìn)去,AI學(xué)習(xí)完,把車(chē)撞柱子上,或者死活識(shí)別不了空車(chē)位泊不進(jìn)去”。

他以一個(gè)2D拉框任務(wù)向記者說(shuō)明標(biāo)注工作所需的細(xì)致程度,其在標(biāo)注平臺(tái)上打開(kāi)了一張車(chē)輛在道路上行駛的照片,并指出記者的目標(biāo)是將該照片中的物體分別打框標(biāo)記。記者在圖片中唯一一輛皮卡車(chē)上畫(huà)了一個(gè)框,并提交了任務(wù)??吹接浾甙l(fā)來(lái)的標(biāo)注成果后,趙強(qiáng)杰樂(lè)了:“你再仔細(xì)看看,這個(gè)圖里只有這一輛車(chē)嗎?”記者反復(fù)查看圖片,確認(rèn)只有這一輛機(jī)動(dòng)車(chē)后,再次向趙強(qiáng)杰提交了標(biāo)注圖片。

當(dāng)看到趙強(qiáng)杰發(fā)來(lái)的正確標(biāo)注圖片后,記者才明白自己的錯(cuò)誤有多“離譜”。

在正確的標(biāo)注圖片上,除了記者框定的那“唯一”一輛機(jī)動(dòng)車(chē)外,道路上的交通標(biāo)線,路兩旁的行道樹(shù),甚至在樹(shù)蔭遮蔽下只顯露了一小截的電線桿,以及畫(huà)面遠(yuǎn)處幾乎濃縮為幾個(gè)像素點(diǎn)的三輪車(chē)都需要標(biāo)注?!澳惝?huà)框的方式也不對(duì),畫(huà)的范圍太大了,框線應(yīng)該要緊緊貼著目標(biāo)物體,不要留出空隙。”趙強(qiáng)杰又指出記者的一個(gè)錯(cuò)誤。

他告訴記者,對(duì)標(biāo)注員的工作質(zhì)量,其公會(huì)的考核十分嚴(yán)格,例如最近正在進(jìn)行的魚(yú)眼分割項(xiàng)目,如果一名標(biāo)注員連續(xù)標(biāo)錯(cuò)了三幀畫(huà)面,會(huì)被直接取消當(dāng)月結(jié)算資格?!澳銇?lái)我們這干肯定拿不到錢(qián)?!壁w強(qiáng)杰調(diào)侃。

但記者注意到,能夠精準(zhǔn)標(biāo)注、極少犯錯(cuò)的熟練標(biāo)注員,月收入其實(shí)也很低,遠(yuǎn)沒(méi)有各類(lèi)平臺(tái)上宣傳的“輕輕松松五六千”那么風(fēng)光。

“現(xiàn)在標(biāo)一個(gè)框基本就三到四分錢(qián),甚至更低,我又是兼職,有的時(shí)候標(biāo)得頭暈眼花,一個(gè)月下來(lái)還沒(méi)有一千塊錢(qián)?!眳呛Q嗾f(shuō)。

趙強(qiáng)杰也表示,其公會(huì)旗下熟練標(biāo)注員的時(shí)薪大多在10~15元左右。

他統(tǒng)計(jì),能夠長(zhǎng)期堅(jiān)持在標(biāo)注領(lǐng)域干下來(lái)的成員,大多為家庭主婦、制造業(yè)跨行、長(zhǎng)期自由職業(yè)人士等,而像董程這類(lèi)有穩(wěn)定工作的白領(lǐng),就算試標(biāo)通過(guò),也不會(huì)穩(wěn)定在此兼職。

對(duì)于人工智能基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域的商業(yè)模式,2021年登陸科創(chuàng)板的國(guó)內(nèi)人工智能基礎(chǔ)數(shù)據(jù)龍頭海天瑞聲(688787.SH)曾在其招股說(shuō)明書(shū)中有過(guò)詳細(xì)披露——

此外,海天瑞聲答復(fù)上市問(wèn)詢(xún)函時(shí)透露,2019年度,在其一體化數(shù)據(jù)處理平臺(tái)注冊(cè)賬號(hào)的終端勞務(wù)人員達(dá)到了6.93萬(wàn)人,同期該公司的員工僅142人。

海天瑞聲在生產(chǎn)訓(xùn)練數(shù)據(jù)的過(guò)程中,通過(guò)對(duì)接第三方數(shù)據(jù)服務(wù)供應(yīng)商、人力資源外包服務(wù)公司的形式解決了大規(guī)模勞務(wù)人員需求,在這一過(guò)程中,甚至還可能出現(xiàn)層層外包的情況。

這在一定程度上解釋了為何像吳海燕、趙強(qiáng)杰一樣的產(chǎn)業(yè)底層數(shù)據(jù)標(biāo)注從業(yè)者,在經(jīng)歷了繁瑣、枯燥、重復(fù)且辛苦的工作后,依然得不到一份“像樣”的回報(bào)。

不過(guò),雖然背靠眾包模式搭建起了一座低成本的人工智能數(shù)據(jù)工廠,但海天瑞聲上市以來(lái)的財(cái)務(wù)表現(xiàn)卻始終差強(qiáng)人意。

其2020年至2021年的營(yíng)收分別為2.33億元及2.06億元,同比下滑了1.76%、11.53%,其2022年的營(yíng)收有所回暖,前三季度同比增長(zhǎng)27.82%,但扣非凈利潤(rùn)仍舊延續(xù)跌勢(shì),1.67億元的營(yíng)收只有427萬(wàn)元的凈利潤(rùn),同比暴跌77.76%。

“人工智能行業(yè)整體發(fā)展迅速,應(yīng)用領(lǐng)域和場(chǎng)景日趨復(fù)雜,像打個(gè)框、標(biāo)個(gè)點(diǎn)這樣簡(jiǎn)單的標(biāo)注工作也很快會(huì)被AI取代,以后的標(biāo)注工作只會(huì)越來(lái)越專(zhuān)業(yè),越來(lái)越復(fù)雜,ChatGPT就是一個(gè)很典型的例子,人家已經(jīng)實(shí)現(xiàn)了AI教育AI。”何茂指出。

在他看來(lái),隨著下游需求不斷變化,上游一眾人工智能基礎(chǔ)數(shù)據(jù)服務(wù)企業(yè)若還沉迷于提供勞動(dòng)密集型服務(wù),很快也將面臨淘汰。

在采訪即將結(jié)束時(shí),記者調(diào)侃趙強(qiáng)杰就像是一位在AI時(shí)代的富士康里上班的線長(zhǎng),他的回答卻是:“標(biāo)注員跟富士康里的民工比不了,人家包吃包住,簽勞動(dòng)合同,有五險(xiǎn)一金。”

本文(含圖片)為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。

關(guān)鍵詞: 數(shù)據(jù)標(biāo)注員

責(zé)任編輯:hnmd004