![]()
日前,《天津日報》刊發《濱海新區打造數據標注產業高地 訂單足 AI“啟蒙老師”忙不停》文章,聚焦位于天津經開區的北方高端數據標注產業園,揭秘數據標注如何為人工智能提供認知世界的“第一手教材”。
![]()
給AI(人工智能)當“啟蒙老師”,是一種怎樣的角色?
今年以來,北方高端數據標注產業園加快推進河北鼎聯科技有限公司智能標注平臺、高端標注行業能力中心等項目建設。作為我市首個數據類產業園區,園區內不少企業在給AI當“啟蒙老師”。
“我們用精準的數據標注,為AI提供認識真實世界的第一手教材,讓AI學會看懂路、理解人、服務生活。”作為數據標注行業的“老兵”,天津經緯智圖信息技術有限公司(以下簡稱經緯智圖)總經理張紅告訴記者,“我們聚焦高精地圖、智慧出行、具身智能、新零售等領域,把原始數據加工成適配AI模型訓練的優質‘燃料’,并一點點打磨、校準,讓模型變得更聰明、更精準。”
在人工智能時代,數據被譽為“新石油”,而標注則是將數據“原油”煉成“汽油”的關鍵工藝。依托天津經開區內的國家級人力資源產業園、中國北方首家數字游民國際人才港、泰達中小企業園片區等資源,北方高端數據標注產業園已聚集經緯智圖、融匯(天津)智能科技有限公司等近10家數據標注企業,年產值超過1億元。
新興業務持續增長
引入“AI教AI”模式
從事數據標注行業10余年,張紅發現具身智能等AI領域的標注業務增長很快。“今年,我們接了一些自動駕駛、機器人方面的標注項目,這類業務以前占比不到5%,現在超過了20%,未來有望達到50%。”他說。
隨著AI市場持續火爆,數據標注需求水漲船高,也讓經緯智圖更忙了。
“最近,我們剛談下與廣東一家移動出行科技公司的業務合作,訂單量十分充足。”張紅告訴記者,公司數據標注業務主要覆蓋智慧出行、倉儲物流、教育培訓及智能機器人等應用場景,業務伙伴以京津冀地區頭部出行機構、互聯網平臺為主,其中北京客戶占比約八成。
日前,記者走進經緯智圖數據標注基地,100余名數據標注員點擊鼠標的聲音此起彼伏。屏幕上鋪滿了各類圖片和數據,大家紛紛用鼠標拖動標記框或勾勒線路,精準標記著每一個要素。
“你看,這條鄉間小路之前并沒有被標注出來,但通過司機行車軌跡形成的熱力圖,我們發現‘原來這里真的可以走’。”現場,數據標注員王霞對記者說,基于熱力數據和實景圖片,她在電子地圖上把這條路“畫”了出來,讓原本無法導航的區域實現精準導航。“我主要做圖片標記、倉庫地圖繪制等業務,忙的時候一天處理上千條信息。”她說。
怎樣判斷AI“啟蒙老師”是否稱職?
張紅給出的答案是:數據標注準確率需達到99.9%以上,這意味著每1000個標注樣本中,最多只能錯1個。
為提升數據標注能力,張紅聯手河北鼎聯科技有限公司開發了“鼎聯AI數據標注平臺”。該平臺已會聚全國各地超16萬名兼職標注員,其中不乏金融、醫療、工業等領域的專業人才。大家可在平臺完成線上培訓、接單、生產、驗收、交付、結算的全流程工作。
專業人才的加持,讓數據標注準確率穩步提升。除此之外,張紅還有另一項“殺手锏”——引入智能標注技術,讓“AI教AI”。
“AI算法可以先自動識別出圖片中車輛、紅綠燈等物體并標注位置,人工只需快速復核,修正個別錯誤。”張紅介紹,這種通過AI模型實現的智能標注技術,可使整體標注效率提升30%以上,適用于智能駕駛、智慧教育、工業質檢等標準化場景。“目前,我們以人機協同作業為主,對于判定難度較高的復雜數據,會人工二次標注確認,確保每一份交付數據的質量。”他說。
“采標一體”成趨勢
產業園打造特色標桿
隨著具身智能等領域快速發展,高質量數據集的重要性愈發凸顯。
“過去做數據標注,更看重數據量夠不夠大、夠不夠全;如今則更注重數據品質,但不少場景并沒有現成可用的數據資源。”張紅坦言,比如讓機器人疊衣服這類操作,就缺乏高質量數據集支撐,必須開展全新的數據采集工作,這也為數據標注行業帶來新的發展空間。
眼下,經緯智圖正著手布局數據采集相關業務,例如借助穿戴設備還原人類動作,在采集數據的同時完成標注工作,形成“采標一體”的業務閉環,提供涵蓋數據采集、清洗處理到標注的一站式服務。這意味著,數據標注逐漸從早期的基礎“啟蒙教學”階段,向著高品質、智能化、一體化方向升級,為人工智能發展提供源源不斷的“動力原料”。
為推動數據標注產業高質量發展,北方高端數據標注產業園放眼長遠,著力培育“標注服務+技術研發+場景應用+人才培育”四位一體的產業生態。
“這個產業園緊鄰長城汽車、騰訊、博蘊生物等龍頭企業,能夠快速響應本地市場需求,未來將構建從數據標注、模型訓練到產業應用的完整發展閉環,形成發展合力。”天津經開區工業和信息化局相關負責人介紹,目前,北方高端數據標注產業園正加快建設智能標注產業賦能平臺與專項算力支持平臺,服務覆蓋數據處理、質量評測、模型測試、人才實訓等全鏈條環節,并配備高性能算力資源,保障大規模標注任務高效推進;同時,與天津科技大學等高校開展數據標注工程師定向人才培養,年培養規模有望達2000人以上。
按照規劃,北方高端數據標注產業園將通過3—5年建設,力爭引入數據標注及上下游關聯企業20家以上,年產值突破5億元,打造自動駕駛、智慧醫療、工業智能等細分領域特色標桿。
今年,張紅也定下了新目標:“目前,我們在對接一家乳品企業,圍繞生產質檢開展數據標注合作。一旦落地,將助力企業在生產線上實現不合格產品自動識別、智能剔除,完成從人工查驗到智能篩選的升級轉型。未來這樣的合作場景還有很多,我們有信心今年數據處理業務實現兩位數增長。”
信息來源:《天津日報》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.