應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

AIの幕后人:探秘“硬核英雄”的超級(jí)武器

2019-09-10 14:56 媒體合作
關(guān)鍵詞:AI

導(dǎo)讀:掐指一算八年之前,那時(shí)正是國(guó)內(nèi)互聯(lián)網(wǎng)卯足勁頭起飛的一年,各行各業(yè)表現(xiàn)都很突出,尤其是與人們生活密切相關(guān)的手機(jī),正大踏步地從功能機(jī)向智能手機(jī)轉(zhuǎn)型

掐指一算八年之前,那時(shí)正是國(guó)內(nèi)互聯(lián)網(wǎng)卯足勁頭起飛的一年,各行各業(yè)表現(xiàn)都很突出,尤其是與人們生活密切相關(guān)的手機(jī),正大踏步地從功能機(jī)向智能手機(jī)轉(zhuǎn)型,其中的市場(chǎng)需求可想而知,阿晶覺(jué)得那種爆炸程度完全不亞于如今人們對(duì)5G的狂熱追逐。

伴隨智能手機(jī)的迅速普及并大舉助力產(chǎn)業(yè)化發(fā)展進(jìn)程,各類(lèi) APP 宛如新生。同樣是那一年,一家名為云測(cè)的企業(yè)在業(yè)內(nèi)初現(xiàn),迎著移動(dòng)互聯(lián)網(wǎng)的風(fēng)口做起了應(yīng)用測(cè)試的業(yè)務(wù)。回顧當(dāng)時(shí)的云測(cè),創(chuàng)始團(tuán)隊(duì)幾乎將市面上所有“露頭”的手機(jī)機(jī)型都采購(gòu)回來(lái),建立云真機(jī)平臺(tái),提供包括質(zhì)量測(cè)試、自動(dòng)化測(cè)試等在內(nèi)的諸多服務(wù),為加快移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的迭代無(wú)私地貢獻(xiàn)了自己的血汗。



隨著時(shí)間推移,企業(yè)發(fā)展且技術(shù)演進(jìn),在云測(cè)積累大量客戶的過(guò)程中,一些 AI 企業(yè)主動(dòng)找到云測(cè)提出 AI 數(shù)據(jù)服務(wù)的需求。如果說(shuō)最初選擇應(yīng)用測(cè)試是行業(yè)所趨的話,這次與“數(shù)”結(jié)緣則完全是需求導(dǎo)向,就這樣云測(cè)開(kāi)始布局AI數(shù)據(jù)服務(wù)行業(yè),旗下的 AI 數(shù)據(jù)服務(wù)品牌“云測(cè)數(shù)據(jù)”就此誕生。

據(jù)阿晶了解,作為AI數(shù)據(jù)資源服務(wù)的頭部品牌,云測(cè)數(shù)據(jù)早已走在行業(yè)前列。其擁有足夠的方法論和對(duì)應(yīng)的協(xié)同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險(xiǎn)等領(lǐng)域提供定制化的數(shù)據(jù)采集標(biāo)注服務(wù),可以做到全方位支持文本、語(yǔ)音、圖像、視頻等各類(lèi)型數(shù)據(jù)的處理。截至目前,云測(cè)數(shù)據(jù)在華東、華北、華南都設(shè)有數(shù)據(jù)交付中心和采集基地,已成功為數(shù)百家企業(yè)提供了一站式AI數(shù)據(jù)服務(wù)。

說(shuō)到此處,不容忽視的一點(diǎn),伴隨 AI 應(yīng)用落地,對(duì)于數(shù)據(jù)種類(lèi)、質(zhì)量以及場(chǎng)景匹配程度的要求正逐漸提升,擁有特定場(chǎng)景數(shù)據(jù)的優(yōu)勢(shì)會(huì)逐漸成為 AI 企業(yè)在行業(yè)內(nèi)縱橫捭闔的“殺手锏”之一。

對(duì)此,云測(cè)數(shù)據(jù)總經(jīng)理賈宇航強(qiáng)調(diào),為了貫徹這種戰(zhàn)略導(dǎo)向,獲取更多特定場(chǎng)景的數(shù)據(jù),云測(cè)數(shù)據(jù)結(jié)合多年的項(xiàng)目管理流程能力,在全國(guó)多地自建了數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,并配備多種采集軟、硬件設(shè)備,著力打造了一只專(zhuān)業(yè)的定制化采集和高質(zhì)量的標(biāo)注隊(duì)伍。



“我們要做到能盡可能多的覆蓋 AI 客戶的不同長(zhǎng)尾場(chǎng)景,滿足各類(lèi)場(chǎng)景要求高、采集難度大等采集作業(yè),從源頭提升數(shù)據(jù)適用性。此外還需憑借管理、風(fēng)控等方式,最大程度確保數(shù)據(jù)精確度、保密性等進(jìn)而完成企業(yè)賦能?!彼M(jìn)一步補(bǔ)充道。

縱觀AI技術(shù)以及行業(yè)的發(fā)展,阿晶覺(jué)得其實(shí)云測(cè)的“數(shù)據(jù)戰(zhàn)略”不無(wú)道理。

從整體人工智能的發(fā)展歷程來(lái)說(shuō),背后支撐的三大要素分別是數(shù)據(jù)、算法和算力,當(dāng)人們將過(guò)多的精力聚焦在算法和算力上時(shí),殊不知 AI 數(shù)據(jù)在人工智能商業(yè)化落地中發(fā)揮著不可替代的作用。

舉個(gè)例子來(lái)說(shuō),算法模型被設(shè)計(jì)好后就需要大量標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練才能實(shí)現(xiàn)更智能的結(jié)果;如果希望性能和算法精準(zhǔn)度得到進(jìn)一步提升,細(xì)化精準(zhǔn)的數(shù)據(jù)更是必不可少,否則會(huì)制約整個(gè)數(shù)據(jù)行業(yè)以及人工智能產(chǎn)業(yè)的發(fā)展。

具體到商業(yè)化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實(shí)場(chǎng)景的精準(zhǔn)數(shù)據(jù),企業(yè)才能在AI落地和商業(yè)化道路上越走越穩(wěn)。



這么看,數(shù)據(jù)對(duì) AI 就像水電一樣關(guān)鍵,如果從 AI 數(shù)據(jù)服務(wù)的發(fā)展進(jìn)程考量,互聯(lián)網(wǎng)沉積數(shù)據(jù)可被認(rèn)為是初始期,時(shí)間大致可以追溯到 5-10 年前。當(dāng)時(shí)很多 AI 領(lǐng)域的企業(yè)依托互聯(lián)網(wǎng)上沉積的大量數(shù)據(jù)投身算法驗(yàn)證,通過(guò)爬蟲(chóng)和數(shù)據(jù)清洗等簡(jiǎn)單易操作的方式,至此一些主營(yíng)數(shù)據(jù)集產(chǎn)品的公司應(yīng)運(yùn)而生。

發(fā)展到第二階段,主要涌現(xiàn)的是通用型數(shù)據(jù)產(chǎn)品,催生了以“識(shí)別”為主,用于實(shí)現(xiàn)簡(jiǎn)單數(shù)據(jù)分析的用途。“第三階段,有些企業(yè)發(fā)現(xiàn)通用性產(chǎn)品確實(shí)存在不小的問(wèn)題,例如無(wú)法解決諸多企業(yè)面臨的實(shí)際問(wèn)題,由此定制化需求的產(chǎn)生勢(shì)在必行,例如亞馬遜 Amazon Mechanical Turk?!辟Z宇航總結(jié)道。

“發(fā)展到第四階段,部分企業(yè)為了突破行業(yè)內(nèi)算法的局限性,選擇通過(guò)硬件升級(jí)或者數(shù)據(jù)維度多樣化得角度著手,進(jìn)一步豐富自己的數(shù)據(jù)庫(kù)存,但有一點(diǎn)困難之處,這些定制化數(shù)據(jù)很難通過(guò)眾包途徑獲得,定制市場(chǎng)機(jī)會(huì)無(wú)限?!?/p>

發(fā)展到如今,用戶數(shù)據(jù)進(jìn)入到沉淀時(shí)期。該階段,企業(yè)在使用過(guò)程中會(huì)不斷積累數(shù)據(jù),進(jìn)而讓產(chǎn)品迭代更加智能。值得注意的是,有些產(chǎn)品自帶分享或社交功能,很大程度上會(huì)豐富互聯(lián)網(wǎng)的數(shù)據(jù)沉積,助力企業(yè)進(jìn)入到下一個(gè)階段并加強(qiáng)其中的循環(huán)往復(fù)。

總體來(lái)看,企業(yè)在不同的階段需要不同類(lèi)型的數(shù)據(jù)服務(wù),但眾包采集和定制化采集是數(shù)據(jù)采集行業(yè)的兩種常見(jiàn)模式。

其中眾包模式的優(yōu)勢(shì)主要體現(xiàn)在樣本的豐富性上,但對(duì)于今日的 AI 數(shù)據(jù)服務(wù)業(yè)務(wù)的特性,通過(guò)眾包模式解決所有數(shù)據(jù)采集的需求顯然不現(xiàn)實(shí)。更關(guān)鍵的是,定制化需求的采集任務(wù)中,眾包用戶采集到的數(shù)據(jù)往往差強(qiáng)人意,反倒出現(xiàn)增加審核成本的情況。

此處阿晶搜羅了一些有關(guān)具體企業(yè)級(jí)數(shù)據(jù)采集的資料,其顯示 2018 年中國(guó)AI公司的總?cè)谫Y規(guī)模達(dá)到千億元以上,其中數(shù)據(jù)采標(biāo)的市場(chǎng)約為 100 億元— 300 億元。具體來(lái)說(shuō) AI 公司內(nèi)部的標(biāo)注部門(mén)之間消化,基本占三分之一;剩下的 25%—33% 則流向?qū)iT(mén)做數(shù)據(jù)采標(biāo)的第三方公司。

如此看來(lái),數(shù)據(jù)采集對(duì)企業(yè)來(lái)說(shuō)不但必要而且重要,但如果企業(yè)選擇自建團(tuán)隊(duì)進(jìn)行數(shù)據(jù)采集和標(biāo)注,必然面臨耗費(fèi)大量時(shí)間成本、人力成本的局面;另一方面,花錢(qián)花時(shí)間不說(shuō),要做到壁壘般獨(dú)享數(shù)據(jù),又對(duì)數(shù)據(jù)安全提出更高要求,輕易分享怎么能行?



基于 AI 數(shù)據(jù)發(fā)展路徑以及諸多企業(yè)痛點(diǎn),云測(cè)主要瞄準(zhǔn)了為企業(yè)提供定制化場(chǎng)景的數(shù)據(jù)采集與提供自建團(tuán)隊(duì)式的高精度標(biāo)注服務(wù)的業(yè)務(wù)重點(diǎn)。對(duì)此賈宇航解釋道,投身做定制化場(chǎng)景數(shù)據(jù)采集主要在于,目前很多企業(yè)已存在的數(shù)據(jù)維度對(duì)于算法提升的效果早就面臨瓶頸,必然需要引入更多維度的數(shù)據(jù),例如對(duì)應(yīng)場(chǎng)景的多模態(tài)數(shù)據(jù),將 2D、3D 數(shù)據(jù)以及聲音等多維度的數(shù)據(jù)結(jié)合起來(lái)提升算法性能,而這樣的數(shù)據(jù)在互聯(lián)網(wǎng)的條件下或者通過(guò)已有的眾包數(shù)據(jù)采集很難獲得。

此外有些企業(yè)為了提升算法精度自研了一些硬件,而這些硬件只能通過(guò)定制化場(chǎng)景去實(shí)現(xiàn)更好的效果。所以幫助企業(yè)還原想要的定制化場(chǎng)景是顯示業(yè)務(wù)優(yōu)勢(shì)的手段之一,這項(xiàng)實(shí)踐被賈宇航稱(chēng)之為場(chǎng)景實(shí)驗(yàn)室。

據(jù)阿晶了解,這些場(chǎng)景實(shí)驗(yàn)室目前主要分布在華東、華北和華南。在場(chǎng)景實(shí)驗(yàn)室中,云測(cè)數(shù)據(jù)會(huì)根據(jù)客戶需求,邀請(qǐng)?zhí)囟L氐綄?shí)驗(yàn)室中進(jìn)行數(shù)據(jù)采集??梢赃@樣定義,場(chǎng)景實(shí)驗(yàn)室是云測(cè)數(shù)據(jù)布局高度定制化、多模態(tài)的 AI 數(shù)據(jù)服務(wù)的重要組成部分,借此能使得其交付能力與客戶需求平行,甚至領(lǐng)先客戶的需求一點(diǎn)點(diǎn)。

當(dāng)然除了很智慧的場(chǎng)景實(shí)驗(yàn)室之外,云測(cè)數(shù)據(jù)的核心優(yōu)勢(shì)還可總結(jié)為三方面。

從人才專(zhuān)業(yè)性角度出發(fā),目前云測(cè)數(shù)據(jù)主要服務(wù)于智能駕駛、金融、智能生活、安防等四大領(lǐng)域,每一領(lǐng)域均由不同的項(xiàng)目經(jīng)理組負(fù)責(zé)。

其中項(xiàng)目經(jīng)理都經(jīng)過(guò)包括 AI 基礎(chǔ)、作業(yè)管理、場(chǎng)景搭建、突發(fā)事件處理等至少 350 小時(shí)的職前培訓(xùn),完全能夠做到為客戶梳理項(xiàng)目需求文檔并提供專(zhuān)業(yè)咨詢服務(wù),從源頭上保證高質(zhì)量輸出。

更重要的是,云測(cè)數(shù)據(jù)配備了專(zhuān)業(yè)的軟硬件設(shè)備,針對(duì)客戶不同的定制化需求持續(xù)優(yōu)化工具、迭代產(chǎn)品,滿足技術(shù)要求高、采集難度大的采集任務(wù),如此一來(lái)工具層面確實(shí)很給力。



對(duì)數(shù)據(jù)質(zhì)量和安全的把控方面,云測(cè)數(shù)據(jù)進(jìn)行了嚴(yán)格的質(zhì)量風(fēng)險(xiǎn)評(píng)估、過(guò)程質(zhì)量控制、質(zhì)量審核以及質(zhì)量驗(yàn)收等,用于輸出高質(zhì)量的數(shù)據(jù)作業(yè);據(jù)了解員工都按照流程協(xié)同作業(yè),將采集后的數(shù)據(jù)傳輸至數(shù)據(jù)中心,項(xiàng)目交付后直接清毀數(shù)據(jù),杜絕員工接觸數(shù)據(jù)的機(jī)會(huì),提升數(shù)據(jù)安全性。

此外以云測(cè)為背書(shū),企業(yè)還針對(duì)數(shù)據(jù)采集業(yè)務(wù)搭建了定制化采集場(chǎng)景?;诳蛻羲惴P吞岢龅木唧w需求定制化搭建采集場(chǎng)景,以達(dá)到覆蓋盡可能多的實(shí)際場(chǎng)景及邊際場(chǎng)景的目的,保證采集數(shù)據(jù)契合算法模型,為客戶提供高精度的采集數(shù)據(jù)。

值得提及的是,此環(huán)節(jié)備采樣本覆蓋全國(guó)及海外的數(shù)據(jù)采集體系,涵蓋各類(lèi)型圖片、視頻、音頻和文本數(shù)據(jù)等,同時(shí)配備了專(zhuān)業(yè)的備采人群樣本,可依照客戶實(shí)際需求快速采集合適的數(shù)據(jù)樣本。

在高精度的數(shù)據(jù)標(biāo)注服務(wù)上,云測(cè)數(shù)據(jù)自建數(shù)據(jù)基地,所有標(biāo)注員統(tǒng)一管理、規(guī)范生產(chǎn),在保證數(shù)據(jù)準(zhǔn)確率的同時(shí)有效確保標(biāo)注作業(yè)的信息流轉(zhuǎn),提升標(biāo)注效率;而自研標(biāo)注平臺(tái)則聚合了各種數(shù)據(jù)標(biāo)注應(yīng)用場(chǎng)景,配置靈活,可滿足各種數(shù)據(jù)標(biāo)注需求,保證標(biāo)注作業(yè)高質(zhì)量輸出。

在數(shù)據(jù)的審核機(jī)制方面,主要采用工、審分離的審核模式,即審核團(tuán)隊(duì)不參與標(biāo)注作業(yè);同時(shí)將附有標(biāo)準(zhǔn)答案的作業(yè)項(xiàng)目無(wú)感知地安插在標(biāo)注人員的正式標(biāo)注作業(yè)中,精準(zhǔn)把握標(biāo)注人員的對(duì)標(biāo)注規(guī)則的理解度。

談及宏觀市場(chǎng),賈宇航認(rèn)為數(shù)據(jù)標(biāo)注和采集的確是一個(gè)新興行業(yè),但目前來(lái)說(shuō)整個(gè)行業(yè)市場(chǎng)足夠大,各家其實(shí)并沒(méi)有很激烈的競(jìng)爭(zhēng)關(guān)系。一般情況下,企業(yè)在面對(duì)滿足自身需求的同時(shí),可選擇的形式也變得多種多樣。當(dāng)下而言,數(shù)據(jù)行業(yè)更像是一個(gè)蹣跚學(xué)步的孩童,每個(gè)階段被不同類(lèi)型的數(shù)據(jù)服務(wù)所滿足,面對(duì)著不斷變化的服務(wù)需求,企業(yè)服務(wù)市場(chǎng)的變革也在同時(shí)加速。

在此基礎(chǔ)上,未來(lái)云測(cè)數(shù)據(jù)的發(fā)展目標(biāo)將更多著力在細(xì)分領(lǐng)域中,做到領(lǐng)域知識(shí)積累更深厚,數(shù)據(jù)更精準(zhǔn)安全?!拔覀儠?huì)逐漸將業(yè)務(wù)向更細(xì)分領(lǐng)域場(chǎng)景做深入,以滿足企業(yè)的未來(lái)需求?!? 如此看來(lái),云測(cè)數(shù)據(jù)的“硬核英雄之路”才剛剛開(kāi)始…