工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經過標準化處理就轉到下一流程……這實際上是人工智能行業(yè)里的數據標注辦公區(qū)一角。
由于深度學習的研究方向,人力密集型的數據標注工作是推進人工智能技術落地的重要環(huán)節(jié)之一。
很長一段時間以來,在過往AI的發(fā)展中數據的采集與標注行業(yè)沒有過多地被關注,畢竟,與算法、算力這些高大上的東西相比,AI數據的生產總帶著那么幾分與AI技術的“科技感”截然不同的形象。
然而,隨著AI的發(fā)展走向縱深,更多人發(fā)現(xiàn)這是一個誤解,AI數據產業(yè)正在向著高專業(yè)化、高質量化 的方向蓬勃發(fā)展。
根據2018年智研發(fā)布的《2019-2025年中國數據標注與審核行業(yè)市場專項分析研究及投資前景預測報告》,2018年該行業(yè)市場規(guī)模已達到52.55億元,2020年市場規(guī)模有望突破百億。有行業(yè)人士估計AI項目中會有10%的資金用于數據的采集和標記,2020年,數據標注行業(yè)最終市場規(guī)模將達到150億。
而分享市場的,既有BAT、京東等互聯(lián)網巨頭,也有云測數據這種專注于高質量交付的專業(yè)化數據平臺。
龐大的前景下,數據采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數據需求量的增大、對數據質量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數據產業(yè)終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。
AI的數據、算法和算力“輪流坐莊”,NLP到了“數據為王”的時代
芯片制程以及大規(guī)模并聯(lián)計算技術的發(fā)展,使得算力快速提升后,AI能力的提升主要集中到了算法和數據上(算力提升當然還有價值,只是相對價值那么明顯了,例如不可能對一個物聯(lián)網終端設備有太多的算力設定要求)。
這方面,多年以來,人工智能技術都呈現(xiàn)“輪流坐莊”的螺旋提升關系:
算法突破后,可容納的數據計算量往往變得很大,所以會迎來一波數據需求的高潮;而當AI數據通過某些方式達到一個新的程度時,原來的算法又“不夠了”,需要提升。
2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業(yè)內引起巨大反響,認為是NLP領域里程碑式的進步,地位類似于更早期出現(xiàn)的Resnet相對于CV的價值。
以BERT為主的算法體系開始在AI領域大放異彩,從那時起,數據的重要性排在了NLP的首位。
加上兩個方面的因素,這等于把NLP數據采集與標注推到了更有挑戰(zhàn)的位置上。
一個因素,是NLP本身相對CV在AI數據方面的要求就更復雜。
CV是“感知型”AI,在數據方面有Ground Truth(近似理解為標準答案) ,例如在一個圖片中,車、人、車道線等是什么就是什么,在采集和標注時很難出現(xiàn)“感知錯誤”(圖片來源:云測數據)
而NLP是“認知”型AI,依賴人的理解不同產生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。
例如,“這房間就是個烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用于AI時,需要被多方位、深度探索。
另一個因素,是AI數據的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰(zhàn)。
大部分算法在擁有足夠多常規(guī)標注數據的情況下,能夠將識別準確率提升到95%,而商業(yè)化落地的需求現(xiàn)在顯然不止于此,精細化、場景化、高質量的數據成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質量的標注數據,它們成為制約模型和算法突破瓶頸的關鍵指標。
但是,正如云測數據總經理賈宇航所言,“圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可,但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理。”在高位提升這件事上,NLP數據更難。
例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班么”,“要出差,幫我查下機票”,“查下航班,下周二出發(fā)去上海”……自然語言有無窮多的組合表現(xiàn)出這個意圖,AI要“認得”它們,就需要大量高質量的數據的訓練。
由此,我們再來理解商業(yè)機會。
數據采集與標注的公司有很多,從巨頭的“副業(yè)”到AI數據專業(yè)化平臺,總體而言主要玩家如圖所示:
除此之外,更多中小玩家甚至幾十人的草臺班子數不勝數。在中國,目前全國從事數據標注業(yè)務的公司約有幾百家,全職的數據標注從業(yè)者有約20萬人,兼職數據標注從業(yè)者有約100萬人。
易入門、難精通,而上述兩大因素決定NLP數據面臨巨大的挑戰(zhàn),做得好的就更少。
在數據“坐莊”NLP的大背景下,空出了大量的商業(yè)機會,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數據相對于CV更像一個藍海。
打破單純“體力活”標簽,NLP數據采集與標注從四個方面自我演進
有機會就總有人會進場,不久前,中國人工智能高峰論發(fā)布了中國人工智能科技服務商50強,既有商湯、曠視這種明星企業(yè),也出現(xiàn)了榜單內唯一的AI數據服務商云測數據,這顯示AI數據正在進入“主流圈”,在藍海中嘗試跑出獨角獸企業(yè)。
當然,前提是平臺能夠解決好NLP數據的痛點問題。
事實上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數據生產工作(誰不認識一輛車、一個人呢),而“認知”的NLP數據要突圍,只是“體力活”早已經不夠。
至少目前來看,行業(yè)玩家在四個方面有所動作,或正在解決NLP數據痛點問題。
1、業(yè)務模式,用“定制化”迎合商業(yè)落地期的NLP
曾有媒體向Google工程師提起M-Turk的時候,他表示“我們不敢用Turk標注”,因為回收的數據良莠不齊。
眾包模式(在公開平臺發(fā)布任務,自由申領)是曾經的AI數據產業(yè)主流,擁有數據豐富性和多樣性的優(yōu)勢,不過數據質量比較難以把控。在數據精細化要求的今天,很多需求方都轉向了“定制化”(一對一,以項目制的方式完成交辦的數據任務)服務模式。
例如,云測數據的“定制化”服務模式,跟的就是需求方復雜、精深而個性化的數據要求。具體到NLP,在數據采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數據采集;在數據標注上進行需求的對接、理解清楚場景化要求再分發(fā)盡量具體的規(guī)范指導(同樣一句話在不同交流目的中可能需要標注不同的內容,例如“我沒錢”在信貸服務中意味著潛在客戶,在理財服務中則表達拒絕的態(tài)度)。
當然,眾包模式也有它的優(yōu)點,能夠輕量化承載大量相對簡單的數據需求,而場景化的定制模式則更專業(yè),主要依靠自有員工和基地 ,像云測數據就在華東、華南、華北擁有自建標注基地,這種玩法顯然更適合匹配客單價更高的場景化、定制化需求,NLP是典型。
2、管理流程,從“粗放制造”到“精益制造”
既然數據采集與標注很像是工廠的流水線,那么如果要提升數據的精準度,其實就如同“制造業(yè)”升級那樣需要進行“粗放制造”到“精益制造”的轉變,首要體現(xiàn)在管理流程的優(yōu)化上。
無論是從平臺接取任務的眾包團隊,還是直接對接需求方的定制化服務平臺,至少,草臺班子式的做法已經不適合NLP對數據的要求。
高精準度、高效率,都依賴管理流程的優(yōu)化,以云測數據為例,具體做法包括這幾個大方向:
標注、審核、抽檢的層層把關:標注人員的結果交由另一批人進行審核,打回不合格的,最終再由質檢進行抽檢,大體如此,可能步驟更復雜;
人才類型的基礎分類:文本、語音、圖像標注人員不相互混用;
擅長場景的優(yōu)先任務派發(fā):在同等條件下,擅長對應場景的人優(yōu)先派發(fā)給任務。
例會制度:如同精細化管理的制造業(yè)一樣,早會、晚會、周會、月會,總結問題、提醒改進。
……
而無論如何,管理流程的事,說得再多,日常工作的落實才是最重要的。
3、職業(yè)技能,專業(yè)培訓擺脫“低水平重復”
“不要門檻”意味著更低的價值,在人員個人能力上,NLP在逐漸拋棄那些“無門檻”入局的人,尤其是在特定的場景需求下。
例如,這是一個非常簡單的NLP數據標注實例:
它的需求可能只有初中語文即可。但是,NLP的數據需求早已超過這樣的標注太多。
例如,客服詢問用戶是否購買此商品時,“我要和家人商量一下”、“我會考慮”、“我現(xiàn)在不方便,你一會兒再打過來”,標注人員得準確標注出暫不購買,暫不考慮,拒絕購買或者興趣較大等多種意圖。
一方面,這依賴于平臺進行的場景深挖,這也是為什么云測數據智能客服單個場景的意圖標注就分為10-20個大類、上百個子類,根據業(yè)務需求可能還會有進一步的標注細分,如此數據標注可以更細化、直達需求。
另一方面,這繞不開人員能力的持續(xù)培訓,把“干體力”的標注工人轉化成懂一些專業(yè)的業(yè)務人員,典型的如云測數據在金融服務領域通過幾個月的專業(yè)培訓,培養(yǎng)出銷售人員視角去揣測用戶話語中的意圖。
舉例來看,在客服溝通中,用戶回饋“我在開車”這短短的一個語料數據,可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標注給NLP算法,按云測數據自己的說法,其培訓達到的目標,是讓標注員工達到成為專業(yè)員工的水準。
顯然,在NLP標注數據的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平后,再進行提升、提高銷售轉化或者服務滿意度,都需要質量更高、針對特定需求更強的NLP標注數據。
值得一提的是,在NLP領域不是所有標注都能通過人員培訓來解決,醫(yī)療、法律等過于專業(yè)的領域可能還是依賴專家標注(邀請醫(yī)生、律師等參與標注),那是一個更復雜的故事了。
4、工具使用,持續(xù)加碼“便捷化”
工欲善其事必先利其器,NLP的標注雖然不像CV有很多空間維度的數據需求,但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。
這方面,巨頭的腳步更早,在國外,Google Fluid Annotation一度是NLP標注“最好使”的工具,國內,大廠和專業(yè)平臺的工具也被廣泛使用,云測數據在工具上的創(chuàng)新優(yōu)勢很明顯。
總體而言,標注工具適合自己的才是最好的。這種根據定制化需求開發(fā)貼合實際需要的數據工具對場景化數據的生產,發(fā)揮著重要作用。
無論如何,持續(xù)加碼“便捷化”,是一個不會停止的過程。
NLP數據產業(yè)的機會,將會是誰坐莊?
在AI領域,雖然有大廠走在前列,但市場并沒有被巨頭壟斷,中型AI平臺也常常嶄露頭角成為主角。以AI數據服務領域為例,像云測數據這種專注于企業(yè)服務的第三方獨立平臺,以客戶為中心的企業(yè)基因,一直貫穿在數據交付的始終。
一個典型的表現(xiàn)是,高精確度的NLP數據需要以企業(yè)服務的心態(tài)與客戶仔細對接需求 ,例如,用戶需求的場景是什么,如果是訂票,AI問答應該主要導向訂票,對應的NLP數據也要往這個方向去標注。
這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業(yè)。大廠偏重于技術架構、前沿技術開發(fā)、云服務器中心大規(guī)模并發(fā)能力等建設,很難俯下身好好完成這件事,這時候,AI數據專業(yè)化平臺更有優(yōu)勢。
此外,影響競爭格局走向的還有數據服務的安全性。
在數據采集與標注行業(yè),復制一份數據在技術上非常簡單,也能節(jié)省大量的人力和運營成本,但給客戶帶來的損失卻不小(尤其是被競爭對手拿到),保證數據隱私性和安全性,在AI激烈的競爭環(huán)境下幾乎成為某些客戶的首要決策標準。
總而言之,高專業(yè)度、高精準度、高效率、強安全才能贏得AI數據客戶尤其是NLP數據客戶的選擇,不論巨頭還是AI數據專業(yè)化平臺在行業(yè)爆發(fā)式增長的關口都在努力,落實和推進了諸多動作。NLP數據產業(yè)正處在藍海,一個不會由巨頭坐莊的藍海。
此內容為【智能相對論】原創(chuàng),僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。
部分圖片來自網絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
文 | 李永華
來源 | 智能相對論(ID:aixdlun)
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
美團曾經的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經多次創(chuàng)業(yè),正值壯年的互聯(lián)網老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
“技術日新月異,人類生活方式正在快速轉變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數字人。圖片來源網絡隨著數字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據官方統(tǒng)計數據,今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知
瞄準場景需求,打造國內領先的自主可控、高質量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項