AI的數據、算法、算力“輪流坐莊”，NLP到了“數據為王”的時代

2020-05-08 18:18 來源：A5專欄我來投稿撤稿糾錯

工作人員齊整坐好，每個人都對著電腦全神貫注，一件又一件的“東西”在眼前劃過，經過標準化處理就轉到下一流程……這實際上是人工智能行業(yè)里的數據標注辦公區(qū)一角。

由于深度學習的研究方向，人力密集型的數據標注工作是推進人工智能技術落地的重要環(huán)節(jié)之一。

很長一段時間以來，在過往AI的發(fā)展中數據的采集與標注行業(yè)沒有過多地被關注，畢竟，與算法、算力這些高大上的東西相比，AI數據的生產總帶著那么幾分與AI技術的“科技感”截然不同的形象。

然而，隨著AI的發(fā)展走向縱深，更多人發(fā)現(xiàn)這是一個誤解，AI數據產業(yè)正在向著高專業(yè)化、高質量化 的方向蓬勃發(fā)展。

根據2018年智研發(fā)布的《2019-2025年中國數據標注與審核行業(yè)市場專項分析研究及投資前景預測報告》，2018年該行業(yè)市場規(guī)模已達到52.55億元，2020年市場規(guī)模有望突破百億。有行業(yè)人士估計AI項目中會有10%的資金用于數據的采集和標記，2020年，數據標注行業(yè)最終市場規(guī)模將達到150億。

而分享市場的，既有BAT、京東等互聯(lián)網巨頭，也有云測數據這種專注于高質量交付的專業(yè)化數據平臺。

龐大的前景下，數據采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分，隨著數據需求量的增大、對數據質量要求的提高，其中的NLP越來越成為“硬骨頭”，AI數據產業(yè)終將面臨它帶來的難題，也承襲這種難題下空出的市場空間。

AI的數據、算法和算力“輪流坐莊”，NLP到了“數據為王”的時代

芯片制程以及大規(guī)模并聯(lián)計算技術的發(fā)展，使得算力快速提升后，AI能力的提升主要集中到了算法和數據上(算力提升當然還有價值，只是相對價值那么明顯了，例如不可能對一個物聯(lián)網終端設備有太多的算力設定要求)。

這方面，多年以來，人工智能技術都呈現(xiàn)“輪流坐莊”的螺旋提升關系：

算法突破后，可容納的數據計算量往往變得很大，所以會迎來一波數據需求的高潮；而當AI數據通過某些方式達到一個新的程度時，原來的算法又“不夠了”，需要提升。

2018年11月，Google AI團隊推出劃時代的BERT模型，在NLP業(yè)內引起巨大反響,認為是NLP領域里程碑式的進步，地位類似于更早期出現(xiàn)的Resnet相對于CV的價值。

以BERT為主的算法體系開始在AI領域大放異彩，從那時起，數據的重要性排在了NLP的首位。

加上兩個方面的因素，這等于把NLP數據采集與標注推到了更有挑戰(zhàn)的位置上。

一個因素，是NLP本身相對CV在AI數據方面的要求就更復雜。

CV是“感知型”AI，在數據方面有Ground Truth（近似理解為標準答案） ，例如在一個圖片中，車、人、車道線等是什么就是什么，在采集和標注時很難出現(xiàn)“感知錯誤”(圖片來源：云測數據)

而NLP是“認知”型AI，依賴人的理解不同產生不同的意義，表達出各種需要揣測的意圖，Ground Truth是主觀的。

例如，“這房間就是個烤箱”可能是說房間的布局不好，但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點，應用于AI時，需要被多方位、深度探索。

另一個因素，是AI數據的價值整體上由“飼料”到“奶粉”，對NLP而言這更有挑戰(zhàn)。

大部分算法在擁有足夠多常規(guī)標注數據的情況下，能夠將識別準確率提升到95%，而商業(yè)化落地的需求現(xiàn)在顯然不止于此，精細化、場景化、高質量的數據成為關鍵點，從95% 再提升到99% 甚至99.9%需要大量高質量的標注數據，它們成為制約模型和算法突破瓶頸的關鍵指標。

但是，正如云測數據總經理賈宇航所言，“圖像采標有很強的規(guī)則性，按照規(guī)范化的指導文檔工作即可，但NLP數據對應的是語言的豐富性，需要結合上下文等背景去理解和處理。”在高位提升這件事上，NLP數據更難。

例如，在訂機票這個看似簡單的AI對話場景中，想訂票的人會有多種表達，“有去上海的航班么”，“要出差，幫我查下機票”，“查下航班，下周二出發(fā)去上海”……自然語言有無窮多的組合表現(xiàn)出這個意圖，AI要“認得”它們，就需要大量高質量的數據的訓練。

由此，我們再來理解商業(yè)機會。

數據采集與標注的公司有很多，從巨頭的“副業(yè)”到AI數據專業(yè)化平臺，總體而言主要玩家如圖所示：

除此之外，更多中小玩家甚至幾十人的草臺班子數不勝數。在中國，目前全國從事數據標注業(yè)務的公司約有幾百家，全職的數據標注從業(yè)者有約20萬人，兼職數據標注從業(yè)者有約100萬人。

易入門、難精通，而上述兩大因素決定NLP數據面臨巨大的挑戰(zhàn)，做得好的就更少。

在數據“坐莊”NLP的大背景下，空出了大量的商業(yè)機會，而客觀上的高要求阻卻了大量低門檻入場的玩家，NLP數據相對于CV更像一個藍海。

打破單純“體力活”標簽，NLP數據采集與標注從四個方面自我演進

有機會就總有人會進場，不久前，中國人工智能高峰論發(fā)布了中國人工智能科技服務商50強，既有商湯、曠視這種明星企業(yè)，也出現(xiàn)了榜單內唯一的AI數據服務商云測數據，這顯示AI數據正在進入“主流圈”，在藍海中嘗試跑出獨角獸企業(yè)。

當然，前提是平臺能夠解決好NLP數據的痛點問題。

事實上，CV的“感知”需求使得“體力活”可能就能夠勝任大多數據生產工作(誰不認識一輛車、一個人呢)，而“認知”的NLP數據要突圍，只是“體力活”早已經不夠。

至少目前來看，行業(yè)玩家在四個方面有所動作，或正在解決NLP數據痛點問題。

1、業(yè)務模式，用“定制化”迎合商業(yè)落地期的NLP

曾有媒體向Google工程師提起M-Turk的時候，他表示“我們不敢用Turk標注”，因為回收的數據良莠不齊。

眾包模式(在公開平臺發(fā)布任務，自由申領)是曾經的AI數據產業(yè)主流，擁有數據豐富性和多樣性的優(yōu)勢，不過數據質量比較難以把控。在數據精細化要求的今天，很多需求方都轉向了“定制化”(一對一，以項目制的方式完成交辦的數據任務)服務模式。

例如，云測數據的“定制化”服務模式，跟的就是需求方復雜、精深而個性化的數據要求。具體到NLP，在數據采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數據采集;在數據標注上進行需求的對接、理解清楚場景化要求再分發(fā)盡量具體的規(guī)范指導(同樣一句話在不同交流目的中可能需要標注不同的內容，例如“我沒錢”在信貸服務中意味著潛在客戶，在理財服務中則表達拒絕的態(tài)度)。

當然，眾包模式也有它的優(yōu)點，能夠輕量化承載大量相對簡單的數據需求，而場景化的定制模式則更專業(yè)，主要依靠自有員工和基地 ，像云測數據就在華東、華南、華北擁有自建標注基地，這種玩法顯然更適合匹配客單價更高的場景化、定制化需求，NLP是典型。

2、管理流程，從“粗放制造”到“精益制造”

既然數據采集與標注很像是工廠的流水線，那么如果要提升數據的精準度，其實就如同“制造業(yè)”升級那樣需要進行“粗放制造”到“精益制造”的轉變，首要體現(xiàn)在管理流程的優(yōu)化上。

無論是從平臺接取任務的眾包團隊，還是直接對接需求方的定制化服務平臺，至少，草臺班子式的做法已經不適合NLP對數據的要求。

高精準度、高效率，都依賴管理流程的優(yōu)化，以云測數據為例，具體做法包括這幾個大方向：

標注、審核、抽檢的層層把關：標注人員的結果交由另一批人進行審核，打回不合格的，最終再由質檢進行抽檢，大體如此，可能步驟更復雜;

人才類型的基礎分類：文本、語音、圖像標注人員不相互混用;

擅長場景的優(yōu)先任務派發(fā)：在同等條件下，擅長對應場景的人優(yōu)先派發(fā)給任務。

例會制度：如同精細化管理的制造業(yè)一樣，早會、晚會、周會、月會，總結問題、提醒改進。

……

而無論如何，管理流程的事，說得再多，日常工作的落實才是最重要的。

3、職業(yè)技能，專業(yè)培訓擺脫“低水平重復”

“不要門檻”意味著更低的價值，在人員個人能力上，NLP在逐漸拋棄那些“無門檻”入局的人，尤其是在特定的場景需求下。

例如，這是一個非常簡單的NLP數據標注實例：

它的需求可能只有初中語文即可。但是，NLP的數據需求早已超過這樣的標注太多。

例如，客服詢問用戶是否購買此商品時，“我要和家人商量一下”、“我會考慮”、“我現(xiàn)在不方便，你一會兒再打過來”，標注人員得準確標注出暫不購買，暫不考慮，拒絕購買或者興趣較大等多種意圖。

一方面，這依賴于平臺進行的場景深挖，這也是為什么云測數據智能客服單個場景的意圖標注就分為10-20個大類、上百個子類，根據業(yè)務需求可能還會有進一步的標注細分，如此數據標注可以更細化、直達需求。

另一方面，這繞不開人員能力的持續(xù)培訓，把“干體力”的標注工人轉化成懂一些專業(yè)的業(yè)務人員，典型的如云測數據在金融服務領域通過幾個月的專業(yè)培訓，培養(yǎng)出銷售人員視角去揣測用戶話語中的意圖。

舉例來看，在客服溝通中，用戶回饋“我在開車”這短短的一個語料數據，可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標注給NLP算法，按云測數據自己的說法，其培訓達到的目標，是讓標注員工達到成為專業(yè)員工的水準。

顯然，在NLP標注數據的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平后，再進行提升、提高銷售轉化或者服務滿意度，都需要質量更高、針對特定需求更強的NLP標注數據。

值得一提的是，在NLP領域不是所有標注都能通過人員培訓來解決，醫(yī)療、法律等過于專業(yè)的領域可能還是依賴專家標注(邀請醫(yī)生、律師等參與標注)，那是一個更復雜的故事了。

4、工具使用，持續(xù)加碼“便捷化”

工欲善其事必先利其器，NLP的標注雖然不像CV有很多空間維度的數據需求，但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。

這方面，巨頭的腳步更早，在國外，Google Fluid Annotation一度是NLP標注“最好使”的工具，國內，大廠和專業(yè)平臺的工具也被廣泛使用，云測數據在工具上的創(chuàng)新優(yōu)勢很明顯。

總體而言，標注工具適合自己的才是最好的。這種根據定制化需求開發(fā)貼合實際需要的數據工具對場景化數據的生產，發(fā)揮著重要作用。

無論如何，持續(xù)加碼“便捷化”，是一個不會停止的過程。

NLP數據產業(yè)的機會，將會是誰坐莊？

在AI領域，雖然有大廠走在前列，但市場并沒有被巨頭壟斷，中型AI平臺也常常嶄露頭角成為主角。以AI數據服務領域為例，像云測數據這種專注于企業(yè)服務的第三方獨立平臺，以客戶為中心的企業(yè)基因，一直貫穿在數據交付的始終。

一個典型的表現(xiàn)是，高精確度的NLP數據需要以企業(yè)服務的心態(tài)與客戶仔細對接需求 ，例如，用戶需求的場景是什么，如果是訂票，AI問答應該主要導向訂票，對應的NLP數據也要往這個方向去標注。

這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議，與客戶反復溝通確認達成一致后，才能真正地去作業(yè)。大廠偏重于技術架構、前沿技術開發(fā)、云服務器中心大規(guī)模并發(fā)能力等建設，很難俯下身好好完成這件事，這時候，AI數據專業(yè)化平臺更有優(yōu)勢。

此外，影響競爭格局走向的還有數據服務的安全性。

在數據采集與標注行業(yè)，復制一份數據在技術上非常簡單，也能節(jié)省大量的人力和運營成本，但給客戶帶來的損失卻不小(尤其是被競爭對手拿到)，保證數據隱私性和安全性,在AI激烈的競爭環(huán)境下幾乎成為某些客戶的首要決策標準。

總而言之，高專業(yè)度、高精準度、高效率、強安全才能贏得AI數據客戶尤其是NLP數據客戶的選擇，不論巨頭還是AI數據專業(yè)化平臺在行業(yè)爆發(fā)式增長的關口都在努力，落實和推進了諸多動作。NLP數據產業(yè)正處在藍海，一個不會由巨頭坐莊的藍海。

此內容為【智能相對論】原創(chuàng)，僅代表個人觀點，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡，且未核實版權歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

文 | 李永華

來源 | 智能相對論(ID：aixdlun)

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術; ai智能

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網大廠、運營商、科研院所等優(yōu)秀團隊

標簽：

ai技術
用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質

這幾個月來，以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后，AI仿佛已經沉寂了很久，ChatGPT的橫空出世就如同一束耀眼的光芒，讓AI這個名詞重回C位。過去在AI1.0時代，主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

標簽：

ai技術
新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

文：互聯(lián)網江湖作者：志剛2023年的IoT需要一個新故事。6月29日，涂鴉智能在開發(fā)者大會上，發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0，希望通過一個平臺+四大開發(fā)服務，建立起IoT生態(tài)。對于這場發(fā)布會，市場的態(tài)度是積極的。美東時間6月29日收盤，涂鴉智能美股股價上漲5.6%，來到1.87美元/股。近日股價穩(wěn)定

標簽：

ai技術
大模型難掩AI制藥的悲傷：越過山丘，無人等候

美團曾經的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外，以20億賣給美團，再度引發(fā)市場對大模型的熱議。

標簽：

ai技術
拾起王慧文的AI夢，美團沖向“光年之外”？

2020年底，王慧文在朋友圈寫下這句話時，外界本以為這位伴隨中國互聯(lián)網發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是，一個曾經多次創(chuàng)業(yè)，正值壯年的互聯(lián)網老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

標簽：

ai技術

AI加速時代的“進度條”，我們撥動了百分之幾？

“技術日新月異，人類生活方式正在快速轉變，這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經熟悉的一切，都開始變得陌生?！庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。

標簽：

ai智能
AI視頻賽道，要變天了

“毀滅你，與你何干？”，這是在劉慈欣的科幻小說《三體》里用來形容人類與三體人之間的戰(zhàn)爭的一句話。

標簽：

ai智能
“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

“人工智能的商業(yè)模式，是要創(chuàng)造一個市場，而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場，占據主導地位的中美雙方，卻也走出了兩條截然不同的技術路徑，前者執(zhí)著于前沿技術的探索，后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向，或許已經無法直接進行排位先后、優(yōu)

標簽：

ai智能
智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

智能體進化發(fā)展了一年，現(xiàn)在的RPAAgent迭代到什么程度了？從實在智能最新發(fā)布的實在Agent7.0，看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT，這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化，持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶：大模型降溫背后的難點、卡點、節(jié)點

崔大寶｜節(jié)點財經創(chuàng)始人進入2024年，大模型似乎有熄火之勢：資本市場，與之關聯(lián)的概念炒不動了，英偉達股價動輒暴跌重挫，引發(fā)“泡沫戳破”的擔憂；消費市場，BATH們的推新活動少了，產品更新迭代的速度慢了，民眾的關注度降了……熱鬧的大概只剩下兩場酣仗：自5月15日字節(jié)跳動宣布“以厘計費”，打響國內大模型

標簽：

大模型
這一屆“出道”的數字人，已經拿捧上了“鐵飯碗”

文|智能相對論作者|陳泊丞好消息！你心心念念的事業(yè)單位發(fā)錄取公告了！壞消息！他們沒錄你，錄了個數字人。圖片來源網絡隨著數字人技術的突破，越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”，也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

標簽：

數字人

來到IPO關口，地平線離“三分天下”還有多遠？

黑芝麻智能敲鐘后，港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據悉，近日地平線已通過中國證監(jiān)會IPO備案，擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市，預計籌集約5億美元資金。從天眼查可以了解到，該公司成立于2015年，是一家乘用車高級輔助駕駛（ADAS）和高階自動駕駛（AD）解決方案供
對標GPT-4o，科大訊飛正以大模型重塑語音產業(yè)

大模型的創(chuàng)新與未來

標簽：

科大訊飛
機器人大會引領產業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

8月21日，萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天，集“展覽”“論壇”“賽事”于一體的機器人盛會，反映了當下機器人領域的繁榮生態(tài)。據官方統(tǒng)計數據，今年現(xiàn)場逛展觀眾高達25萬人次，比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知
卓翼智能：超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

瞄準場景需求，打造國內領先的自主可控、高質量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕，大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

加載更多

AI的數據、算法、算力“輪流坐莊”，NLP到了“數據為王”的時代

相關文章

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質

新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

大模型難掩AI制藥的悲傷：越過山丘，無人等候

拾起王慧文的AI夢，美團沖向“光年之外”？

AI加速時代的“進度條”，我們撥動了百分之幾？

AI視頻賽道，要變天了

“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

崔大寶：大模型降溫背后的難點、卡點、節(jié)點

這一屆“出道”的數字人，已經拿捧上了“鐵飯碗”

來到IPO關口，地平線離“三分天下”還有多遠？

對標GPT-4o，科大訊飛正以大模型重塑語音產業(yè)

機器人大會引領產業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

卓翼智能：超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

熱門排行

編輯推薦

AI的數據、算法、算力“輪流坐莊”，NLP到了“數據為王”的時代

相關文章

熱門排行

編輯推薦

AI的數據、算法、算力“輪流坐莊”，NLP到了“數據為王”的時代