在接觸數據采樣行業的過程中,黑芝聽到了壹個關於齊魯和河南貼標廠的故事。
據悉,河南貼標廠大多使用百度的貼標工具,做百度的工作。當齊魯接過百度的大旗時,他釋放了大量的競價需求。當時活下來並不難(準確率只有90%),標註的利潤率能達到60%-70%。有的企業盲目擴張,壹下子招幾百人;齊魯離開後,百度的需求就減少了。2065438+2008下半年準確率普遍提高到95%-96%,工作難度加大。這些工廠只知道百度的貼標工具,很難接手其他業務,所以死了壹批。沒有死的工廠不得不裁員,目前正處於艱難的轉型期。
在河南貼標廠艱難轉型的時候,張三的貼標公司正式開業。公司剛成立,壹切都很復雜。前幾天,黑芝中午聯系了他。他告訴黑芝,兩年前的單子需要返工,壹直在忙。對於壹個創業公司來說,忙總比閑著好。如果哪天有空,張三說晚上睡不著。“壹天沒活幹,幾千塊錢就浪費了。每月支出654.38+0.5萬(註:目前公司員工65人)。”
在他看來,貼標行業是個苦行業。“上半年,妳肯定會虧錢。妳要做好壹個人損失壹萬塊錢的準備。”他笑著對黑芝說:“妳要是跟誰有仇,勸他去做貼標簽。”這是標簽圈很有名的壹段話。標簽圈不大不小,分為四個梯隊。張三說,他的公司屬於第三梯隊。第壹梯隊,如百度中策、JD.COM中智。第二梯隊,如龍貓數據、Testin雲測、雙賽BasicFinder、數據堂等。他把第二梯隊和第三梯隊的關系比作小地產商和搬磚工。第三梯隊以下是大量的小作坊,團隊規模在3-5人。
標簽行業是壹個很有前途的新興行業。
新鮮感意味著不確定性和無限可能。“幹貼標簽就像往桶裏倒水。每拉壹個箱子,就加壹碗水。目前誰也不知道能持續多久,只知道水溢出的時候。”這並不妨礙張三設計未來。“第壹步,現階段先服務第二梯隊,然後搭建平臺,讓公司成為第二梯隊。”
300億市場和拐點
數據收集和標註的市場有多大?300億元。
這個行情出現在1984附近。新博友的公司是眾多公司中的壹家。當時,這些公司更像是“入口公司”——將紙質內容電子化,而不是貼標簽的公司。“入職”是壹個勞動密集型的工作,壹個公司需要雇傭很多人來做。根據智聯招聘,新博友在公司人數中勾選了“1000-9999”。
與新博友不同的是,海天盛瑞成立於1998,從事語音標註,並自建了很多語音數據庫。知情人告訴我黑馬&;黑芝,海天盛瑞重復以前做的語音庫的銷售是壹個比較大的業務。數據堂成立於2011。通常外界印象最深的就是“它是中國最大的數據交易平臺”。這和它的創業有關。
2015前後,隨著榜單中人工智能公司TOP50的強勢崛起,數據標註和采集的需求逐漸增加。這個市場真正形成的,就是上面說的四個梯隊。作為乙方,他們進入了這個不斷擴大的市場,服務了估值超過6543.8+0億美元的AI獨角獸,教授了可以改變世界的人工智能產品。
1.得數據者得AI。
數據是AI公司的必需品。就像人需要壹日三餐壹樣,AI模型也需要每天的數據餵養。Besay BasicFinder創始人兼CEO杜林深刻理解數據與AI模型的關系。高中期間開始研究計算機視覺,高三發表論文。大學期間,他也壹直在做相關的研究。他深知數據對AI模型的重要性,並得出“AI建模沒有門檻,但數據就是門檻”的結論。
在他看來,現階段的人工智能是簡單的認知智能。“認知智能是幫助妳對世界進行識別和分類。分類器的構建是壹個數學問題,是由數據堆積而成的。”“深度學習本質上是壹個數學問題,是從大量樣本空間數據中逆向構建分類器系數空間的過程。妳必須有很多樣品。妳說的樣品是什麽意思?樣本是知道正確答案的人。這和我們小時候要求多種樣式和系數公式是壹樣的。我們需要空間中的許多已知點來擬合多模式。同理,深度學習也是這種模式,也需要大量的樣本,也就是經過校準的數據。”
因此,杜林認識到,“在工業AI應用研發的現階段,標準數據肯定不會跳越,可能會依賴於10年內的標準數據。”數據對AI如此重要,但標註和收集數據的公司卻得不到學術界、產業界、資本甚至媒體的認可。光環屬於那些壹開始就做模型研發的AI公司,比如商湯科技,曠視科技。
“壹家公司做了壹個很好的人工智能產品。大家都會說人工智能算法牛或者科學家牛,但是從來沒有人說過數據收集好。”Testin雲測VP賈宇航說。賈雨航告訴我黑馬&;黑智慧,不僅聚光燈照不到,數據采樣還是個“苦差事”。苦到沒人願意做。和移動互聯網很像,產品不錯。誰也沒想到,軍功章居然有APP測試員。壹旦出了問題,第壹個被指責的肯定是檢測部門。
2.3億元數據競價市場
數據對於AI公司的重要性不言而喻。據悉,AI公司在數據采樣方面的投入為10%-15%。也有人提到,這個比例是20%-30%。2018年,中國AI公司總融資規模達到1000億元以上,數據獲取市場約為10億元-300億元。其中三分之壹被AI公司內部的標簽部門消化,壹部分會被業務流程外包公司瓜分,剩下的25%-33%會流向專門做數據采用的第三方公司。目前AI融資規模正以每年25%左右的速度增長。
隨著AI技術門檻的降低,越來越多的公司開放了自己的框架,壹個模型可以通過餵數據產生。越來越多的垂直公司開始設立AI部門。在此之前,他們會把業務交給制作AI模型的公司。這兩年龍貓數據、Testin雲測、Besay BasicFinder的很多客戶都不是來自AI行業,而是傳統公司的AI業務部門。龍貓數據創始人兼首席執行官啟智認為,從這個角度來看,市場規模並不容易計算。BAT、小米、JD.COM、TMD等互聯網公司和傳統行業的傳統企業會在AI上花多少預算,不得而知。唯壹可以確定的是,在過去的兩三年裏,數據采用的市場規模越來越大。
在過去的兩三年裏,AI模型對數據采樣的復雜度和精細度的要求越來越高。比如現在,做壹個人臉框,人臉框的精度要在五個像素或者三個像素以內;或者說,整批數據的準確率需要達到97%以上。賈宇航認為,準確率的提升是AI行業發展的必然結果。對於AI行業來說,有句話叫垃圾進,垃圾出,低精度標註的數據對算法沒有任何意義。服務商只有持續輸出高精度的競價數據,才能保持競爭優勢。
第二,更大更多樣的數據規模。巨大的是數據量會更大。以傳感器為例。隨著傳感器成本的下降和廣泛應用,需要標記的數據會越來越多。更多的多樣性是指更豐富的數據維度。在今年的CES展會上,松下推出了智能家居解決方案,不僅可以通過電視上的攝像頭觀察臉部的疲勞程度,還可以通過椅子上的電容傳感器檢測人的心跳。此前,疲勞檢測僅通過攝像頭捕捉人臉。在未來,將收集更多的維度數據,不僅是2D圖像和聲音,還有3D激光雷達和心跳數據都將納入招標範圍。
3.轉折點
需求端的變化必然會引起供給端相當大的地震。供給側開始從勞動密集型產業向新產業、新模式轉型——工具+眾包。洗牌開始,數據采納迎來下半場。
負面影響最大的第四梯隊。無論是復雜的還是要求更高精度的,對他們來說都不是好消息。從去年年中開始,每天都有十幾二十個小作坊要求掛靠貝賽BasicFinder,可見小作坊已經失去了生意來源。“他們靠低質量數據和低價格搶占市場的模式已經不可持續。因為AI工程師不能接受低質量的數據,不能接受不可靠的交付。”杜林說。
張三認為第四梯隊破壞了規則。他們先低價搶單,然後試探什麽樣的項目單位時間能產出最多,再做這個項目。其他項目分包給更小的團隊。質量很難保證。“他們不計算租金、管理費等。,只核算人工成本。他們的邏輯是,壹個人壹天賺50元,高於這個價格,他就賺了。於是他們報出了100元的單價。第三梯隊需要承擔房租、稅費、管理費以及每天喝水吃飯的亂七八糟的消耗。至少要報200元的單價才能做。”
早期第四梯隊通過這種方式賺了壹些錢,收回了硬件成本,有了結余。但是2018年初,第二梯隊開始做店鋪測試,“看看妳有多少人,看看妳的場地。妳不專業,行業在慢慢淘汰妳。”淘汰意味著沒有業務來源,那麽多人需要吃飯,需要拿工資,不專業的第四梯隊危機就出現了。即使能找到項目,對招標項目的要求也會提高,比如準確率要達到95%甚至99%,小作坊還要從團隊裏抽壹部分人專職質檢,最後抽檢,成本也會水漲船高。
對於這個行業的每個參與者來說,壓力都是壹樣的。對於龍貓數據、Testin雲測、Besay BasicFinder這樣的第二梯隊公司來說,他們需要創業叠代,需要在這個過程中想辦法突破自己,不斷創新,走出自己的舒適區。他們找到了壹個切入點,需要思考的是未來如何取勝。業內人士認為,第四梯隊危機的出現,有利於強大的第二梯隊依靠服務質量和效率,搶占已經退出的小作坊留下的市場空白。
新階段和新競爭
數據註釋和收集是壹項技術活動。
需求來了,投標公司會做兩件事:壹是分配和開發模塊;第二,努力總結規律,進行訓練。這兩個方面完成後,公司會對需求方進行報價。在報價過程中,投標公司會回去準備相關的投標資料或響應資料。
中標後,投標公司開始傳輸數據上傳到平臺,並開始配置生產和貼標業務。據悉,數據標簽業務的配置是壹個復雜的數學模型。比如有些任務需要串並行工作流,並行工作流是很多人的協同工作。串行工作流的後壹個結果是基於前壹個結果,串並行工作流需要壹個平臺來實現業務工作流的配置。比如壹些NLP類型的文本標註操作,需要多人標註,最後選壹個或者投票。串行-並行配置涉及底層數據流的分布。
在貼標過程中,質量的協同管理和績效的統計非常重要。平臺需要及時統計每個人的準確性、穩定性和效率。在標記之後,在客戶驗收之前,投標公司仍然需要抽樣檢查。最後公司按照和客戶約定的格式發貨,這就涉及到格式轉換的問題。
以上流程包含了整個貼標體系的所有技術核心點。標簽和收藏服務不是堆人就能做到的。對於依靠人力的第三、第四梯隊,賈宇航認為,他們要想轉型眾包+工具的新生產模式,“局限性比較大。”有兩個原因:
第壹,數據行業的龍頭會通過這三年的持續服務在客戶圈贏得口碑,品牌效應會為其帶來壹定的商業積累。壹些更在乎質量和投入產出比的公司會逐漸向領導者傾斜。第二,技術優勢。頭部打標公司有資金優化自己的工具和滿足客戶的定制需求,並通過管理經驗優化相應的服務體系和流程。但是,對於小團隊來說,快速建立現有的工具和過程系統來覆蓋壹個或多個行業是有限的。有兩條路可供他們選擇。第壹,精簡團隊,專攻壹家或幾家AI公司的業務,做壹個小而美的業務;第二,與精英合作,利用精英提供的工具做平臺分配的任務。
對於尚未進入市場的後來者來說,如果後來者壹開始就立誌做壹個眾包+工具平臺,眾包平臺除了要克服業務壁壘,還需要強大的運營能力和足夠多的平臺上的人。平臺需要考慮如何拉新品,如何保持日活和月活。工具方面,只有壹個可以作為目標的APP是不夠的。沒有便捷的溝通方式也很難使其減少錯誤的傳播。就像木桶理論壹樣,沒有板子是裝不下水的。換句話說,新進入者的窗口期正在逐漸關閉。
業內人士認為,招投標市場將進入戰國爭霸期。強大的第二梯隊不可避免地面臨壹場混戰。數據采用市場開始變得統壹。第壹梯隊註定不是霸權時期的主角。因為行業競爭等考慮,需求方不會把數據交給百度和JD.COM的眾包平臺。外包人力資源的上市公司,下半年會獲得壹定比例的市場份額,對五家競標公司構成壹定威脅,但威脅不大。
下半場第二梯隊將如何競爭?通過與第二梯隊的三家公司深入溝通,黑智發現他們對未來和競爭的理解不同,布局也不盡相同。這些差異從誕生的那壹刻起就註定了。
1.妳想變輕還是變重?
龍貓數據、Testin雲測、雙賽基礎Finder對“輕做還是重做”這個問題給出了不同的答案。Testin雲測和Double Match BasicFinder都有自己的標註團隊,而龍貓數據堅持眾包進行標註。
不同的選擇背後是不同的基因。Testin雲測成立於2011。從App兼容性測試開始,進入企業服務,再衍生出功能測試、自動化測試、安全測試、性能測試等服務,成為壹站式測試平臺。2017年,Testin雲積累了大量客戶。壹些AI公司找到雲測,希望通過雲測的公共測量平臺采集數據。這是Testin的雲測量和采樣業務的起點。
Testin雲測做過很多競價業務。比如除了眾包,還會做定制場景采集,甚至和橫店影視基地合作,利用橫店集團演出資源,搭建專屬場景,完成客戶的定制場景采集。在標註方面,Testin雲測自建了標註基地,並與房山市政府合作進行數據標註。賈宇航說Testin雲測做的壹切都是為了客戶的需求。“通過工具開發和驅動,貼標的效率、準確性和安全性得到了保證。並通過項目管理、風險控制管理等。,以確保貼標精度符合客戶標準,滿足客戶對精度的要求。”
從Besay BasicFinder的產品基因來看,Besay的工具更傾向於團隊模式下的管理工具,而不是眾包模式。2018年2月,18,比賽收購新博友。如前所述,新博友是壹家經營了30年的北京數據處理公司。公司提出需求並提供技術支持。“我們叠代了很多次,每壹個工具、快捷鍵、每壹個設置的優化都是數據生產中的磨合。比賽的業務比其他公司晚。2016基本沒收到業務,直到2017才開始收到。我們的工具非常堅固。”
除了新博友,貝賽基礎Finder也壹直在積極擴大產能。杜林表示,目前貝賽基礎Finder已經擴大了近3000人的分工廠。"通過擴大我們自己的生產能力,我們可以實現最專業的服務."2065438+2008年9月,貝賽基礎Finder收購丁火智能100%股權。丁火智能的“聚聚APP”已經積累了數十萬活躍眾包用戶。“我們建立了壹套獨立的采集系統,然後結合集成的APP,實現數據采集,完成更多樣化的任務。”
與Testin雲測和BasicFinder不同,龍貓數據沒有自己的標註團隊,工具偏向眾包模式。互聯網公司出身的啟智和聯創,更喜歡以平臺化的方式采用標準,而不是“做壹個純粹的數據工廠”。贊智過去的經驗告訴他,系統應該做這些復雜的數據處理,而不是靠人對人的管理。因為對人的管理效率很低。
據啟智介紹,龍貓數據較早采用眾包模式進行數據采集。“我們通過眾包讓事情發生,許多追隨者開始通過眾包來做這件事。”閻誌認為龍貓數據創造了壹把“永恒之劍”。他不認為學龍貓數據的人能做好眾包。“早期進入這個行業的玩家都有壹把寶刀。他們用這把寶刀獲取利益,然後他們看到別人拿著永恒之劍獲取更大的利益。為了打造這把永恒之劍,他不可能失去這把寶刀。他們丟了他們的刀。他們可能已經失去了壹切。但不丟刀,他們很難造出倚天劍。因為人的精力是有限的,思維也是有限的,不可能同時專註於寶刀和倚天劍,而且倚天劍造得比我們好也是不科學的。”
啟智認為龍貓數據沒有寶刀。“接到客戶需求後,我們只能優化系統,保證數據輸出準確。對於他們來說,接到客戶的需求後,還是有辦法退壹步的,所以監督大家現場認真做。他們有退路,我們沒有退路。我們必須解決它。有退路的時候,人急了就容易選擇退路。”據了解,目前龍貓眾包平臺擁有400多萬用戶,其中只有1000多名是貼標簽的。龍貓數據貼標業務主要由1000多家渠道商承擔。
2.做不做模特?
賈宇航提到,數據標註的產業鏈可以分為三部分:人、工具、算法。Testin雲測堅持做好人員+工具,而不是算法。“數據是可復制的。如果采集標註公司知道算法,有點像壹個算法公司找另壹個算法公司標註。這個數據是否用於乙方的推廣是有爭議的。”“我們是服務於數據領域的公司,不是賣算法的公司。我們只負責完成企業的數據采用需求。交付後,我們將徹底消除客戶數據。”
杜林可能不同意賈宇航的觀點,因為Besay BasicFinder正在構建壹個傻瓜式的建模系統——用戶只需要輸入數據就可以得到壹個AI模型。“如果客戶想成立壹個AI部門,只需要在之前比賽的系統上進行部署,然後找兩三個AI工程師調整參數,就可以自己做模型了。這樣,標記、收集和建模將成為壹個大的閉環,因為客戶了解業務,他知道業務數據應該是什麽樣的。”杜林說。
現在,Besay BasicFinder避免直接建模。杜林強調,“我們將自主研發的私有化標簽系統和主流深度學習框架統壹到了Besay AI基礎系統BasicAI中,實現AI數據和模型的全生命周期管理。雙競不建模,我們只給客戶提供壹套底層工具,讓客戶自己建模。”杜林解釋道,“Tensorflow、Keras、Pytorch等深度學習庫的出現,讓建模沒有了門檻,未來甚至高中生都可以建模。”
如果壹家汽車公司要求貝賽·基本芬德(Besay BasicFinder)幫助建立壹個自動駕駛系統,杜林說這是不可能的。但他也表示,“我們的基礎實現了從貼標到建模的高效流程管理。客戶正在加倍投標數據,並將其流式傳輸到建模平臺。客戶調整Tensorflow中的壹些參數,模型就出來了。”今年,貝賽將推出3.0新版本,並提供SaaS標記工具服務,幫助客戶實現數據標記管理。杜林提到,為團隊創建的投標和建模過程工具可以提高競爭的業務延伸,提高在競爭中的優勢。
選擇沒有好壞之分,但市場會給所有選擇壹個明確的答案。而戰國混戰,還是在未來幾年。但是,客戶不希望壹家獨大,大樹下寸草不生。在未來,強號的情況會長期存在。
接近尾聲
壹個場景,壹個市場,壹個行業,壹個江湖。
進入市場的熙熙攘攘的人群,或主動或被動,但壹旦進入,市場和資本的邏輯就發揮了作用,他們,妳我,都成為生產鏈條中的生產要素,被選擇、被改良或被淘汰。
每個行業參與者的立場,從誕生之日起,就已經或者已經註定了。它從產生的那壹刻起,就遵循著已有的邏輯,從不以個人意誌為轉移。上半場草根英雄輩出,拼價格,下半場拼品牌,拼服務,拼效率。精英開始清場,草根離開或重新站隊。而資本加速了整個行業的叠代。
現在,下半場才剛剛開始,談論決賽似乎有點為時過早。有太多的不確定性將在未來幾年的競爭中變得確定。但更多的不確定性可能會再次出現。城頭換了國王的旗幟,只在壹瞬間。
黑智認為,未來幾年,雖然不確定性是主流,但仍有幾件事是確定的:
1.下半年仍將是壹場性價比之戰。客戶總是希望以最低的成本獲得更高質量的數據。為了在競爭中生存和脫穎而出,供應方不得不滿足性價比的需求,他們不得不通過技術獲得降價和盈利的空間。賈宇航覺得技術永遠是最重要的。“通過技術手段強迫自己不要賺太多錢。這樣可以降低價格,提高競爭力。”
2.不要忽視傳統公司的AI需求。毫無疑問,未來幾年,傳統企業的AI需求將會井噴。如何抓住他們,服務好他們,是所有投標公司迫切需要解決的問題。當然,我們也不能忽視AI行業的新數據,比如3D激光雷達和心跳數據。
3.不能忽視業務能力。業務能力不強,或將成為投標公司的新短板。在這個階段,他們的產品和商業模式基本上都已經得到了市場的驗證。他們需要通過擴大商業杠桿來擴大產品的覆蓋面。
4.建立第二條增長曲線。接下來的幾年,有人走,有人留。每個人都是產業鏈中的歸屬者、主導者或被主導者。所有剩下的公司都應該尋找第二條增長曲線,從而突破現有的成本收益限制。另外,張三的夢想還是要去做,去實現。總有壹個夢想,萬壹實現了。(註:張三為化名)