2019年《中国(guó)人工智(zhì)能基础数据服务行业白皮书》显示,2018年中国人工智能基础数(shù)据服务市场规(guī)模达(dá)到25.86亿(yì)元(yuán),预计到2025年市场规模或将突(tū)破113亿元。人(rén)工智能(néng)基础数据(jù)服务市(shì)场呈(chéng)现出巨大发展潜力。但(dàn)伴(bàn)随着需求的不断膨胀,基础数据(jù)服务商在迎来机会的同时,也面临新的挑战——如何有效提升数据标注的(de)产能(néng)。
面对良(liáng)好(hǎo)的市(shì)场预期(qī),基础(chǔ)数(shù)据服务供应商为提升产能纷(fēn)纷做出积极尝试(shì),2019年11月倍赛BasicFinder第二代云(yún)基础设施——全类(lèi)型SaaS数据标(biāo)注(zhù)工具集上线(xiàn),在基础(chǔ)数据(jù)服务领域探索出一条以工具赋能为(wéi)核心的提升产(chǎn)能(néng)之路。或许创新工具的使(shǐ)用(yòng)将(jiāng)为基础数(shù)据服务商打开新局面。
泛用性是标注工具(jù)平台(tái)的(de)基本(běn)能力
自始以来,算法、算力(lì)和数据就被认定为拉(lā)动人工智能发展的(de)马车,而数(shù)据则是马车前进中不可缺(quē)少的轮子。由于算法(fǎ)和(hé)算力水平(píng)的不断提(tí)升,以往市场上流行的标(biāo)注(zhù)工(gōng)具已经无法适应AI数据(jù)从简易到复杂的趋势(shì)变化,因此,标(biāo)注工具平台的泛用性成为实(shí)现精准、高(gāo)效标注(zhù)的基本要素。
由于基础数据服务商从事的标注业务具有普遍多样性,单独工具(jù)无法满(mǎn)足业务需求。倍赛BasicFinder CEO 杜霖认为:作(zuò)为(wéi)SaaS标注工具,最基本(běn)的(de)要求(qiú)就(jiù)是能对图像(xiàng)、文本、语音、视频以(yǐ)及点云数据做到一站式加工处(chù)理(lǐ),没有完善(shàn)的工(gōng)具(jù)集,人机(jī)协作和提升产(chǎn)能将成为空谈。这也是为(wéi)什么倍赛BasicFinder在SaaS平台上投入精力,设计出含(hán)2D框、分词标注、视频追(zhuī)踪、语音标注及(jí)点云标注(zhù)工具(jù)等18款(kuǎn)套件(jiàn)的原因,目(mù)的就是让(ràng)平台使(shǐ)用者不必因更(gèng)换项目而频繁(fán)切换(huàn)工具平(píng)台。
产能提(tí)升,工(gōng)具效益非人力可替(tì)代
人工智能在现实应用中多采(cǎi)用有监督学习(xí)模式(shì),基(jī)于大量标注数据的模型训练能够帮(bāng)助(zhù)算法有效(xiào)降低错误率。虽然现在AI科学家们在探(tàn)索通(tōng)过小样本数据以达到训练目的,但就目前(qián)的应用成(chéng)果(guǒ)看,无监督(dū)学习或弱(ruò)监督(dū)学习仍然不能取代有监督学(xué)习,这就使得(dé)在可(kě)预见的未(wèi)来,市场对AI标(biāo)注(zhù)数(shù)据的需求将呈指数化持(chí)续增长,据IDC 统计,全球每年生产的数据(jù)量在2025年或将达到163ZB。紧张的产能需求迫使(shǐ)AI科技(jì)公(gōng)司和基(jī)础数据(jù)服务商(shāng)对数据生产手段做出(chū)积极地调整。其(qí)中部分企业(yè)通(tōng)过增加(jiā)人力(lì)的方式扩充产能(néng),但随着人力(lì)不断扩充,边际收益逐渐递减,趋于0值。虽然个别企业希望培训机制可(kě)以进一步增加人效,却收(shōu)效甚微。在企业的调整实践经验下,不难发现与增(zēng)加人力相(xiàng)比(bǐ),提(tí)升标(biāo)注工具平台在人(rén)机协(xié)同(tóng)方向的创新,或许是提升产能更(gèng)“靠谱”的(de)方式。
管理属性和灵活性成为SaaS标注工具(jù)的优(yōu)势
在工具平台的选择方(fāng)面,也有部分AI科技企(qǐ)业和(hé)基础数据服务商通过改写开源工(gōng)具(jù)以获得标注能力,但(dàn)往往改写工具仅能满足当(dāng)前最(zuì)急迫的标注需求,长期却无法适(shì)应项目更替(tì),原因在于每次标(biāo)注需(xū)求的变动,都(dōu)需要技术人员进行(háng)再次改(gǎi)写(xiě),开发时间周期和技术人力损耗在成本(běn)上加(jiā)重了企业负担。在成本考(kǎo)量之外(wài),开源(yuán)工具在管理属性(xìng)和灵活性层面也相对薄弱,而(ér)对(duì)于一款相对成熟的SaaS标注工具平台来说(shuō),“标”是平(píng)台基础;“管(guǎn)”是(shì)平(píng)台的灵魂;“活”则是工具(jù)的(de)延伸。
以倍(bèi)赛BasicFinder SaaS标(biāo)注(zhù)平(píng)台为例,其内部系(xì)统(tǒng)嵌入工(gōng)作(zuò)流模(mó)块。具体(tǐ)工(gōng)作流为:任务发布、执行标(biāo)注、结(jié)果审核、数据质(zhì)检。平台(tái)通过每个(gè)环节的作业衔接,构建起流程管理系统(tǒng),与单纯的标注工具相比(bǐ),任务在SaaS平台中可以(yǐ)获得更快的(de)流(liú)转速度。同(tóng)时由于工序之间采用封闭节点构(gòu)造,执行标注和审(shěn)核工序的操作(zuò)员无法对数据(jù)进(jìn)行下载(zǎi)和传输,又进一步(bù)保证了数据的安(ān)全性。除流程管(guǎn)理外(wài),该工具平台还具有(yǒu)绩效(xiào)管理功能,尤其是AI企业或基础数据服务(wù)商的管理层用户,可(kě)以通过可视化面(miàn)板了解项目的进度(dù)以及团队下每个(gè)标注员(yuán)的工作效率和(hé)完成任务的准确度。绩效管(guǎn)理功能的加入,减少了项目经理因过度参与作业环节中(zhōng)的管理工作而耗费精力。之前一个项目经理能同时管理(lǐ)3个项目,在SaaS标注平台的使(shǐ)用下可拓展管理10个,甚至更(gèng)多的项目。
在(zài)工具的(de)灵活性方(fāng)面(miàn),倍赛(sài)BasicFinder SaaS标注平台将标注标签、标注工具、标注特质项等功能设计成可自由拖拽的模板(bǎn)配(pèi)置形式,以指定标注范畴(chóu),规范标注员的(de)标签和工(gōng)具使用,减少不必要的标注错误出现。除可自由配置模板,SaaS标注平台也为有能力开(kāi)发预(yù)标模型的AI科技公(gōng)司(sī)或数据服务(wù)商提供加速工具接口。在(zài)执行大规模的标注项目时,平台使用者可以通过接入预标模型,对大批数据进行预处理,而后人工进行补(bǔ)标(biāo),以增加操作员单位时(shí)间(jiān)的作业频次,提(tí)高产能输出。
开放数据标注能力,普惠AI基础(chǔ)行业
作为基础操作层(céng)面,标注工具能力(lì)的全面性将对数据加工者起到至关重要的作用。如倍赛BasicFinder曾为招商银(yín)行部署数据(jù)标注工具平台私有(yǒu)化(huà)系统,通(tōng)过(guò)独(dú)立系统的配置,同时解决了招行关于标注工具、工序(xù)管理和数据安全三个方面的难题,一举帮助其建立起可以独立展(zhǎn)开数据(jù)标注作(zuò)业的能力。
在AI基础数据服务市场的激烈竞争下(xià),数据的标记质量和项目的执(zhí)行速率(lǜ)成为(wéi)数据服务商获得竞争优(yōu)势的关(guān)键。由于数据标注工具私(sī)有化(huà)部署(shǔ)成(chéng)本相对较(jiào)高,倍赛BasicFinder将(jiāng)其 SaaS 化,大大降低了工(gōng)具(jù)的使用成本,普惠中小型AI科技公司和基础数据服务(wù)供应商,赋能AI基础行业。
版(bǎn)权声明
本(běn)文来源亿欧,版权归原作者所有。
作者:亿欧来源:亿(yì)欧(ōu)