大模型“画龙”,小数据“点睛”
企业加快智能化转型
◎本报记者 翟冬冬
小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
王金桥
中国科学院自动化研究所研究员
如今大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中,如果想让其变得更加聪明,大量的、多样性的数据必不可少。但近日,著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时,表达了不同的观点。他认为,小数据、优质数据的应用或是未来趋势。
中国科学院自动化研究所研究员王金桥表示,小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
多数应用场景难以获取高质量大数据
算法(模型)、算力和数据可以说已经成为推动人工智能发展的三大要素,其中数据尤为重要。在众多互联消费场景中,我们常常被精准的人工智能推送“击中”。通过对消费者消费习惯、购物偏好的分析,平台系统可以对消费者的潜在需求作出判断并加以引导,而这一切的基础,是基于大量的、丰富的数据样本。利用大数据,平台构建出了适用于该领域的专用模型,实现精准推送。
这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示,在过去10年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因此获得了非常大的数据集使得人工智能可以开展深度学习,并给企业带来了不少经济效益。但他同时强调,这种法则并不适用于其他行业。其原因在于,并不是所有场景都能产生丰富的大数据样本。
实际上,“在生活中,百分之八九十场景的问题都属于小样本问题。”王金桥表示,很多应用场景中,由于训练样本难以获取,因此只有极少量数据,缺陷检测就是其中的典型案例。缺陷检测,即采用机器视觉技术等,对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中,存在瑕疵的产品总是少数,所以缺陷检测的训练样本数量很少。
而即使对于样本丰富的场景,也存在训练数据标注愈发困难的问题。王金桥介绍,目前人工智能所使用的训练数据,还是以人工标注为主,而在海量数据面前,人工标注往往需要行业经验,一般人难以对标注区域进行识别。此外,针对每个应用需求都需要人工智能专家设计算法模型,模型越多,开发成本也会持续增加。
吴恩达也表示,在消费互联网行业中,我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中,有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。
从目前的行业发展趋势来看,基础模型或许是解决上述问题的一个方向。
以基础模型为“基座”用小数据微调
“近些年,行业开始重视研发基础模型或者说是通用型模型来解决上述问题。”王金桥说,先用大量数据预训练一个模型。这些模型在预训练中,见多识广是首要任务。训练中,模型会见识到该领域各式各样的数据,增长见识,以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。
如自然语言处理(NLP)领域的大模型,如果要利用它完成如对话、问答等下游任务,只需要使用这个下游任务中数量很小的数据,在这个大模型之上进行微调,就能达到不错的效果。一些研究成果也表明,只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调,就能得到和专属模型一样的精度。
“从大模型转向小模型,实现一个模型做多个任务,可以说是目前行业发展中的一个转变。”王金桥说,这样不仅降低了开发难度,还大大减少了开发成本。以前,每个算法都需要一个深度学习专家去设计和训练,现在只需要在大模型之下进行微调,模型的设计和架构也变得相对简单。中小型企业只需要在大模型上,自己上传数据就可以完成。
此外,利用这种方法,模型的误报率也会减少。基础模型见过丰富多彩的数据和场景,在处理具体任务的时候就具备了海量知识储备,有更充足的准备去应对具体的小场景应用。
不过吴恩达在访谈中也表示,预训练只是要解决难题的一小部分,更大的难题是提供一个工具让使用者能够选择正确的数据用于微调,并用一致的方式对数据进行标记。面对大数据集的应用时,开发者的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均。但是,如果研究人员能够开发出用来标记出数据不一致地方的工具,为使用者提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效的方法。
多模态或是大模型未来发展方向
基础模型作为生产众多小模型的“基座”,性能尤为重要。其认知能力越接近人类,在此之上产生的小模型性能也将越优异。
在探索外部环境的时候,人类具备视觉、听觉、触觉等多种认知手段,并通过语言对话等形式实现互动交流。其中视觉得到的信息约占70%,听觉、触觉等获得的信息约占30%。“同样,要使得大模型的性能更加优秀,更趋近人类的认知能力,就涉及到训练中的数据融合问题。”王金桥指出,我们熟知的语言生成模型GPT-3,能够生成流畅自然的文本,并完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流,缺乏图像、视频等多模态融合。
每一种信息的来源或者形式,都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。
要让基础模型的预训练更接近人类的认知模型,也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。
“这一两年,大模型的数量呈现爆发式增长,且有从单一模态模型转向多模态模型的趋势。”王金桥说,具备了多模态能力的基础模型,在具体应用场景中健壮性更好,在异常和危险情况下系统的生存能力更强,今后多模态基础模型或将成为未来基础模型发展的一个重要方向。
-
郑州市召开“郑州爱眼联盟”筹备会为预防和减少可避免性视力障碍发生,促进学生健康成长,以实际行动落实习总书记关于青少年视力健康的重要指示精神,携手爱心...
-
河南飞播造林,助力筑建绿色生态屏障图片来自河南省林业调查规划院官网飞播造林,助力筑建绿色生态屏障。2019年是河南省飞播造林40周年。记者从河南省林业部门获...
-
老师发朋友圈自省拖堂问题张晟远同学所写的作文。优美的下课铃声响了,我像灌了一大桶咖啡一样,全身的每个细胞都活跃起来了。可是老师的耳朵像塞上了...
-
印尼锡纳朋火山沉寂400年喷发6月9日,在印度尼西亚北苏门答腊省卡罗县,锡纳朋火山喷出大量火山灰。锡纳朋火山位于印尼北苏门答腊省的卡罗县,在沉寂近400...
-
巨型“抹香鲸”亮相江苏南通倡海洋环保这是由海洋垃圾拼制成的巨型抹香鲸图案(6月10日无人机拍摄)。 6月10日,一幅由海洋垃圾拼制成的巨型抹香鲸图案亮相江苏省南...
-
郑州市召开“郑州爱眼联盟”筹备会
2021-05-12 13:38:12
-
河南飞播造林,助力筑建绿色生态屏障
2019-07-04 09:02:36
-
老师发朋友圈自省拖堂问题
2019-06-13 08:54:29
-
印尼锡纳朋火山沉寂400年喷发
2019-06-11 10:23:36
-
巨型“抹香鲸”亮相江苏南通倡海洋环保
2019-06-11 10:23:34
-
全球今头条!河南卫视《出彩项目看河南》节目组在明港镇信钢公司取景
2022-07-01 10:10:07
-
天天微头条丨优化营商环境|淮滨政务服务中心:24小时自助服务专区 有事“随时办”
2022-07-01 10:13:09
-
世界关注:优化营商环境|淮滨政务服务中心:安全无小事 中心在行动
2022-07-01 10:05:23
-
每日观察!优化营商环境|淮滨政务服务中心:政策咨询窗口 助力淮滨营商环境又快又好
2022-07-01 10:06:57
-
世界热门:美交易所FTX拟白菜价收购加密货币贷款公司BlockFi 价格据称仅为估值1%
2022-07-01 10:21:14
-
全球今亮点!优化营商环境|淮滨政务服务中心:“受审分离”新模式 让企业更加满意
2022-07-01 10:14:21
-
世界关注:“先买后付”模式在美遇阻?这家澳洲公司暂停美国业务
2022-07-01 10:07:50
-
焦点快看:贵州大木村:红色旅游助力乡村振兴
2022-07-01 10:13:16
-
天天热资讯!美国批准!SpaceX星链可为飞机、船舶等交通工具提供移动互联网服务
2022-07-01 10:10:20
-
微头条丨西藏博物馆新馆将于近期开馆
2022-07-01 10:17:12
-
环球即时看!核心业务面临挑战,高管称Meta下半年将非常艰难
2022-07-01 10:10:51
-
环球最新:国际旅游业复苏加速 携程开启“超级目的地”纽约站
2022-07-01 10:01:45
-
环球快讯:市领导督导黄河防汛工作
2022-07-01 10:09:46
-
【全球速看料】市级人力资源服务产业园昨日揭牌
2022-07-01 10:11:04
-
每日视点!全市防汛应急工作专题培训班开班
2022-07-01 09:59:45
-
环球消息!我市举行人才集团成立暨人才社区项目启动仪式 李卫东、魏建平等为项目培土奠基
2022-07-01 10:07:09
-
当前热讯:6月份企业生产经营恢复性扩张 三大指数均升至扩张区间
2022-07-01 10:05:09
-
天天关注:前老板欠款未还,继任者被“限高”,律师:法院应纠正
2022-07-01 10:10:08
-
环球速看:天价雪糕袭击“无辜”消费者 “雪糕刺客”凉了谁的心?
2022-07-01 10:13:30
-
每日快讯!“直播带岗”提高匹配效率 求职路上以“点投”代替“跑腿”
2022-07-01 10:11:47
-
速递!上半年仅有8家房企销售额过千亿 累计销售额约1.25万亿
2022-07-01 10:01:18
-
【环球新要闻】宜阳县人民检察院召开党组理论学习中心组学习(扩大)会议
2022-07-01 10:02:16
-
重点聚焦!洛阳市孟津区朝阳镇:唤醒“沉睡”资产赋能乡村振兴
2022-07-01 10:13:52
-
环球消息!嵩县人民检察院组织开展“七一”慰问老党员活动
2022-07-01 10:04:30
-
快看:偃师区人民检察院防范养老诈骗宣传活动走进翟东村
2022-07-01 09:57:26
-
环球热点!楼阳生在郑州航空港经济综合实验区调研时强调,优势再造抢跑新赛道,创新驱动培育新动能
2022-07-01 10:15:54
-
环球快消息!多部门联动开展货车非法改装整治工作
2022-07-01 10:00:52
-
环球热消息:市水利局组织开展“全市安全日”暨防洪防汛应急演练活动
2022-07-01 10:10:54
-
最新:息县县委副书记张鑫带队到淮滨县观摩学习工业发展
2022-07-01 10:07:33
-
天天热讯:连续19个月同比正增长!神龙交答卷!
2022-07-01 10:12:55