首页 > 生活 > 生活妙招

机器怎么样(机器周期)

常驻编辑 生活妙招 2021-12-31 机器
tT6拜客生活常识网

阶段一:数据部分

2021年机器学习怎么学?这份深度指南帮你做了总结

tT6拜客生活常识网

图:机器学习周期的数据部分tT6拜客生活常识网

tT6拜客生活常识网

虽然大家的最终目标是一个高质量的模型,但训练一个好的模型的关键之一,在于传递给它的数据的数量tT6拜客生活常识网

tT6拜客生活常识网

机器学习生命周期中,数据方面的相关步骤是:tT6拜客生活常识网

tT6拜客生活常识网

1、数据收集

第一步,是在不管最终的数据质量的情况下,先收集尽可能多的原始数据。在这部分原始数据中,只有一小部分数据会被注释,这也是大部分成本的来源。tT6拜客生活常识网

tT6拜客生活常识网

而当模型性能出现问题时,根据需要添加大量数据是很有用的。tT6拜客生活常识网

tT6拜客生活常识网

下面是常用的公共数据集列表:tT6拜客生活常识网

https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4ftT6拜客生活常识网

tT6拜客生活常识网

2、定义注释模式

这个环节,是生命周期里数据阶段最重要的部分之一,而它却经常被忽视。tT6拜客生活常识网

tT6拜客生活常识网

如果构造了不良的注释模式,那么会出现不明确的类和边缘案例,从而使训练模型变得更加困难。tT6拜客生活常识网

tT6拜客生活常识网

例如,目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此,在注释期间将目标大小、密度和遮挡等属性囊括其中,有助于模型可以学习到数据中的关键信息。tT6拜客生活常识网

tT6拜客生活常识网

下面两个是有助于这个过程的常用工具:tT6拜客生活常识网

Matplotlib, Plot - 帮你发现数据中的Plot属性tT6拜客生活常识网

Tableu -可以帮助你更好理解数据的分析平台tT6拜客生活常识网

tT6拜客生活常识网

3、数据注释

给数据注释是一个冗长乏味的过程,每次都要连续数小时地执行相同重复的任务,这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。tT6拜客生活常识网

tT6拜客生活常识网

而这样会导致注释者可能犯了很多错误:虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率),但更大的问题是,如果定义不当的注释模式,会导致注释者以不同的方式标记样本。tT6拜客生活常识网

tT6拜客生活常识网

然而,注释公司的团队很难发现这一点,所以你需要自己检查。tT6拜客生活常识网

tT6拜客生活常识网

下面是常用的各种注释服务:tT6拜客生活常识网

tT6拜客生活常识网

Scale, Labelbox, Prodigy - 流行的注释服务tT6拜客生活常识网

Mechanical Turk - 众包注释tT6拜客生活常识网

CVAT - DIY的计算机视觉注释tT6拜客生活常识网

Doccano - NLP专用注释工具tT6拜客生活常识网

Centaur Labs -医疗数据标签服务tT6拜客生活常识网

tT6拜客生活常识网

4、改进数据集和注释

在尝试改进模型性能时,你可能会花费大量的时间。tT6拜客生活常识网

tT6拜客生活常识网

如果模型正在学习的过程中,但性能却不佳,那么罪魁祸首几乎总是包含偏差和错误的训练数据集,这些偏差和错误限制了模型的性能上限。tT6拜客生活常识网

tT6拜客生活常识网

改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好,那么就在训练数据中添加类似于数据集A的新数据)、根据模型了解到的偏差重新平衡数据集,以及更新注释模式以添加新标签和改进现有标签。tT6拜客生活常识网

tT6拜客生活常识网

下面是常用的改进数据集和注释的工具:tT6拜客生活常识网

DAGsHub - 数据集版本控制tT6拜客生活常识网

FiftyOne - 将数据可视化并找出错误tT6拜客生活常识网

tT6拜客生活常识网

阶段二:模型部分tT6拜客生活常识网

tT6拜客生活常识网

2021年机器学习怎么学?这份深度指南帮你做了总结

tT6拜客生活常识网

图:机器学习生命周期中的模型部分tT6拜客生活常识网

tT6拜客生活常识网

即使在这个过程中的输出是「看起来很重要的模型」,但其实,在整个循环当中,这部分所需要花费的时间是最少的。tT6拜客生活常识网

tT6拜客生活常识网

2021年机器学习怎么学?这份深度指南帮你做了总结

相关阅读:

  • 奚梦瑶挺孕肚和儿子自拍,嫁入豪门成生娃机器?超模梦近乎
  • 哪个软件背单词好(专门背单词机器)
  • 哪个机器皮肤(机器人lol皮肤)
  • 在家做加工厂,买设备自己在家加工
  • 青春剧《白日梦我》官宣主演 廖银玥演绎“学习机器”
  • 迈腾1.8T和2.0T该如何选择?
  • 2022值得入手的VR一体机,全方位无短板的奇遇Dream
  • 达摩院又一“扫地僧”出走?阿里副总裁、达摩院副院长金
  • 旗舰来袭,如此众多的全能机型,为什么我选择追觅S10
  • Nature子刊
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。