机器学习之监督学习、数据标签

  • Post author:
  • Post category:其他

监督学习

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

什么是数据标记?

在机器学习中,数据标记流程用于识别原始数据(图片、文本文件、视频等)并添加一个或多个有意义的信息标签以提供下文,从而使机器学习模型能够从它进行学习。例如,标签可指示相片是否包含鸟或汽车、录音中有哪些词发音,或者 X 影像是否包含肿瘤。各种使用案例都需要用到数据标记,包括计算机视觉、自然语言处理和语音识别。

数据标记的工作原理?

今天,最实用的机器学习模型利用的是监督学习,它应用算法以将一个输入映射到一个输出。为了使监督学习发挥作用,您需要一组带标签的数据,使模型能够从中学习以做出正确的决定。数据标记的起点通常是要求人类就指定的无标签数据做出判断。例如,标记者可能需要为数据集中“相片是否包含鸟”的答案为“是”的所有图片添加标签。添加标签可能像简单的是/否一样粗疏,也可能像识别图片中与鸟相关的像素一样精细。机器学习模型在名为“模型训练”的流程中,使用人类提供的标签学习背后的模式。 这样训练过的模型,可用于对新数据进行预测。

在机器学习中,您用作客观标准来训练和评估指定模型的正确标记的数据集通常称为“标准答案”。


版权声明:本文为weixin_44039930原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。