首页 » 您可以将其与公共数据集或从

您可以将其与公共数据集或从

然后我们可以将此解决方案扩展到任何机器学习 您可以将其与公共数据  缺少标签的分类问题。对于二分类,这些输出标签可能只有两个,就像我们的例子一样,对于多类问题,则可能更多。如果标签函数无法标记样本,它可以输出缺失值(“ – ”)。

在主动学习中

昂贵的专家会逐行提供标签;而在弱监督中,我们可以 目标电话号码或电话营销数据 简单地要求专家提供一些标记函数。标记函数是指专家认为可以正确标记标签子集的任何启发式方法。专家应提供尽可能多的标记函数,以尽可能高的准确度覆盖尽可能多的行(见下图 1)。

图  一个可能的弱监督框架——领域专家为系统提供标记功 滑动门的接线动滑动门的接 能。生成的弱标签源被输入到标签模型,该模型输出概率标签以训练最终的判别模型。

不过,标记函数只是弱标记源

例如,您可以使用旧模型的预测,该模型仅适用 能的 印度手机号码 解决方案 于训练集中的旧数据点。 互联网上爬取的信息混合使用,或者请更便宜的非专家来标记您的数据并将其视为弱标记源。任何能够比随机标记更准确地标记行子集的策略都可以添加到您的弱监督输入中。标签模型(图 1)算法背后的理论要求所有标签源都是独立的。然而, 最近的研究 表明即使存在多种弱标签源,这一要求仍然成立。