博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
处理非均衡问题的数据抽样方法
阅读量:4211 次
发布时间:2019-05-26

本文共 610 字,大约阅读时间需要 2 分钟。

      一种针对非均衡问题调节分类器的方法,就是对分类器的训练数据进行改造。这可以通
欠抽样
undersampling
)或者
过抽样
oversampling
)来实现。过抽样意味着复制样例,而欠
抽样意味着删除样例。不管采用哪种方式,数据都会从原始形式改造为新形式。抽样过程则可以
通过随机方式或者某个预定方式来实现。
通常也会存在某个罕见的类别需要我们来识别,比如在信用卡欺诈当中。如前所述,正例类
别属于罕见类别。我们希望对于这种罕见类别能尽可能保留更多的信息,因此,我们应该保留正
例类别中的所有样例,而对反例类别进行欠抽样或者样例删除处理。这种方法的一个缺点就在于
要确定哪些样例需要进行剔除。但是,在选择剔除的样例中可能携带了剩余样例中并不包含的有
价值信息。
     上述问题的一种解决办法,就是选择那些离决策边界较远的样例进行删除。假定我们有一个
数据集,其中有
50
例信用卡欺诈交易和
5000
例合法交易。如果我们想要对合法交易样例进行欠抽
样处理,使得这两类数据比较均衡的话,那么我们就需要去掉
4950
个样例,而这些样例中可能包
含很多有价值的信息。这看上去有些极端,因此有一种替代的策略就是使用反例类别的欠抽样和
正例类别的过抽样相混合的方法。
      要对正例类别进行过抽样,我们可以复制已有样例或者加入与已有样例相似的点。一种方法
是加入已有数据点的插值点,但是这种做法可能会导致过拟合的问题。

转载地址:http://jukmi.baihongyu.com/

你可能感兴趣的文章
Linux Context , Interrupts 和 Context Switching 说明
查看>>
《Oracle数据库问题解决方案和故障排除手册》终于发售了
查看>>
Oracle alert log ALTER SYSTEM SET service_names='','SYS$SYS.KUPC$C_...' SCOPE=MEMORY SID='' 说明
查看>>
Oracle latch:library cache 导致 数据库挂起 故障
查看>>
Openfiler 配置 NFS 示例
查看>>
Oracle 11.2.0.1 RAC GRID 无法启动 : Oracle High Availability Services startup failed
查看>>
Oracle 18c 单实例安装手册 详细截图版
查看>>
Oracle Linux 6.1 + Oracle 11.2.0.1 RAC + RAW 安装文档
查看>>
Oracle 11g 新特性 -- Online Patching (Hot Patching 热补丁)说明
查看>>
Oracle 11g 新特性 -- ASM 增强 说明
查看>>
Oracle 11g 新特性 -- Database Replay (重演) 说明
查看>>
Oracle 11g 新特性 -- 自动诊断资料档案库(ADR) 说明
查看>>
Oracle 11g 新特性 -- RMAN Data Recovery Advisor(DRA) 说明
查看>>
CSDN博客之星 投票说明
查看>>
Oracle wallet 配置 说明
查看>>
/dev/sdxx is apparently in use by the system; will not make a filesystem here! 解决方法
查看>>
RMAN-01009: syntax error: found "dot" 解决方法
查看>>
Oracle smon_scn_time 表 说明
查看>>
VBox fdisk 不显示 添加的硬盘 解决方法
查看>>
Secure CRT 自动记录日志 配置 小记
查看>>