AI“教练”双剑合璧之——特征工程:AI模型的“基础学科教育”
作者:微信文章Δ HOG(Histogram of Oriented Gradients,方向梯度直方图)是传统图像特征提取领域的经典方法,在行人检测领域取得了巨大成功,广泛应用于安防监控、智能交通。(图片来源于计算机视觉领域经典论文之一《Histograms of Oriented Gradients for Human Detection》,CVPR 2005。 )
数据标注和特征工程是机器学习流水线上紧密衔接、相互促进的两个核心环节。
没有数据标注,AI 就没有“学习的目标”,特征工程再精良也无用。
没有特征工程,AI就缺少“高效学习的方法”,标注数据再多,也难以转化为“智能”。
两者如同 AI 学习路上的“双轮”,只有协同转动,才能将原始数据转化为驱动人工智能应用的高质量“燃料”,最终实现数据价值的释放。
什么是特征工程?
你指着猫狗,引导孩子观察和总结:“你看,猫的耳朵通常是尖尖的,尾巴细长,喜欢翘起来,脸比较小,叫声是‘喵喵’的;而狗的耳朵有立着的也有垂下的,尾巴通常更粗,喜欢摇晃,脸型更宽,叫声是‘汪汪’的。”
这个引导孩子关注如何区分不同事物的关键特征(属性)的过程,就是特征工程。它不是简单地给整体贴标签,而是从原始数据(比如猫狗的形象、声音)中提炼、加工出那些对完成分类任务最有用的信息,就像给AI的学习课本“划重点”,解决的是“靠什么来判断”的问题。
具体来说,特征工程是利用专业知识和技巧,从原始数据中提取、构建或转换出能反映数据核心信息的特征,进而提升模型训练效率与预测性能的关键过程。
在特征工程中,特征的类型完全由原始数据的形态与业务含义决定,不同数据类型的特征需要匹配差异化的处理逻辑,如编码、转换、衍生,可分为数值型特征(如用户年龄、每月登录次数)、类别型特征(如性别、满意度评分)、时序型特征(如传感器实时温度、是否节假日)、文本型特征(如评论、描述)和图像型特征(如边缘、纹理)。
这些特征以AI模型可理解的数值形式呈现,同时保留了数据中的关键属性信息。
特征工程的核心步骤包括:
步骤 1:数据与业务理解——明确特征提取方向(前提)
特征工程不是盲目处理数据,而是基于对业务逻辑和数据本质的理解,确定哪些信息可能对模型有用。这是避免后续做“无用功”的关键前提。首先应明确模型要解决什么问题,数据中哪些字段或信息与目标相关。
步骤 2:数据预处理——解决数据缺陷问题(基础)
原始数据常存在缺失、异常、格式不统一、逻辑不一致和重复等问题,如果直接用于特征构建,会导致特征要么不全,要么不准,要么混乱,用这样的特征训练,最终将造成模型性能下降、结论不可信。
此步骤的核心目标是将原始数据转化为干净、规整的中间数据,来提升数据质量,减少噪声干扰,满足特征构建的基本要求,为后续特征构建扫清障碍,以提升模型的学习效果和泛化能力。
步骤 3:特征构建——创造有价值信息(核心)
基于业务理解和预处理后的数据,通过提取基础特征和衍生业务特征,将原始字段转化为对模型有价值的“特征”。这是特征工程的核心环节,直接决定模型性能上限。
基础特征——是不需要复杂业务逻辑,直接从原始数据中提取,或仅做简单格式转换/统计就能得到的特征,只能反映表面信息。比如,流动人口登记系统中的原始信息,如流动人口身份证号、户籍地址、来本地时间、居住地址等。
业务特征——是基于基础特征,结合业务需求和行业知识,通过计算、组合衍生出来的特征,能反映深层业务逻辑。比如,通过当前时间与来本地时间计算,反映流动人口的稳定性,用于分配公共服务资源,如子女入学优先级。
步骤 4:特征优化——筛选核心特征(优化)
特征构建后可能产生冗余、无关、高维的特征,特征优化是对特征进行“精炼”和“升级”的过程,通过筛选关键特征、调整特征形式、组合潜在关系等操作,提高训练效率、增强模型泛化能力。
核心操作包括:
特征选择——从原始特征中剔除冗余、无关或低贡献的特征,保留对目标变量最有影响力的特征。即选出最有用的特征。
以政务服务审批效率预测模型为例,申请事项类型、申请材料完整性、历史审批记录,这三个特征对审批效率的预测贡献最大,而申请人年龄、户籍与审批效率相关性极低,因此被筛选掉。最终模型仅保留这三个关键特征,简化了模型结构。
特征变换——对筛选后的特征进行标准化处理,适配模型输入要求。把特征变成模型“喜欢的样子”,提升模型的训练效率和预测稳定性。
比如在企业税收风险评估模型中,原始特征“企业年纳税额”为连续变量,如范围为1万元-1000万元,直接使用会导致模型对极端值(如1000万元的大企业)过于敏感,而忽略中小微企业的风险。
通过将纳税额分为3个区间:低(<10万)、中(10-100万)、高(>100万),转换为分类特征。这样既减少了噪声,如个别企业的异常高纳税额,又增强了特征的可解释性,如低纳税额企业的偷税风险更高。
特征交互与组合——通过组合多个特征生成新特征,捕捉特征间的潜在关系。弥补单一特征对复杂模式的表达不足。让模型更“懂”业务逻辑。
假设我们要构建模型预测群众对政务服务的满意度,原始特征包括:等待时间、办理时间、材料提交数量等,通过计算“材料提交数量”与“办理时间”的比率,可反映材料处理效率。
特征降维——在保留数据核心信息的前提下,通过数学变换或筛选,减少特征数量,降低模型复杂度。让特征“更简洁”,模型更高效稳定。
假设我们要评估企业信用风险,原始特征包括:企业注册地址、法定代表人性别、年度报告提交时间、纳税额、行政处罚次数、员工数量等特征。
通过低方差过滤,删除法定代表人性别、企业注册地址这两个低方差特征,保留纳税额、行政处罚次数、年度报告提交时间等关键特征。结果模型训练时间缩短、预测准确率保持稳定。
步骤 5:特征验证与迭代——检验特征有效性(闭环)
特征工程不是“一次性操作”,需通过模型反馈验证特征效果,并持续迭代优化。这是确保特征有用、好用的最后环节。核心目标是检验特征对模型的实际贡献,发现不足并调整。
业务理解决定特征方向,数据预处理保障数据质量,特征构建创造核心价值,特征优化提升模型效率,验证迭代确保特征有效。最终目标是:
让模型用 “最少、最精” 的特征,实现 “最优” 的预测效果。
在传统机器学习方法中,特征工程是必备且至关重要的一步,它直接决定了模型的性能上限。据行业研究显示,数据科学家约 80% 的时间都花费在了数据清洗和特征工程上。
深度学习模型(如卷积神经网络、循环神经网络、Transformer)具有强大的自动特征提取能力,它们能够通过多层神经网络结构,自动从原始数据中学习到层次化的、抽象的特征表示,大幅减少了对人工设计和提取特征的依赖,但这并不意味着深度学习完全不需要特征工程了!
在深度学习的数据预处理、领域知识注入、小样本适配、模型优化等关键环节,特征工程依然是提升模型性能、避免训练失败的重要支撑,只是其角色从主导低层特征设计转向了为模型高层学习铺路搭桥,成为模型从“能训练”到 “训得好”的关键推手。
比如,在训练医疗影像诊断深度学习模型中,虽然模型能自动提取影像的像素特征,但医生仍会通过特征工程,将 病灶区域的面积占比、病灶边缘的不规则程度等专业特征输入模型,这些特征是深度学习可能忽略的诊断关键指标,加入后能让模型更快聚焦核心病灶,减少“将正常组织纹理误判为病变”的错误。
可以说,优质的特征工程能让深度学习模型“事半功倍”,而缺失关键特征工程的深度学习,可能会让模型在数据迷宫中低效徘徊,甚至偏离方向。
在 AI 模型训练的标准流程中,数据标注与特征工程存在明确的先后衔接关系,但在实际AI 研发中,二者并非 “标注完再做特征” 的单向流程,而是存在双向反馈。
比如,特征工程过程中,若发现某类数据的特征区分度极低,如灰色短毛猫和灰色短毛狗的特征高度相似,就会反馈给标注环节,建议补充更多能体现差异的标注数据,如多标注猫的胡须、狗的鼻子等细节。
特征工程的未来,将呈现智能化、多模态融合、动态更新、隐私保护和可解释性的趋势。
大语言模型(LLMs)正从文本生成工具进化为特征工程智能助手。
随着生成式 AI 与自监督学习的进一步结合,特征工程有望从 “数据准备核心环节” 升级为 “智能决策中枢”,推动 AI 从 感知智能向认知智能跃迁。
并形成“AI自主挖掘+人类专家验证”的协同模式,共同构建高效、可靠、可信任的特征体系,这种模式将让特征工程从机器学习的“瓶颈”转变为模型性能的“加速器”。
现在,我们用数据标注和特征工程“教”AI“认识”世界,未来,AI能像人类一样自己学会“认识”世界吗?
当前AI的“认知”,本质是人类认知的“投影”,AI是数据驱动的模式识别机器。
但随着技术的发展,AI有望开启自主学习进化模式,成为能够主动适应复杂、动态世界的智能体。这背后的核心驱动力来自多维度的技术突破,包括自监督学习、无监督学习、强化学习、具身智能、元学习、演化算法、因果推理、长期记忆和世界模型。
当AI能自己“学认世界”后,可能具有与人类不一样的认知维度,帮助人类看到更广阔的世界,比如宇宙中的暗物质、人体中的未知基因、气候中的隐藏规律。
而人类数据标注员、数据工程师的角色,会发生显著转变,他们不会简单“消失”,而是进化,从“数据投喂者”,更多地向意义定义者、目标引导者和伦理监督者演变。
往期目录
AI“教练”双剑合璧之——数据标注:AI模型的“启蒙教育”
用“一个苹果”讲清楚什么是监督学习
把握机器学习的核心要点
AI会取代人类吗?(五)——教育体系的重构
AI会取代人类吗?(四)——前所未有的失业潮挑战
AI会取代人类吗?(三)——构建可持续的人机关系
AI会取代人类吗?(二)——信息是宇宙演化的主角
AI会取代人类吗?(一)——AI觉醒前夜
聊聊人工智能的发展历史(三):重要事件和关键人物
聊聊人工智能的发展历史(二):算法、算力和数据 “三驾马车”协同演进
聊聊人工智能的发展历史(一):联结主义、符号主义和行为主义的兴衰史
多少懂点人工智能
作者简介
人工智能博士,二十多年计算机技术学习和数字化转型工作经历,曾担任政府首席数字官,及ICT头部企业数字政府专家、AI解决方案顶层设计专家,持有多项数字化领域国际顶级专业资质认证证书。科幻电影、宇宙和天文学爱好者。
页:
[1]