我爱免费 发表于 2025-10-1 21:28

AI基础:新词发现——AI“听见”语言的未来

作者:微信文章


在社交媒体,生产生活的网络环境中,语言是一个承载信息传播的符号,既包括文字也包含语义和语料。每天都在产生新的词汇,那么AI如何在学习中理解新词的含义就极为重要,否则新词出现比如yyds没有一个解决新词的方案它将和我们一样对从未见过听过的词也不理解。由此AI领域出现了一个叫新词发现的解决方案能让AI更加智能的理解和发现新词汇这也加速了AI的快速发展。那么什么是新词发现?

利用无监督或者弱监督的机器算法从大量非结构化的文字中,自动识别出语义密切,使用稳定且具备独立语义的字符序列。无监督指的是词汇在统计学中出现显著特性的模式。有统计特征法

通常是使用n-gram模式类似击鼓传花,逐次往下传,让每个词都和后面的词产生联系。然后提取特征,使用频次过滤掉出现次数少的,又运用凝固度方式确定词之间的紧密性这一过程使用了概率分布,再加上使用左右熵衡量上下文的自由度(一个熟词应该出现在上下左右附近:比如“饭”可能出现在吃,做,买,卖,盒,桌)在这些词前后都会出现,而像“古中路”可能只出现在“胜”的后面,左右熵分布很不均匀。就不能作为一个完整的新词,只是胜古中路的一部分。无监督还可以使用词嵌入就是使用word2vec或者Glove将词变成一个高维向量,这些向量包含了语义和语法信息,核心办法就是逐个字进行扫描再通过聚类算法,相邻的字在数学向量比较靠近。然后统计处新发现的空间独立但是紧密的向量序列。很有可能是新词。这种方法能捕获到语义和语法信息,能增加AI的理解能力。监督方式就是,引入一些少量的人工干预的清洗过的数据或者给已经处理好的数据,并做一点点提示让AI自己去学习找出这些词的分布规律。比如让AI去找“绝绝子”,可能需要给AI提供“XX子”这样的种子提示,它就可以分析出来相关的字符串,从而推断绝绝子是新词,这个绝绝子也是候选词。在计算过程中通过计算候选词和种子词的余弦相似度,相似度高的候选词可能就是新词。而近期出现的大模型标注就是为了解决新词发现的一个重要表现,或者使用已有的词库进行训练产生新词。

通过上面的介绍大概了解到:就是通过统计词上下左右出现的关联性进行统计,得出这个词是不是新词。其核心的统计特征包括:1、凝固度——判断内部结合强度(通过概率计算两个字出现的频次)2、自由度——判断上下文的独立度(通过左右熵确定灵活搭配性)具体AI的工作过程:AI先筛选高频词语,然后通过高凝固度过滤掉通用的字词,比如“的”,“然后”,“啊”,“否则”等词。再通过左右熵过滤掉,左右不匹配的词从而发现新词。新词发现就像教会了AI自主学习能力一样,每当出现新词,它会自动识别,能极大推动搜索引擎,知识库,知识图谱,舆情统计,避免大模型幻觉,让模型与时俱进保持活力。可以这么理解“无新词发现,AI不智能”,让我们携手并进,“用技术让我们的生活变得舒适幸福美好”的道路上越走越远!在此祝各位:国庆快乐,幸福安康!
页: [1]
查看完整版本: AI基础:新词发现——AI“听见”语言的未来