多客科技 发表于 2025-9-24 22:40

AI是怎么理解一段话的?

作者:微信文章


文:沉潜十年

我要做的AI工具是通过上传一个固定模板的碳盘查Excel表格,套用格式自动生成word格式的碳盘查报告。

这个过程就像搭积木一样,但首先需要让AI认出,积木长什么样子——也就是说需要让AI理解我上传的表格内容有什么。经过几天的学习,我尝试将这一流程的原理说明如下:

第一步,拆分。为了节省算力,AI在面对大段文字内容时,需要先对这部分内容进行拆分。举个例子,当单独出现“圳”“邯”“肓”“倜”时,我们可能不会立马反应过来这些是什么字,但如果加上组合,成为“深圳”“邯郸”“膏肓”“倜傥”时,这些字就变得容易辨认。对AI而言,拆分文字内容的目的也一样是为了容易辨认——AI会利用分词器将文字拆分成使用频率较高的词方便理解。此处我要用到的工具为RAG(检索增强生成),把相关文档片段先检索出来,再交给大模型生成答案,以避免“胡编”。

第二步,词嵌入。为了精确理解一个词的意思,AI需要先将第一步中分割好的词汇转化成数字,在高维度上定义词向量。假设AI需要区分“男人”和“女孩”的区别,假设需要区分的最基本两个特征是性别、年龄。用1表示男性,9表示女性;2表示年轻,8表示年长,则用向量表示,男人为(1,8)女孩为(9,2)。再细分些,如果是“老男人”“好女孩”等更细节的描述,则需要继续添加维度。我举的例子为二维,而AI会用一个高维度的向量来理解一个词。将词语转化为数字的过程就叫词嵌入(embedding)。

第三步,调用大模型。将第二步中嵌入好的词输入,结合给定的上下文语言环境,输入选择的大模型进行理解(比如Chat GPT 4.0),最终利用大模型这个“外置大脑”来理解我给出的材料,并针对我的问题作出回答。

目前我的理解如上,问了下AI基本能把核心要点说清。目前还是理论阶段,争取周末做出一个智能数据助手聊天机器人:)

(完)
页: [1]
查看完整版本: AI是怎么理解一段话的?