饮食常识Manual
如何使用LL开云(中国)Kaiyun官方网站M建立行业KG(知识图)饮食知识
大语言模型(LLM)在各种应用领域中已经取得了显着的成功,但是它常常无法捕捉和掌握最新的事实知识。而另一方面,知识图(Knowledge Graph,简称:KG)则拥有丰富的专家知识和事实知识,但它很难以构建,又又不足以处理现实世界知识图谱的动态变化性质和因果推论功能等。因此,自然而然地将KG 和LLM结合起来,各自发挥优势,相辅相成,缔造完美组合。 大家都知道,LLM 常有幻觉(Hallucination)现象,这是源于LLM 缺乏:准确性、可解释性和可控性。那么,如何才能有效降低LLM 的幻觉风险呢?其中,知识图(Knowledge Graph,简称:KG)与LLM 的结合,藉由KG 来建立的行业或企业的数据地图,来将各数据与其涵意(Semantics)连结起来,化解上述LLM 的三项缺点,因而有效减少LLM 的幻觉现象。 LLM 天生非常善解文句和人意,可以简化知识图中的复杂数据的查询或检索。由于知识图是实体(Entity)相互关联的描述的集合,提供了有关知识图中数据的重要上下文(Context)和内容涵意,以便增强其响应速度和准确性。因而让LLM 产生更精确、准确且与上下文相关的输出,同时防止偏见和幻觉。 其典型的途径是:使用RAG(检索增强生成)技术。亦即,LLM 使用RAG 先检索KG 来找到与用户查询最相关的知识。也可透过 基于图的搜索(Graph Traversal) 或基于图的嵌入检索(Graph Embedding Retrieval) 来检索KG内的信息。然后,把检索到的KG知识作为上下文,反馈给LLM,于是LLM 就实现基于企业(或行业)内知识而生成响应了,有效降LLM幻觉,提高AI在企业应用的可信度。 刚才提到了,KG 是明确储存丰富事实知识的数据结构,然而KG 的构建是费力又耗时的工作。于是,利用AI 模型(含LLM 等)来协助和加速建立KG,是一项高效的策略。例如,使用BERTopic 模型来从自由文本(Text)中萃取主题(Topic)作为候选实体(Entity);接着,使用 LLM(如ChatGPT)来抽取实体之间的关系(Links)。这种策略是充分利用LLM 的强大上下文理解能力来识别实体之间的语义关系,尤其在无监督式学习或少量标注数据的情况下,其效果特别好。 Step-1:识别实体(Entity)利用预训练的AI 模型(例如BERTopic 等)从文本中识别出实体,例如食材、菜品、供货商、烹饪方法等。尤其在缺乏充足的标注数据的应用情境中,BERTopic这种无监督式学习的模型能够自动从文本中发掘隐含的语义结构。而且BERTopic 结合了Transformer 编码器和聚类算法,更有利于捕捉文本中的语义关系,来生成较具可解释性的主题,其更能够映像到业务中具有代表性的概念或实体。经由AI 模型萃取出的候选实体只需要少许的人工审核,来确保候选实体符合业务需求,让KG的建构更容易、更高效。简而言之,此步骤的任务是,使用BERTopic 预训练模型来提取种子实体列表,以指导KG 最相关的实体。这些种子实体保证了实体提取的高相关性,并为后续的三元组提取提供了较高精确度。 LLM(如ChatGPT)具有强大上下文理解能力,可以精准识别出实体之间的语义关系。所以,LLM 很擅长基于上下文,而抽取实体之间的关系。例如: 菜品包含某种食材 或 供货商供应特定食材 等。所以,使用LLM 来抽取实体之间的关系是可行且有效的,但为了提升准确度,可以设计提示词(Prompt)限定关系类别,来提升准确性。还可以使用LoRA 等微调技术来让LLM 更适合于企业(或行业)应用情境。此策略特别适合应用于企业KG 的构建,例如餐饮业的食材知识图谱,能帮助企业从大量文本中自动化发掘菜品、食材、供货商、烹饪方式等关系,从而提升数据结构化与应用价值。简而言之,此步骤的任务是,使用LLM 进行候选三元组撷取。 接着,将抽取出的实体和关系转化为知识图谱的节点(Node)与边(Edge),形成初步的KG。也可以考虑使用图数据库(如Neo4j)来存储和查询它。简而言之,此步骤的任务是,进一步整理并存储萃取的三元组,并且运用图数据库(如 Neo4j)来查询和可视化。 接着,将抽取出的实体和关系转化为知识图谱的节点(Node)与边(Edge),形成初步的KG。也可以考虑使用图数据库(如Neo4j)来存储和查询它。最后,针对不同数据来源中同一实体的重复或歧义问题,需要利用实体对齐技术进行融合,确保知识图谱的准确性和一致性。两个实体之间提取的关系可能是冲突的、多样化的或不正确的,这需要透过融合步骤來解决的。融合方法有助于调和冲突关系,有效地整合不同或不正确的关系,例如针对相同实体的不同表达进行融合和标准化,例如「西红柿」和「西红柿」归为同一食材。并且可考虑与外部知识库(如企业内部库)连接,进行实体消歧或补全饮食知识。简而言之,此步骤的任务是,设计了新颖的融合模块,该模块提供了提取的知识的全局视图,优化三元组、提升KG 质量。 本文说明运用LLM 来协助建构KG 的目的及其典型的流程。例如,从自由文本(如食谱)中自动构建KG,包含: ● 实体(Entities):使用 BERTopic 萃取候选实体(Entities)。自动从文本中发现核心概念,例如食材开云(中国)Kaiyun官方网站、菜品名称、烹饪方法等。 ●关系(Links):使用LLM 萃取关系(Links)。基于文本上下文,让LLM自动识别实体间的关系。例如,食材与菜品的关系、烹饪方式与食材的关系等。 ●三元组(Triples):整理并存储萃取的三元组(实体1,关系,实体2),构建KG,并运用图数据库来查询和可视化。 综上所述,使用BERTopic 来从无标注的文本自动提取主题,作为候选实体,能大幅减少人工成本。接着,LLM 来透过上下文理解来自动抽取关系,也减少手动标注需求。这种AI 模型的组合策略,能适用于建构不同领域的KG,如餐饮、医疗、供应链等。也具有可扩展性,若需要增添新类型的实体或关系,只需调整LLM 的提示词或进行微调即可,也可以节省模型的训练成本。所以,这是一种颇具有成本效益的AI 模型组合策略。开云(中国)Kaiyun官方网站