返回顶部
  • 发帖数1
  • 粉丝0

此人很懒,什么也没有留下

[大模型] 构建私人知识库

[复制链接]
小幸运Lv.1 显示全部楼层 发表于 2023-9-8 11:33:48 |阅读模式 打印 上一主题 下一主题
4
已解决

构建私人知识库

  • 小幸运
  • 新手
  • 2023-09-08 11:33:48
  • 发布在 悬赏问答
684 2
在大模型时代,如何低成本快速构建私人特殊行业的知识库系统,比如客服系统、问答小助手之类的,帮我列一下技术路线实现方式,谢谢

最佳答案

江大白新手

2023-09-08 11:33:49

在大模型时代,低成本快速构建私人特殊行业的知识库系统,可以考虑以下技术路线: 选择预训练模型:选择一个预训练模型作为基础模型,例如BERT、GPT等。这些模型在大量文本数据上进行了训练,具有较好的泛化能力。 行业数据准备:收集和整理特定行业的语料库,例如客服对话、问题答案等。可以使用公开资源或者企业内部数据。 数据预处理:对行业语料库进行预处理,例如分词、去除停用词、编码等。可以使用现有的自然语言处理工 ...
查看完整内容
AIHIA梦工厂,共建AI人脉圈,共享AI时代美好生活!
回复

使用道具 举报

精彩评论2

江大白Lv.1 显示全部楼层 发表于 2023-9-8 11:33:49
在大模型时代,低成本快速构建私人特殊行业的知识库系统,可以考虑以下技术路线:

选择预训练模型:选择一个预训练模型作为基础模型,例如BERT、GPT等。这些模型在大量文本数据上进行了训练,具有较好的泛化能力。

行业数据准备:收集和整理特定行业的语料库,例如客服对话、问题答案等。可以使用公开资源或者企业内部数据。

数据预处理:对行业语料库进行预处理,例如分词、去除停用词、编码等。可以使用现有的自然语言处理工具库,例如Pytorch等。

模型训练:使用预处理后的语料库对预训练模型进行微调,使其更适应特定行业。可以选择使用监督学习或者无监督学习,例如使用对话语料库进行问答小助手的训练。

知识库构建:将训练好的模型与知识库进行集成,使其能够根据用户输入进行推理和回答。可以结合自然语言处理技术,例如情感分析、命名实体识别等,以提升知识库的性能。

部署和优化:将构建好的知识库系统部署到服务器上,并进行性能测试和优化。可以使用负载均衡等技术来提高系统的并发性能,同时根据实际情况对模型进行持续优化。

总体来说,低成本快速构建私人特殊行业的知识库系统需要充分利用预训练模型的优势,并结合实际情况进行微调和优化。同时需要充分考虑系统的性能和用户体验,以满足实际需求。
人若无名,专心练剑!
回复

使用道具 举报

代码业余者Lv.7 显示全部楼层 发表于 2023-9-11 17:07:59
推荐一种低成本方法,  使用LangChain + LLM + embedding 这一套,具体实现原理流程如下图所示,过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt 中 -> 提交给 LLM 生成回答。






从上面就能看出,其核心技术就是向量 embedding,将用户知识库内容经过 embedding 存入向量知识库,然后用户每一次提问也会经过 embedding,利用向量相关性算法(例如余弦算法)找到最匹配的几个知识库片段,将这些知识库片段作为上下文,与用户问题一起作为 promt 提交给 LLM 回答,很好理解吧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
因为相信,所以看见!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

AIHIA梦工厂旨在建立涵盖广泛人工智能行业,包括AI芯片、AI工业应用、AI电商、AI自动驾驶、AI智慧城市、智慧农业等人工智能应用领域。梦工厂为每位AI人提供技术交流、需求对接、行业资源、招聘求职、人脉拓展等多个方面交流学习平台促进人工智能的发展和应用。
  • 官方手机版

  • 联盟公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2023, AIHIA梦工厂
  • 苏ICP备2023025400号-1 | 苏公网安备32021402002407 | 电信增值许可证:苏B2-20231396 | 无锡腾云驾数技术服务有限公司 QQ