ChatGPT

如何使用自定义知识库构建自己的自定义ChatGPT

ChatGPT 已成为大多数人每天用来自动化各种任务的不可或缺的工具。如果您使用过 ChatGPT,您会意识到它有可能提供错误的答案,并且在某些比较专业的主题上除了上下文中你告诉它的信息外它一无所知。这就提出了一个问题,即我们如何利用自定义的数据源来调教 ChatGPT,来让 ChatGPT 在特定领域有更好的表现?

丰富的知识分布在我们每天与之互动的各种平台上,例如工作中的 confluence wiki 页面、Slack 组、公司知识库、Reddit、Stack Overflow、书籍、时事通讯和同事共享的谷歌文档。阅读完所有这些信息源本身就堪称是一项全职工作了。

如果您可以有选择地选择数据源并将该信息轻松地与您的数据一起输入到 ChatGPT 对话中,那不是很好吗?

1. 通过Prompt提供数据

在我们开始讨论如何扩展 ChatGPT 之前,让我们看看如何手动扩展 ChatGPT 以及问题是什么。扩展 ChatGPT 的传统方法是通过Prompt。

这很简单,因为 ChatGPT 是上下文感知的。首先,我们需要通过在实际问题之前附加原始文档内容来与 ChatGPT 进行交互。

I will ask you questions based on the following content:- Start of Content-Your very long text to give ChatGPT context- End of Content-

这种方法的问题在于模型的上下文有限;它只能接受大约 4,097 个 GPT-3 Token。使用这种方法,您很快就会遇到困难,因为它也是一个手动,乏味的过程,每次都要粘贴内容。

想象一下,有数百个PDF文档想要注入到 ChatGPT 中,您很快就会遇到付费的问题。您可能会认为 GPT-4 替代 GPT-3 之后,情况会有所改善。它于 2023.3.14 刚刚推出,可以处理 25000 个单词——大约是 GPT-3 的八倍。它还可以处理图像,以及处理比 GPT-3.5 更细微的指令。这仍然存在相同的基本问题,即数据输入限制。我们如何绕过其中一些限制?我们可以利用一个名为LlamaIndex的Python库。

2. 使用 LlamaIndex 扩展 ChatGPT(GPT 索引)

如何使用自定义知识库构建自己的自定义ChatGPT

LlamaIndex,也称为GPT索引,是一个提供中央接口的项目,用于将您的LLM与外部数据连接起来。是的,你没看错。使用LlamaIndex,我们可以构建如下图所示的东西:

输入 ChatGPT 的自定义数据源

LlamaIndex 将您现有的数据源和类型与可用的数据连接器连接起来,例如(API、PDF、文档、SQL 等)它使您能够通过提供结构化和非结构化数据的索引来使用 LLM。这些索引通过消除典型的样板和痛点来促进上下文学习:以可访问的方式保留上下文以便快速插入。

这样,LlamaIndex就解决了提示词的长度限制。并通过为用户提供一种与索引交互的方式来解决文本拆分问题。LlamaInde还抽象了从文档中提取相关部分并将其提供给Prompt的过程。

3、具体操作步骤及代码

具体操作步骤及代码,放在了“AI聊天机器人俱乐部”中的“聊天机器人接口开发”一章,欢迎小伙伴们参与AI聊天机器人俱乐部,并查看详情:《AI聊天机器人俱乐部开业,来一起探索与AI协作的新时代吧!》

相关推荐

chatgpt基础版和plus版区别?  (2023-7-14 17:24:18)

突然爆火的ChatGPT到底是啥?  (2023-7-13 17:3:59)

chatGPT:未来搜索引擎的全面颠覆者  (2023-7-12 10:16:10)

通过chatGPT复制粘贴,三个月收获:10万详细实操教学。  (2023-7-11 14:14:32)

如何用chatgpt快速上热门?  (2023-7-10 10:53:28)

chatgpt和midjourney区别?  (2023-7-9 9:21:30)

手机上怎么使用chatgpt写论文?  (2023-7-7 18:52:26)

​教你用ChatGPT赚钱的人,赚的就是你的钱  (2023-7-6 11:48:26)

ChatGPT与通用人工智能:区别与联系  (2023-7-5 12:48:16)

ChatGPT:新一代知识处理工具解决了什么本质问题?  (2023-7-4 15:22:24)

发表评论:

验证码

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。