网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月01日
漏签
0
天
人工智能吧
关注:
112,204
贴子:
502,741
看贴
图片
吧主推荐
视频
游戏
9
回复贴,共
1
页
<<返回人工智能吧
>0< 加载中...
全目录文本搜索向量数据库内容重新组织后智能问答实现
只看楼主
收藏
回复
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我在jupyter notebook用chromadb将目录中所有文本转化为了向量数据库,再用它的相似性搜索搜本地内容,例如非公共人物名“苏梦远”,再把找到的多段文本与问题“苏梦远是谁”连接到一块,再输给本地大模型chatglm3,它很完美地重组了搜到的信息与提出的问,回答非常好,而用langchain结合向量数据库的chatglm3的典型模型AI时,问它“苏梦远”是谁,它表示它没有苏梦远的信息,无法正确回答。
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
QA_CHAIN_PROMPT能将向量数据库查到的内容或输入上下文及问题两个变量组合到一起。qa_chain是用了langchain的典型chatglm3大模型,myllm是没用langchain的chatglm3的大模型,两个直接用都得不到chromadb向量数据库实例vectordb的正确值,只有用了数据库自带方法自定义查找,才能找出命名实体苏梦远的内容。
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
苏梦远是个小说中的命名实体,大模型预训练时,不是多类不同文章都可能出现的词,自然没形成质量尚可的嵌入向量,在向量数据库里不会有正确固化的词嵌入,句、文章嵌入的模糊查找就缺矢量定位基本条件,所以就用了where_document加contains去精确查找,再以之作为上下文连接问题,回答就很好了。
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
即是说,给定一堆格式不太一致的信息,只要有大模型能勉强理解的信息,它就能重组良好,哪怕只给出一些断断续续的关键字作提示词也行,所以根据提纲写长文,可以将提纲及前文用大模型压缩下,再加上细节通过交互定制,可以用本地大模型完成长篇小说了。
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
除了写长篇小说,利用向量数据库结合大模型,也可动态给向量数据库用add方法等加入、修改文本类方法库,为大模型添加本地逻辑推理能力、方法论。象我这样的个体能做到让AI很聪明,真不知道国家力量为什么在这上面发展如此缓慢、遮遮掩掩,让经济困难,受美国强力打压。
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
胡梦柯5
9S
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
求两个数哪个大的问题,例如32.11与32.9,我在本地chatglm3试了下,部分对部分错,就在向量数据库中添加了方法库,修改补充了自定义的类rag,然后它就按方法库能正确而详细的求解了。
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示