技术干货

构建一个税务上诉RAG系统:Milvus、LlamaIndex和GPT

2024-07-25

By Ash Naik

构建一个税务上诉RAG系统:Milvus、LlamaIndex和GPT

Zilliz、LlamaIndex、微软和西雅图地区的爱好者每月举办黑客马拉松,探索潜在的创业想法。四个陌生人在同一天提出的想法上共同构建一个工作原型的可能性微乎其微。SaveHaven项目就展示了这样一个故事。

想象一下,一个产品经理、几个对LlamaIndex、Zilliz Cloud或检索增强生成(RAG)框架一无所知的全栈开发者,以及一个热情的AI开发者首次会面。在对RAG系统进行了介绍并讨论了3-4个想法后,我们选择了一个在剩下的5小时内看似可行的想法。这就是这样一个团队的故事。

官僚主义挑战 城市、县、州和联邦官僚机构每年征收超过8500亿美元的税收、征费和罚款,而纳税人几乎没有提出挑战。大约有五十万个上诉、信息请求、异议和后续跟进,大多数个人并没有足够的能力来完成,导致大多数人选择支付问题而不是要求公平对待。

我们构建的SaveHaven RAG应用程序改变了这一切,通过帮助消费者提出异议、上诉、处理异议、为自己辩护,并从政府机构标记为“无人认领资金”的过度征收中节省超过120亿美元。通过帮助普通人群节省所得税和财产税,SaveHaven帮助个人维护自己的权利。成功的结果取决于第一次上诉和有效回应后续跟进,这需要一年内进行4到5次迭代。

解决方案:SaveHaven,一个简化税务上诉的RAG应用程序 我们认识到,代表个人提出案件的信息在县、州和联邦记录中是可用的,此外还有由相应机构规定和发布的法规和要求。通过提交针对性的“信息自由法”请求,我们可以收集成功与正确机构沟通、上诉、异议回应和文件的示例。通过利用RAG系统,我们可以模仿成功的请愿书、上诉、抗议和异议处理,以极低的成本推动积极结果。

在黑客马拉松中,我们适应了一个网络爬虫,以获取金县财产税上诉的县级记录、法规和规则。然后,我们将这些数据输入到向量数据库中,使用提供的食谱。然后我们使用Reactjs创建了一个Web前端,并构建了一组API,这些API使用LlamaIndex来协调请求并从向量数据库中获取相关的嵌入;我们使用Milvus作为向量数据库,使用OpenAPI的GPT作为LLM。

我们的解决方案很简单:我们只要求输入县级地块编号或地址,然后我们就查询县级记录中可比较的财产,以编写符合法规和规则的上诉,使用可比较财产列表最小化土地和财产价值。

演示的输出生成了一个文本,将启动上诉过程。在下一次迭代中,我们将纳入异议处理,并成功地将一个案例的财产税减少19.99美元。由于财产税是每年调整的,这预计将是一个持续的活动。在州和联邦所得税案例中也遇到了类似的问题,这是我们的发展路线图。

知识库 我们利用开源爬虫从不同的政府网站获取数据。然后,我们将数据分块,将其转换为向量嵌入,并存储在Milvus向量数据库中。我们构建了这个一次性的知识库。在它的基础上,随着平台的使用,我们不断添加更多和更多的数据,它也在不断改进。

请求协调 我们使用LlamaIndex作为基础协调器,并在其上构建了一些组件。如果我们在Milvus中找不到相关知识,LlamaIndex将抓取相关数据,更新知识库,然后与LLM对话以获得最终响应。

APIs 我们使用FastAPI框架公开了我们的API,并使用Python3构建了所有这些组件,以保持它们的简单和快速实现。

总结 SaveHaven是一个RAG应用程序,可以帮助个人对财产和所得税评估提出异议和上诉。它简化了税务上诉流程,使其对公众更加易于访问和管理。该系统采用了LlamaIndex、Milvus和OpenAI的GPT等技术,自动化从公共记录中收集和分析数据,从而促进有效的税务上诉的准备。

SaveHaven团队希望这篇博客成为一个示例,以便未来的企业家可以从我们的经验中学习并构建有意义的创新。我们理解GenAI将改变我们的生活,LlamaIndex、微软和Zilliz的技术将使从想法到工作解决方案在一天内成为可能,只要有正确的团队。

  • Ash Naik

    Ash Naik

    Freelance Technical Writer

    准备好开始了吗?

    立刻创建 Zilliz Cloud 集群,存储和检索您的向量。

    免费试用 Zilliz Cloud