用于社会变革的聊天机器人/大型语言模型的实用性
为了生成语句的嵌入,可以评估两个语句之间含义的相似性,可以使用几种最先进的开源算法和工具。
**OpenAI 的嵌入模型**[1] OpenAI 提供了专门针对文本相似性和文本搜索等功能进行调整的嵌入模型。这些模型接收文本作为输入并返回一个嵌入向量,该向量可用于各种应用程序,包括评估语句之间的相似性。
**Spark NLP**[2] 该开源库提供了一套基于变压器的模型,包括 BERT 和通用句子编码器,它们能够创建丰富的语义嵌入。该库在 Apache 2.0 许可下完全开源。
要使用 Spark NLP,您需要以下要求
- Java 8 和 11
- Apache Spark 3.5.x、3.4.x、3.3.x、3.2.x、3.1.x、3.0.x
GPU(可选):Spark NLP 5.1.4 使用 ONNX 1.15.1 和 TensorFlow 2.7.1 深度学习引擎构建。以下最小 NVIDIA® 软件仅在需要 GPU 支持的情况下才需要
- NVIDIA® GPU 驱动程序版本 450.80.02 或更高版本
- CUDA® Toolkit 11.2
- cuDNN SDK 8.1.0
- 有一个巨大的文本嵌入基准测试(MTEB [3]),这将有助于我们确定要使用哪种嵌入算法。
MTEB 引导我使用 llmrails 的 ember-v1 模型,因为它在 **SprintDuplicateQuestions** 数据集上取得了成功。目标是嵌入语句,以便社区认为重复的语句或问题最接近。该数据集汇集了来自 *Stack Exchange*、*Sprint 技术论坛网站* 和 *Quora* 的标记重复项。
LLMrails [4] 是一个平台,提供强大的嵌入模型,以增强应用程序对大规模文本意义的理解。这包括语义搜索、分类和重新排序功能等功能。
定价:“使用我们最先进的 ChatGPT 风格聊天机器人提升您的数据游戏!您只需链接您的数据源,然后观看我们的聊天机器人如何将您的数据转化为可操作的见解。”
LLMRails 正在彻底改变搜索技术,为开发人员提供前所未有的访问高级神经技术的权限。提供更精确和相关的结果为搜索技术领域的变革性变化铺平了道路,使其能够为各种开发人员所用。
来自网站:“通过私人邀请,加入 LLMRails 并开始您的 AI 冒险!” 他们是怎么弄错的?
- 嵌入 0.00005 美元/1k 个令牌
- 重新排序 0.001 美元/次搜索
- 搜索 0.0005 美元/次搜索
- 提取 0.3 美元/文档
**注意:** 此服务不提供我需要的功能。它有点 *过于* 管理。我只需要向量嵌入和检索。 |
- **Amazon OpenSearch 服务** 是一种完全托管的服务,简化了在 AWS 云中部署、扩展和操作 OpenSearch 的过程。它支持向量搜索功能和高效的向量查询过滤器,可以提高语义或视觉搜索体验等应用程序的响应速度。
- **Azure 认知搜索**:此服务允许向索引添加向量字段,并支持向量搜索。Azure 提供教程和 API 来将输入转换为向量并执行搜索,以及用于文档搜索等任务的 Azure OpenAI 嵌入。
- Zilliz Cloud 由全球最强大的向量数据库 Milvus 提供支持,解决了处理数十亿个向量的挑战。
- Zilliz 有一个为期 30 天的免费试用期,价值 400 美元的积分。4 个 CUs
- 定价:Zilliz Cloud 使用情况(每个单位为 0.1 美分的用量)0.001 美元/单位
- 更全面的列表,Awesome Vector Search,在 GitHub 上。[5]
- 对于云服务,他们首先列出 Zilliz,然后是 Relevance AI、Pinecone 和 MyScale。
- Graft 不知何故出现了
- 它 *极其* 昂贵,每月 500 美元用于 10,000 个数据点。每月 5,000 美元的无限数据点...
- 也许它比 Zilliz 管理得更多,或者这仅仅是基础设施的成本,无论哪种方式?
- 高价格也可能表明这种技术的价值(他们还为您进行嵌入和文档上传)。
- Milvus 是一个“为可扩展相似性搜索而构建的向量数据库,开源、高度可扩展且速度极快”。似乎很完美。他们有一个托管版本,但我不知道现在是否有必要。[6]
- **Elastic NLP:文本嵌入和向量搜索**:提供有关部署文本嵌入模型的指南,并解释向量嵌入是如何工作的,将数据转换为数值表示[7]。
- **TensorFlow Recommenders 的 ScaNN**[8] TensorFlow 提供了一个名为 ScaNN 的高效向量相似度搜索库。它允许在推理时快速搜索嵌入,并且旨在通过最先进的向量压缩技术实现最佳的速度-精度权衡。
- 其他值得注意的向量数据库和搜索引擎包括 **Chroma、LanceDB、Marqo、Qdrant、Vespa、Vald 和 Weaviate**,以及支持向量搜索功能的数据库,如 **Cassandra、Coveo 和 Elasticsearch OpenSearch**。
Milvus 基准测试
Milvus 已经进行了基准测试,这应该让我们了解总体成本,以及我们在崩溃之前可以扩展多少。
- CPU:英特尔(R) 至强(R) 金牌 6226R CPU @ 2.90GHz。这是一款高端服务器级处理器,适用于要求苛刻的任务。它属于英特尔的至强可扩展处理器,这些处理器通常用于企业级服务器,因为它们具有可靠性和性能。
- 内存:16 *\32 GB RDIMM,3200 MT/s。这意味着服务器有 16 个内存插槽,每个插槽都配有 32 GB RDIMM(注册 DIMM)模块,总共 512 GB 的 RAM。内存速度为 3200 MT/s(每秒兆传输),表示内存操作速度。
- SSD:SATA 6 Gbps。这表明服务器使用通过 SATA 接口连接的固态硬盘,传输速率为每秒 6 千兆比特。SSD 比传统硬盘快得多,并且因其速度和可靠性而受到青睐。
为了找到一个近似的 AWS EC2 等效项,我们需要尽可能地匹配这些规格。鉴于 CPU 和内存规格,您可能会考虑提供英特尔至强可扩展处理器(第 2 代或第 3 代)以及配置大量内存功能的 EC2 实例。
一个可能的匹配可能是来自 m5 或 r5 系列的实例,它们专为通用 (m5) 或内存优化 (r5) 工作负载而设计。例如,r5.12xlarge 实例提供 48 个 vCPU 和 384 GiB 的内存,虽然它与您的规格并不完全匹配(因为它内存更小),但它处于相同的性能范围内。
但是,请记住,AWS 提供了各种各样的 EC2 实例,实际选择将取决于您的应用程序所需的 CPU、内存和 I/O 性能的具体平衡。此外,价格可能因区域、预留使用量与按需使用量以及弹性块存储 (EBS) 优化实例或添加额外 SSD 存储等额外选项而有很大差异。
使用 AWS 定价计算器,这相当于每小时 3 美元。
- 搜索 - (带 1 个集群)7k 到 10k QPS @ 128 个维度,(独立带 1 个)4k 到 7.5k QPS
- 可扩展性
- 从 8-16 个 CPU 内核开始,它会翻倍。之后它就不那么快翻倍了
- 从 1 个副本增加到 8 个副本,QPS 从 7k 变化到 31k,并且可用的并发查询数量增加了一倍以上(达到 1200)
一个小时有 3600 秒,所以 $PQ = $3 / (7k * 3600) = 每查询 $0.000000119...
一篇有用的文章,比较了开源 LLM 模型,发表于 这里,在 Medium 上.
模型 | 每 100 万个输入标记的成本 | 每 100 万个输出标记的成本 | 其他说明 |
---|---|---|---|
AI21Labs Jurassic-2 Ultra | $150 | $150 | 最高质量 |
AI21Labs Jurassic-2 Mid | $10 | $10 | 质量、速度和成本的最佳平衡 |
AI21Labs Jurassic-2 Light | $3 | $3 | 最快且最具成本效益 |
AI21Labs Jurassic-2 Chat | $15 | $15 | 复杂的多轮交互 免费使用 1000 美元。 |
Anthropic Claude Instant | $1.63 | $5.51 | 低延迟,高吞吐量 |
Anthropic Claude 2.0、2.1 | $8 | $24 | 最适合需要复杂推理的任务 |
Cohere Command | $1.00 | $2.00 | 标准产品 |
Cohere Command Light | $0.30 | $0.60 | 轻量级版本 |
Google Bard | 免费(虽然可能有限制) | 需要 Google 帐户 | |
GPT-4 Turbo (gpt-4-1106-preview) | $10 | $30 | |
GPT-4 Turbo (gpt-4-1106-vision-preview) | $10 | $30 | |
GPT-4 | $30 | $60 | |
GPT-4-32k | $60 | $120 | |
GPT-3.5 Turbo (gpt-3.5-turbo-1106) | $1.00 | $2.00 | |
GPT-3.5 Turbo (gpt-3.5-turbo-instruct) | $1.50 | $2.00 |
从模型卡中: “Llama 2 是一种使用优化 Transformer 架构的自回归语言模型。Llama 2 旨在用于英语的商业和研究用途。它有多种参数大小——70 亿、130 亿和 700 亿——以及预训练和微调变体。”
事实证明,您必须礼貌地向微软请求访问参数集,并同意使用条款。
- 从 一些研究 可以清楚地看出,本地运行和训练(我有一台 2021 年的 Mac M1)会带来很多麻烦。
- AWS Sagemaker 似乎是使用开源模型启动和运行的绝佳选择。
- 通过他们的 Jumpstart 功能,可以访问数十种不同大小的模型。
- 实际上,您说“开始”,就会立即进入一个 JupyterLab 实例。
Llama 的硬件要求(2023 年 11 月)
模型 | 实例类型 | 量化 | 每个副本的 GPU 数量 | 成本 |
---|---|---|---|---|
Llama 7B | (ml.)g5.2xlarge | - | 1 | $1.52 (ml.) |
Llama 13B | (ml.)g5.12xlarge | - | 4 | $7.09 (ml.) |
Llama 70B | (ml.)g5.48xlarge | bitsandbytes | 8 | $20.36 (ml.) |
Llama 70B | (ml.)p4d.24xlarge | - | 8 | $37.69 (ml.) |
AWS SageMaker 和 Llama 的基准测试
幸运的是,Phil Schmid 已经进行了 对 SageMaker 上不同 Llama 部署的彻底基准测试。他 2023 年的博客文章特别适合作为使用这些 LLM 入门的绝佳参考。
为了举例说明最经济的例子,g5.2xlarge($1.52/小时)可以处理 5 个并发请求,每秒提供 120 个输出标记。太棒了!那就是每 100 万个标记 3.50 美元。相比之下,ChatGPT 提供 gpt-3.5-turbo(最便宜的选择),价格为每 1k 个标记 0.0020 美元,或每 100 万个标记 2.00 美元。相当可比,OpenAI 更便宜也不足为奇。
让我们比较一下最昂贵的模型和最先进的 OpenAI 模型 GPT-4。Llama 70B 运行在一台价值 37.69 美元的服务器(ml.p4d.24xlarge)上,为 20 个并发请求提供服务,速度为每秒 321 个标记。那就是每 100 万个标记 10.43 美元。相比之下,GPT-4 的价格为每 1k 个标记 0.06 美元,或每 100 万个标记 60 美元。
还应该注意到,Phil Schmid 能够 为 AWS 的新 inferentia2 硬件(inf2.xlarge)中的预算部署获得不错的性能(每生成一千个标记 15 秒),该硬件每小时仅需 0.75 美元。那就是每月 550 美元,所以最好不要一直开着,但仍然很酷!
他 训练 了一个 70 亿参数的 Mistral 模型,使用 ml.g5.4xlarge($2.03/小时)。它能够根据 15,001 个示例进行微调,在整个过程中处理了 3 次(轮次),总共花费了 3.9 小时,总成本不到 8 美元。
为了实现最广泛的覆盖面,我们希望将我们的聊天机器人与低成本的通信媒介集成,例如短信、电话、WhatsApp、Facebook Messenger、微信,或者可能是基于 nostr 构建的去中心化消息传递平台。每个选项都有不同的优势、局限性和货币成本。本节概述了可用的连接方式,以及让您入门的定价和基本原理。
Facebook(现在在母公司 Meta 旗下)计划将其消息传递服务整合到 WhatsApp、Instagram 和 Facebook Messenger 中。马克·扎克伯格正在领导一项计划,将这些应用程序的底层技术基础设施合并在一起,同时保持它们作为独立的应用程序[9]。这将允许跨平台的消息传递,所有消息传递应用程序都将采用端到端加密[10]。该整合引发了人们对反垄断问题、隐私以及 Facebook 进一步巩固其对各个平台的控制权的担忧[11]。
像 Tidio、Aivo's AgentBot、Respond.io、BotsCrew、Gupshup、Landbot 和 Sinch Engage 这样的第三方平台允许企业创建可以与 WhatsApp、Facebook Messenger、Instagram 和其他渠道集成的聊天机器人。
以下表格总结了各种第三方平台支持的消息传递集成,以及它们的近似定价和相关说明
平台 | 消息传递集成 | 近似定价 | 说明 |
---|---|---|---|
Landbot | WhatsApp、Facebook Messenger | 入门版:€49/月,专业版:€99/月,企业版:自定义 | 提供 AI 聊天机器人构建器、选择加入工具、工作流、调查等。需要至少一个专业版帐户才能与 Webhook 集成。 |
BotSpace | 入门版:₹3,499/月,专业版:₹7,499/月,高级版:₹23,499/月 | 支持团队收件箱、角色和权限、自定义工作流。 | |
Callbell | 每 10 个座席 €50/月,+ 每 WhatsApp 号码 €20/月 | 提供 €59/月的 advanced bot builder 模块。 | |
DelightChat | WhatsApp(其他未指定) | 未提供定价 | 为不同阶段的企业提供计划。 |
Brevo | 按需付费,无定期费用 | 仅需为发送的 WhatsApp 消息付费。 | |
AiSensy | 基础版:₹899/月($10.77),专业版:₹2399/月($28.73) | 免费服务每月对话数量有限制。 | |
Flowable Engage | WhatsApp、Facebook Messenger、微信、LINE | 未提供定价 | 支持语音/视频通话、模板、某些平台上的富媒体。帐户要求各不相同。 |
所有列出的平台都支持 WhatsApp 集成,因为它是一个企业常用的消息传递渠道。像 Landbot 和 Flowable Engage 这样的平台也支持 Facebook Messenger 集成。像 Flowable Engage 这样的平台还提供与微信和 LINE 等其他消息传递应用程序的集成。定价模式各不相同,有些提供订阅计划(每月/每年),而另一些则采用按消息付费或按座席付费的模式。某些平台将 AI 聊天机器人、自定义工作流、调查等附加功能与消息传递集成捆绑在一起。
搜索结果表明,Meta(Facebook)正在努力实现其自身消息传递应用程序(WhatsApp、Messenger、Instagram)之间的互操作性,以及与经批准的第三方消息传递服务的互操作性,这是欧盟数字市场法案[12][13] 规定的。但是,这种互操作性的程度及其对现有第三方集成的影响目前尚不清楚。
- ↑ "Introducing text and code embeddings". OpenAI. Retrieved 2023-11-07.
- ↑ "GPU vs CPU benchmark". Spark NLP. Retrieved 2023-11-07.
- ↑ MTEB
- ↑ llmrails
- ↑ Awesome Vector Search
- ↑ Milvus 主页
- ↑ Elastic
- ↑ "Efficient serving". TensorFlow Recommenders. Retrieved 2023-11-07.
- ↑ https://www.nytimes.com/2019/01/25/technology/facebook-instagram-whatsapp-messenger.html 纽约时报
- ↑ https://www.theverge.com/2019/1/25/18197628/facebook-messenger-whatsapp-instagram-integration-encryption The Verge
- ↑ https://www.wired.com/story/facebook-plans-unite-messaging-apps/ Wired
- ↑ https://www.theverge.com/2023/3/24/23655688/eu-digital-markets-act-messaging-interoperability-meta-whatsapp-imessage The Verge
- ↑ https://www.reuters.com/technology/eu-rules-force-meta-open-up-messaging-apps-2023-03-24/ 路透社