用于社会变革的聊天机器人/大型语言模型的实用性

语句嵌入模型

为了生成语句的嵌入，可以评估两个语句之间含义的相似性，可以使用几种最先进的开源算法和工具。

**OpenAI 的嵌入模型**^[1] OpenAI 提供了专门针对文本相似性和文本搜索等功能进行调整的嵌入模型。这些模型接收文本作为输入并返回一个嵌入向量，该向量可用于各种应用程序，包括评估语句之间的相似性。

**Spark NLP**^[2] 该开源库提供了一套基于变压器的模型，包括 BERT 和通用句子编码器，它们能够创建丰富的语义嵌入。该库在 Apache 2.0 许可下完全开源。

要使用 Spark NLP，您需要以下要求

Java 8 和 11
Apache Spark 3.5.x、3.4.x、3.3.x、3.2.x、3.1.x、3.0.x

GPU（可选）：Spark NLP 5.1.4 使用 ONNX 1.15.1 和 TensorFlow 2.7.1 深度学习引擎构建。以下最小 NVIDIA® 软件仅在需要 GPU 支持的情况下才需要

NVIDIA® GPU 驱动程序版本 450.80.02 或更高版本
CUDA® Toolkit 11.2
cuDNN SDK 8.1.0

有一个巨大的文本嵌入基准测试（MTEB ^[3]），这将有助于我们确定要使用哪种嵌入算法。

向量相似度搜索

LLMRails

MTEB 引导我使用 llmrails 的 ember-v1 模型，因为它在 **SprintDuplicateQuestions** 数据集上取得了成功。目标是嵌入语句，以便社区认为重复的语句或问题最接近。该数据集汇集了来自 *Stack Exchange*、*Sprint 技术论坛网站* 和 *Quora* 的标记重复项。

LLMrails ^[4] 是一个平台，提供强大的嵌入模型，以增强应用程序对大规模文本意义的理解。这包括语义搜索、分类和重新排序功能等功能。

定价：“使用我们最先进的 ChatGPT 风格聊天机器人提升您的数据游戏！您只需链接您的数据源，然后观看我们的聊天机器人如何将您的数据转化为可操作的见解。”

LLMRails 正在彻底改变搜索技术，为开发人员提供前所未有的访问高级神经技术的权限。提供更精确和相关的结果为搜索技术领域的变革性变化铺平了道路，使其能够为各种开发人员所用。

来自网站：“通过私人邀请，加入 LLMRails 并开始您的 AI 冒险！” 他们是怎么弄错的？

嵌入 0.00005 美元/1k 个令牌
重新排序 0.001 美元/次搜索
搜索 0.0005 美元/次搜索
提取 0.3 美元/文档

注意：此服务不提供我需要的功能。它有点过于管理。我只需要向量嵌入和检索。

其他向量数据库即服务

**Amazon OpenSearch 服务** 是一种完全托管的服务，简化了在 AWS 云中部署、扩展和操作 OpenSearch 的过程。它支持向量搜索功能和高效的向量查询过滤器，可以提高语义或视觉搜索体验等应用程序的响应速度。
**Azure 认知搜索**：此服务允许向索引添加向量字段，并支持向量搜索。Azure 提供教程和 API 来将输入转换为向量并执行搜索，以及用于文档搜索等任务的 Azure OpenAI 嵌入。

Zilliz Cloud 由全球最强大的向量数据库 Milvus 提供支持，解决了处理数十亿个向量的挑战。
- Zilliz 有一个为期 30 天的免费试用期，价值 400 美元的积分。4 个 CUs
- 定价：Zilliz Cloud 使用情况（每个单位为 0.1 美分的用量）0.001 美元/单位
更全面的列表，Awesome Vector Search，在 GitHub 上。^[5]
- 对于云服务，他们首先列出 Zilliz，然后是 Relevance AI、Pinecone 和 MyScale。
Graft 不知何故出现了
- 它 *极其* 昂贵，每月 500 美元用于 10,000 个数据点。每月 5,000 美元的无限数据点...
- 也许它比 Zilliz 管理得更多，或者这仅仅是基础设施的成本，无论哪种方式？
- 高价格也可能表明这种技术的价值（他们还为您进行嵌入和文档上传）。

开源模型

Milvus 是一个“为可扩展相似性搜索而构建的向量数据库，开源、高度可扩展且速度极快”。似乎很完美。他们有一个托管版本，但我不知道现在是否有必要。^[6]
**Elastic NLP：文本嵌入和向量搜索**：提供有关部署文本嵌入模型的指南，并解释向量嵌入是如何工作的，将数据转换为数值表示^[7]。
**TensorFlow Recommenders 的 ScaNN**^[8] TensorFlow 提供了一个名为 ScaNN 的高效向量相似度搜索库。它允许在推理时快速搜索嵌入，并且旨在通过最先进的向量压缩技术实现最佳的速度-精度权衡。
其他值得注意的向量数据库和搜索引擎包括 **Chroma、LanceDB、Marqo、Qdrant、Vespa、Vald 和 Weaviate**，以及支持向量搜索功能的数据库，如 **Cassandra、Coveo 和 Elasticsearch OpenSearch**。

Milvus 基准测试

Milvus 已经进行了基准测试，这应该让我们了解总体成本，以及我们在崩溃之前可以扩展多少。

CPU：英特尔(R) 至强(R) 金牌 6226R CPU @ 2.90GHz。这是一款高端服务器级处理器，适用于要求苛刻的任务。它属于英特尔的至强可扩展处理器，这些处理器通常用于企业级服务器，因为它们具有可靠性和性能。
内存：16 *\32 GB RDIMM，3200 MT/s。这意味着服务器有 16 个内存插槽，每个插槽都配有 32 GB RDIMM（注册 DIMM）模块，总共 512 GB 的 RAM。内存速度为 3200 MT/s（每秒兆传输），表示内存操作速度。
SSD：SATA 6 Gbps。这表明服务器使用通过 SATA 接口连接的固态硬盘，传输速率为每秒 6 千兆比特。SSD 比传统硬盘快得多，并且因其速度和可靠性而受到青睐。

为了找到一个近似的 AWS EC2 等效项，我们需要尽可能地匹配这些规格。鉴于 CPU 和内存规格，您可能会考虑提供英特尔至强可扩展处理器（第 2 代或第 3 代）以及配置大量内存功能的 EC2 实例。

一个可能的匹配可能是来自 m5 或 r5 系列的实例，它们专为通用 (m5) 或内存优化 (r5) 工作负载而设计。例如，r5.12xlarge 实例提供 48 个 vCPU 和 384 GiB 的内存，虽然它与您的规格并不完全匹配（因为它内存更小），但它处于相同的性能范围内。

但是，请记住，AWS 提供了各种各样的 EC2 实例，实际选择将取决于您的应用程序所需的 CPU、内存和 I/O 性能的具体平衡。此外，价格可能因区域、预留使用量与按需使用量以及弹性块存储 (EBS) 优化实例或添加额外 SSD 存储等额外选项而有很大差异。

使用 AWS 定价计算器，这相当于每小时 3 美元。

搜索 - （带 1 个集群）7k 到 10k QPS @ 128 个维度，（独立带 1 个）4k 到 7.5k QPS
可扩展性
- 从 8-16 个 CPU 内核开始，它会翻倍。之后它就不那么快翻倍了
- 从 1 个副本增加到 8 个副本，QPS 从 7k 变化到 31k，并且可用的并发查询数量增加了一倍以上（达到 1200）

一个小时有 3600 秒，所以 $PQ = $3 / (7k * 3600) = 每查询 $0.000000119...

大型语言模型

一篇有用的文章，比较了开源 LLM 模型，发表于这里，在 Medium 上.

托管环境中的 LLM

模型	每 100 万个输入标记的成本	每 100 万个输出标记的成本	其他说明
AI21Labs Jurassic-2 Ultra	$150	$150	最高质量
AI21Labs Jurassic-2 Mid	$10	$10	质量、速度和成本的最佳平衡
AI21Labs Jurassic-2 Light	$3	$3	最快且最具成本效益
AI21Labs Jurassic-2 Chat	$15	$15	复杂的多轮交互免费使用 1000 美元。
Anthropic Claude Instant	$1.63	$5.51	低延迟，高吞吐量
Anthropic Claude 2.0、2.1	$8	$24	最适合需要复杂推理的任务
Cohere Command	$1.00	$2.00	标准产品
Cohere Command Light	$0.30	$0.60	轻量级版本
Google Bard	免费（虽然可能有限制）		需要 Google 帐户
GPT-4 Turbo (gpt-4-1106-preview)	$10	$30
GPT-4 Turbo (gpt-4-1106-vision-preview)	$10	$30
GPT-4	$30	$60
GPT-4-32k	$60	$120
GPT-3.5 Turbo (gpt-3.5-turbo-1106)	$1.00	$2.00
GPT-3.5 Turbo (gpt-3.5-turbo-instruct)	$1.50	$2.00

您自己的硬件上的 LLM

从模型卡中： “Llama 2 是一种使用优化 Transformer 架构的自回归语言模型。Llama 2 旨在用于英语的商业和研究用途。它有多种参数大小——70 亿、130 亿和 700 亿——以及预训练和微调变体。”

事实证明，您必须礼貌地向微软请求访问参数集，并同意使用条款。

从一些研究可以清楚地看出，本地运行和训练（我有一台 2021 年的 Mac M1）会带来很多麻烦。
AWS Sagemaker 似乎是使用开源模型启动和运行的绝佳选择。
- 通过他们的 Jumpstart 功能，可以访问数十种不同大小的模型。
- 实际上，您说“开始”，就会立即进入一个 JupyterLab 实例。

Llama 的硬件要求（2023 年 11 月）

模型	实例类型	量化	每个副本的 GPU 数量	成本
Llama 7B	(ml.)g5.2xlarge	-	1	$1.52 (ml.)
Llama 13B	(ml.)g5.12xlarge	-	4	$7.09 (ml.)
Llama 70B	(ml.)g5.48xlarge	bitsandbytes	8	$20.36 (ml.)
Llama 70B	(ml.)p4d.24xlarge	-	8	$37.69 (ml.)

AWS SageMaker 和 Llama 的基准测试

幸运的是，Phil Schmid 已经进行了对 SageMaker 上不同 Llama 部署的彻底基准测试。他 2023 年的博客文章特别适合作为使用这些 LLM 入门的绝佳参考。

为了举例说明最经济的例子，g5.2xlarge（$1.52/小时）可以处理 5 个并发请求，每秒提供 120 个输出标记。太棒了！那就是每 100 万个标记 3.50 美元。相比之下，ChatGPT 提供 gpt-3.5-turbo（最便宜的选择），价格为每 1k 个标记 0.0020 美元，或每 100 万个标记 2.00 美元。相当可比，OpenAI 更便宜也不足为奇。

让我们比较一下最昂贵的模型和最先进的 OpenAI 模型 GPT-4。Llama 70B 运行在一台价值 37.69 美元的服务器（ml.p4d.24xlarge）上，为 20 个并发请求提供服务，速度为每秒 321 个标记。那就是每 100 万个标记 10.43 美元。相比之下，GPT-4 的价格为每 1k 个标记 0.06 美元，或每 100 万个标记 60 美元。

还应该注意到，Phil Schmid 能够为 AWS 的新 inferentia2 硬件（inf2.xlarge）中的预算部署获得不错的性能（每生成一千个标记 15 秒），该硬件每小时仅需 0.75 美元。那就是每月 550 美元，所以最好不要一直开着，但仍然很酷！

他训练了一个 70 亿参数的 Mistral 模型，使用 ml.g5.4xlarge（$2.03/小时）。它能够根据 15,001 个示例进行微调，在整个过程中处理了 3 次（轮次），总共花费了 3.9 小时，总成本不到 8 美元。

集成

为了实现最广泛的覆盖面，我们希望将我们的聊天机器人与低成本的通信媒介集成，例如短信、电话、WhatsApp、Facebook Messenger、微信，或者可能是基于 nostr 构建的去中心化消息传递平台。每个选项都有不同的优势、局限性和货币成本。本节概述了可用的连接方式，以及让您入门的定价和基本原理。

Facebook（现在在母公司 Meta 旗下）计划将其消息传递服务整合到 WhatsApp、Instagram 和 Facebook Messenger 中。马克·扎克伯格正在领导一项计划，将这些应用程序的底层技术基础设施合并在一起，同时保持它们作为独立的应用程序^[9]。这将允许跨平台的消息传递，所有消息传递应用程序都将采用端到端加密^[10]。该整合引发了人们对反垄断问题、隐私以及 Facebook 进一步巩固其对各个平台的控制权的担忧^[11]。

像 Tidio、Aivo's AgentBot、Respond.io、BotsCrew、Gupshup、Landbot 和 Sinch Engage 这样的第三方平台允许企业创建可以与 WhatsApp、Facebook Messenger、Instagram 和其他渠道集成的聊天机器人。

以下表格总结了各种第三方平台支持的消息传递集成，以及它们的近似定价和相关说明

平台	消息传递集成	近似定价	说明
Landbot	WhatsApp、Facebook Messenger	入门版：€49/月，专业版：€99/月，企业版：自定义	提供 AI 聊天机器人构建器、选择加入工具、工作流、调查等。需要至少一个专业版帐户才能与 Webhook 集成。
BotSpace	WhatsApp	入门版：₹3,499/月，专业版：₹7,499/月，高级版：₹23,499/月	支持团队收件箱、角色和权限、自定义工作流。
Callbell	WhatsApp	每 10 个座席 €50/月，+ 每 WhatsApp 号码 €20/月	提供 €59/月的 advanced bot builder 模块。
DelightChat	WhatsApp（其他未指定）	未提供定价	为不同阶段的企业提供计划。
Brevo	WhatsApp	按需付费，无定期费用	仅需为发送的 WhatsApp 消息付费。
AiSensy	WhatsApp	基础版：₹899/月（$10.77），专业版：₹2399/月（$28.73）	免费服务每月对话数量有限制。
Flowable Engage	WhatsApp、Facebook Messenger、微信、LINE	未提供定价	支持语音/视频通话、模板、某些平台上的富媒体。帐户要求各不相同。

所有列出的平台都支持 WhatsApp 集成，因为它是一个企业常用的消息传递渠道。像 Landbot 和 Flowable Engage 这样的平台也支持 Facebook Messenger 集成。像 Flowable Engage 这样的平台还提供与微信和 LINE 等其他消息传递应用程序的集成。定价模式各不相同，有些提供订阅计划（每月/每年），而另一些则采用按消息付费或按座席付费的模式。某些平台将 AI 聊天机器人、自定义工作流、调查等附加功能与消息传递集成捆绑在一起。

搜索结果表明，Meta（Facebook）正在努力实现其自身消息传递应用程序（WhatsApp、Messenger、Instagram）之间的互操作性，以及与经批准的第三方消息传递服务的互操作性，这是欧盟数字市场法案^[12]^[13] 规定的。但是，这种互操作性的程度及其对现有第三方集成的影响目前尚不清楚。

↑ "Introducing text and code embeddings". OpenAI. Retrieved 2023-11-07.
↑ "GPU vs CPU benchmark". Spark NLP. Retrieved 2023-11-07.
↑ MTEB
↑ llmrails
↑ Awesome Vector Search
↑ Milvus 主页
↑ Elastic
↑ "Efficient serving". TensorFlow Recommenders. Retrieved 2023-11-07.
↑ https://www.nytimes.com/2019/01/25/technology/facebook-instagram-whatsapp-messenger.html 纽约时报
↑ https://www.theverge.com/2019/1/25/18197628/facebook-messenger-whatsapp-instagram-integration-encryption The Verge
↑ https://www.wired.com/story/facebook-plans-unite-messaging-apps/ Wired
↑ https://www.theverge.com/2023/3/24/23655688/eu-digital-markets-act-messaging-interoperability-meta-whatsapp-imessage The Verge
↑ https://www.reuters.com/technology/eu-rules-force-meta-open-up-messaging-apps-2023-03-24/ 路透社

[OpenAIEmbed-1] "Introducing text and code embeddings". OpenAI. Retrieved 2023-11-07.

[SparkNLP-2] "GPU vs CPU benchmark". Spark NLP. Retrieved 2023-11-07.

[3] MTEB

[4] rails

[github-5] Awesome Vector Search

[milvus-6] Milvus 主页

[7] Elastic

[TensorFlowScaNN-8] "Efficient serving". TensorFlow Recommenders. Retrieved 2023-11-07.

[9] ttps://www.nytimes.com/2019/01/25/technology/facebook-instagram-whatsapp-messenger.html 纽约时报

[10] ttps://www.theverge.com/2019/1/25/18197628/facebook-messenger-whatsapp-instagram-integration-encryption The Verge

[11] ttps://www.wired.com/story/facebook-plans-unite-messaging-apps/ Wired

[12] ttps://www.theverge.com/2023/3/24/23655688/eu-digital-markets-act-messaging-interoperability-meta-whatsapp-imessage The Verge

[13] ttps://www.reuters.com/technology/eu-rules-force-meta-open-up-messaging-apps-2023-03-24/ 路透社

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]