信息技术与伦理/生成式人工智能伦理
“生成式人工智能”一词指的是一种人工智能,它可以生成以前不存在的新数据或内容,例如写作、图片、音乐和电影。它使用机器学习技术,通常是深度神经网络,来发现它所训练数据的模式和结构,然后使用这些知识来创建新内容。据报道,生成式人工智能领域的研发正在快速发展,该领域在艺术、音乐、游戏和设计等领域都有应用。
最初,人工智能研究主要集中在基于规则的系统上,这些系统可以根据一组指定的标准做出决策。这些系统基本上是静态的,并且只能部分地学习新信息并适应新信息。
随着 20 世纪 80 年代和 90 年代神经网络的出现,人工智能取得了长足的进步。神经网络旨在模仿人脑的组织结构,由相互连接的节点组成,这些节点可以并行处理输入。这为生成式人工智能提供了更多可能性,并使决策过程更加动态和复杂。
在 20 世纪 90 年代后期和 21 世纪初,出现了一波新的 AI 研究浪潮,重点是贝叶斯推理和概率建模。这种方法允许开发更复杂的生成模型,这些模型可以通过使用部分或错误数据来解释不确定性。
近年来,深度学习技术的引入引发了生成式人工智能领域的革命。深度学习模型能够从大量数据中学习,并且能够创建新的结果,这些结果与人类做出的决策完全相同。这为艺术创作开辟了新的可能性,包括创作音乐、艺术品,甚至完整的书籍。
机器学习算法被应用于一个迷人的领域,称为“生成式人工智能”,它能够生成原创内容,包括文本、图像和视频。与传统的机器学习专注于分类和预测任务不同,生成式人工智能专注于创造性任务。生成式人工智能是一个令人着迷的研究领域,具有巨大的潜力,可以应用于各种领域,包括艺术和娱乐、药物开发以及科学研究。随着我们继续开发更复杂和更先进的生成式人工智能模型和方法,我们可以期待在未来几年看到更加显著和革命性的应用出现。[1]
从根本上说,生成式人工智能涉及使用海量数据集训练模型,以生成新颖、逼真的内容,这些内容与源数据非常相似。两种最常见的生成式人工智能类型是变分自动编码器 (VAE) 和生成对抗网络 (GAN)。
GAN 由生成器和鉴别器组成,这两个神经网络协同工作以生成新内容。生成器基于随机输入生成新数据,而鉴别器则评估样本的真实性。这两个网络通过一种称为对抗训练的方法同时进行训练,其中生成器试图欺骗鉴别器,而鉴别器则旨在正确地分类真实数据和生成数据。最终,生成器获得了生成真实且类似于输入数据的输出的能力。
另一方面,VAE 是一种能够对数据进行编码和解码的神经网络。它们学习将传入数据减少到一个潜在空间,即一个低维表示,并使用这种表示来生成新的数据样本。VAE 被训练用来优化一个损失函数,该函数衡量输出数据与输入数据的匹配程度。另一方面,VAE 是一种能够对数据进行编码和解码的神经网络。它们学习将传入数据减少到一个潜在空间,即一个低维表示,并使用这种表示来生成新的数据样本。VAE 被训练用来优化一个损失函数,该函数衡量输出数据与输入数据的匹配程度。
GAN 和 VAE 分别可以用来创建图像、视频和文本。它们需要大量高质量数据才能有效地运行,并且训练过程可能很耗时且计算量大。[2]
生成式人工智能通常使用一组数据进行训练。根据这种训练,生成式人工智能会调整许多参数,直到它们产生与训练数据类似的输出。为了使生成的输出更接近训练数据中可能出现的内容,模型必须学习数据中的模式,因为它拥有的参数少于训练数据。生成式人工智能被划分为几个不同的节点层,每个节点的值都依赖于其他节点。节点的值通过使用连接的数值权重在层之间发生变化。这些层可以分为三类:输入层、输出层和任何数量的中间层,统称为“隐藏层”。[3]
例如,为了训练 GAN,随机种子被馈送到生成器的输入层,然后生成器在层之间传递值以生成输出。一组这些输出以及一组训练数据被传递到鉴别器网络,然后鉴别器网络试图对输入是来自训练数据还是来自生成的输出进行分类。根据鉴别器的结果,网络中的权重会进行调整,以便生成网络的未来输出更难以让鉴别器区分与训练数据。
为了生成内容,生成式人工智能(Generative AI)会从一组小的随机数据开始,并将这组数据输入到输入层。输入层的值会通过不同的层进行传递,并受到节点间权重的影响,这与训练过程类似。在输出层,结果会显示给用户。[需要引用]
由于节点之间的权重是由训练数据决定的,因此生成式人工智能处理数据的确切方式可能会根据数据集的大小、数据集中数据的种类以及训练过程而有所不同。这也意味着生成式人工智能可能难以生成其训练数据中代表性不足或完全缺失的输出。
与其他类型的人工智能一样,生成式人工智能能够产生有偏见的结果。这源于许多问题。机构、文化、历史和/或社会中存在的系统性偏见会影响训练数据。这些偏见随后会反映在模型中的统计和计算偏见中。固有的个人偏见也存在,这些偏见会影响训练数据、模型的设计以及其输出的使用。
可以在生成式人工智能输出结果的整个生命周期中减少或消除这些偏见。在初始阶段,设计人员需要避免使用有偏见的训练数据。训练数据中的偏见可能包括以下问题:由于数据采集方式导致的训练数据不具有代表性(例如,从网站上抓取的数据不具有所有人类或甚至其他互联网用户的代表性);系统性和历史性偏见,例如种族与邮政编码之间的相关性;以及其他偏见。此外,设计团队应该拥有各种不同类型的成员,以减少决策过程中的偏见。在设计阶段,应该进行分析,以识别偏见来源以及缓解偏见的计划。这些计划应该不断进行评估,以确保缓解策略有效。在部署后,应该不断监控模型,以确保偏见最小化。如有必要,应该对模型进行重新训练或退役。[4]
生成式人工智能的主要影响之一是版权模糊。这意味着新的创意内容的权利归属尚不清楚。生成式人工智能模型通常使用来自各种网站、社交媒体、维基百科以及 Reddit 等大型讨论中心的各种内容的大型数据集进行训练。由于其中包含受版权保护的材料,因此它可用于表达用户提出的各种摘要式回复。这可能会导致内容所有者侵犯版权。
关于这种情况一直存在着许多争论。受版权保护的内容(文本和图片)被用于训练数据集中,这为生成式人工智能提供了显著高模量的语言。这里的问题是:是否应该允许此类受版权保护的材料用于训练生成式人工智能的数据集?答案仍然不确定,但从原始内容所有者的角度来看,这是违反了版权法。[5]
随着生成式人工智能的快速发展,它很有可能在某些阶段导致失业。当人工智能自动化某些任务或活动时,可能会出现这种情况,从而取代人工。例如,在任何 B2B 机构中,营销团队负责创建需要发送给客户的电子邮件营销活动。工作包括制作电子邮件模板、起草营销活动电子邮件以及获取这些电子邮件营销活动的打开率和点击率报告。因此,如果人工智能能够创建电子邮件营销活动的内容,那么负责创建这些电子邮件营销活动的人员将被取代。
另一个例子是,如果人工智能自动化了客户服务任务,那么通常在呼叫中心提供面对面客户服务的员工将被取代。一些人工智能模式能够生成代码。因此,它也会危及开发人员的角色,因为人工智能通常能够以有效的方式编写代码,这意味着需要更少的时间并且可以最大限度地减少错误。[6]
生成式人工智能通常会对某些问题给出不确定的回答,例如可能、不确定等等。由于生成式人工智能使用机器学习模块,因此它不能保证 100% 的准确性。在某些情况下,这种人工智能对某些问题的答案高度不正确。不仅如此,在某些情况下,它在解决某些数学逻辑方面也惨败。除此之外,在象棋等热门游戏中,尽管计算机已知比人类更擅长下棋,但人工智能也确实会做出毫无意义的不规则移动。这最终会导致通过此类聊天机器人传播虚假信息的风险增加。[7]
生成式人工智能可以被滥用,通过创建模仿人类声音的声音来诱使人们落入其陷阱。他们可以使用此功能发送网络钓鱼电子邮件或诈骗电话。例如,攻击者可以使用此工具声称他来自该组织的 IT 部门,并最终说服用户分享其登录 ID 和密码,从而获得对其系统的访问权限。因此,生成式人工智能会导致社会工程学攻击。[8]
随着生成式人工智能不断改进,人们对可能出现的未来社会影响表示担忧。
随着各种人工智能技术的不断改进和发展,软件工程师的就业市场出现了一个全新的市场。被称为“机器人软件工程环境”的环境致力于通过整合人工智能技术和人类创造力和工作来最大限度地提高效率。随着机器人软件工程环境变得越来越普遍,将需要由软件工程师团队来负责开发和维护这种新的人工智能软件。此外,在将人工智能部署到公共使用后,仍然需要由人类软件工程师来监督、维护和更新它。
在人工智能和其他机器学习系统的设计和开发方面,[9] 软件工程师可以涉足许多研究/工作领域。在这个人工智能软件设计领域,工程师应该监控人工智能软件的任何潜在性能下降,探索新的和更有效的架构风格和模式,以及探索更好地分析和处理超大型数据集的方法。一个软件工程师编码团队还需要对他们选择的人工智能的工作原理非常熟悉;这包括了解它使用的算法、它拥有的 NLP 工具以及它如何帮助自动化他们的日常工作。为了将人类创新领域最好地融入人工智能软件的效率和精度,软件工程师必须为人类和机器之间有益的协作创新新的方法。这些方法需要改进通信技术,以确保无缝协作,共同实现最终目标。[10]
学校
[edit | edit source]教师和学生将开始将生成式人工智能,如 ChatGPT,应用到他们的教育环境中。现在已经有一些例子表明教师利用人工智能生成教学计划、考试、论文题目等。随着时间的推移,这项技术只会不断改进,教师将能够自动化他们的许多任务。 “ChatGPT 成功通过了研究生级别的商业和法律考试,甚至通过了部分医学执照评估(Hammer,2023 年),这导致了一些建议,建议教育工作者取消这些类型的评估,而采用需要更多批判性思维的评估。”[11] 在另一方面,学生已经开始利用生成式人工智能来减少他们实际需要做的繁琐工作。 ChatGPT 等模型已成为生成提纲、论文和代码的关键工具,然后可以修改以供学生提交。重要的是要记住,并非所有这些模型生成的內容都 100% 正确;因此,学生应该注意不要依赖这些模型;相反,他们应该将生成式人工智能用作教育工具,而不是作弊工具。 技术也一直在出现,帮助检测人工智能提交的内容,以防止学生利用生成式人工智能;例如,GPTZero 专为检测 ChatGPT 生成的內容而设计。
截至目前,大多数学术机构已经禁止使用生成式人工智能,例如 ChatGPT;然而,这只是一个暂时的解决方案。随着这项技术不断改进并变得更容易获得,禁止使用将会变得几乎不可能。学术机构应该开始专注于教授新一代如何将生成式人工智能等工具与他们自己的知识和创造力结合使用。正如互联网改变了学生和教师之间互动的方式一样,生成式人工智能和其他人工智能技术将在未来产生重大影响。
药物开发
[edit | edit source]生成式人工智能系统可以根据氨基酸序列或分子表示系统进行训练,例如 AlphaFold,用于蛋白质结构预测和药物发现。这些模型已成为改变小分子和大分子设计、优化和合成的潜力巨大的工具。在更大范围内,有可能加速开发过程。[12]
该过程的阶段如下
- 阶段 1:存在人工智能辅助目标选择和验证。
- 阶段 2:分子设计和化学合成
- 阶段 3:生物学评估、临床开发和上市后监测
- 阶段 4:人工智能和深度生成模型识别出几个成功的临床前和临床分子[13]
VAE 和 GAN 的作用
[edit | edit source]VAE 的作用是通过最大化似然函数的下界来优化数据的对数似然。另一方面,GAN 学习测量所谓的“有效”分子和“合成”分子之间的差异。但是,这些方法大多需要大量数据。目前,高质量数据的缺乏,以及向其中添加数据的有效数据共享过程,使得数据和谐在药物发现过程中起着至关重要的作用。
当前的人工智能技术由于可解释性不足或有限、可访问性不足以及缺乏高质量数据,限制了药物开发的应用并影响了其性能。
法律职业
[edit | edit source]ChatGPT 以及其他服务,有可能对整个法律职业产生重大影响,而不仅仅是对学生产生影响。ChatGPT 本身表示,虽然难以预测,但有理由相信,生成式人工智能系统对法律服务的改造将很快发生,最早可能在 5 到 10 年内。[14] 就学生而言,ChatGPT 表示,他们应该意识到,这些系统有可能取代人类执行这些工作。重点应该放在了解这些系统的工作原理以及如何使用它们。[15]
ChatGPT 在法律职业中能够做很多事情。例如,在起草方面,它证明了它能够起草高级法律文件,包括不带偏见的索赔函和诉状。这些草案展示了 ChatGPT 根据简单的输入事实来详细阐述和改进内容的能力。除了其他事情之外,ChatGPT 能够识别法律策略、生成支持案件的骨架论点、预测潜在的辩护等等。
尽管具有这些能力,但 ChatGPT 缺乏像合格律师一样进行法律研究和分析的能力。预计像 WestLaw 和 Lexis 这样的法律数据库将采用生成式人工智能。但是,应该注意的是,ChatGPT 目前缺乏像合格律师一样进行法律研究和分析的能力。[16]
参考文献
[edit | edit source]- ↑ "什么是生成式人工智能?你需要了解的一切". 企业人工智能. 检索于 2023-04-25.
- ↑ "生成式人工智能:你需要了解的一切 | Murf AI". murf.ai. 检索于 2023-04-25.
- ↑ "什么是神经网络?| IBM". www.ibm.com. 检索于 2023-04-25.
- ↑ Schwartz, Reva; Vassilev, Apostol; Greene, Kristen; Perine, Lori; Burt, Andrew; Hall, Patrick (2022-03-15). "迈向人工智能偏见识别和管理标准" (PDF). 盖瑟斯堡,马里兰州. doi:10.6028/nist.sp.1270.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "生成式 AI 的法律和伦理影响". CMSWire.com. Retrieved 2023-04-25.
- ↑ "生成式 AI 伦理:六大主要问题". research.aimultiple.com. Retrieved 2023-04-25.
- ↑ Kruger, Michelle Lee, Lukas. "生成式 AI 的风险和伦理考量". Passle. Retrieved 2023-04-25.
- ↑ "生成式 AI 伦理:六大主要问题". research.aimultiple.com. Retrieved 2023-04-25.
- ↑ Giray, Görkem (2021-10). "从软件工程角度看机器学习系统工程:现状和挑战". Journal of Systems and Software. 180: 111031. doi:10.1016/j.jss.2021.111031.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ HEIL, JOE W. (2010-12). "应对软件增长和快速发展软件技术的挑战". Naval Engineers Journal. 122 (4): 45–58. doi:10.1111/j.1559-3584.2010.00279.x. ISSN 0028-1425.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Lim, Weng Marc; Gunasekara, Asanka; Pallant, Jessica Leigh; Pallant, Jason Ian; Pechenkina, Ekaterina (2023-07-01). "生成式 AI 和教育的未来:诸神黄昏还是改革?来自管理教育者的悖论视角". The International Journal of Management Education. 21 (2): 100790. doi:10.1016/j.ijme.2023.100790. ISSN 1472-8117.
- ↑ "药物发现", Wikipedia, 2023-04-17, retrieved 2023-04-25
- ↑ Zeng, Xiangxiang; Wang, Fei; Luo, Yuan; Kang, Seung-gu; Tang, Jian; Lightstone, Felice C.; Fang, Evandro F.; Cornell, Wendy; Nussinov, Ruth; Cheng, Feixiong (2022-12). "深度生成式分子设计重塑药物发现". Cell Reports Medicine. 3 (12): 100794. doi:10.1016/j.xcrm.2022.100794. PMC 9797947. PMID 36306797.
{{cite journal}}
: Check date values in:|date=
(help)CS1 maint: PMC format (link) - ↑ Macey-Dare, Rupert (2023). "ChatGPT 和生成式 AI 系统如何彻底改变法律服务和法律职业". SSRN Electronic Journal. doi:10.2139/ssrn.4366749. ISSN 1556-5068.
- ↑ "ChatGPT", Wikipedia, 2023-04-24, retrieved 2023-04-25
- ↑ Iu, Kwan Yuen; Wong, Vanessa Man-Yi (2023). "OpenAI 的 ChatGPT:诉讼律师的终结?". SSRN Electronic Journal. doi:10.2139/ssrn.4339839. ISSN 1556-5068.