Lentis/软件新闻学:当程序撰写新闻
软件新闻学是指使用计算机程序来撰写新闻。这些程序接收数据以生成人类可读的新闻故事。本章描述了关于软件新闻学的基本信息,并探讨了软件新闻学软件、新闻生产者和新闻消费者之间的社会互动。
软件新闻学,有时也称为自动化新闻学或机器人新闻学,是指使用计算机程序来自动生成来自结构化数据的文本叙述。它与自动化报道密切相关。
软件新闻学应用程序使用算法,可以快速为给定主题创建大量故事。这些算法最擅长编写关于具有干净、准确和结构化数据的重复性主题的故事。想要削减成本和生产更多新闻的组织使用软件新闻学算法。
软件新闻学算法比人类记者能够做到的更快、更大规模地生成新闻。例如,Ken Schwneke 开发了 Quakebot 来自动化地震报道。该软件使用来自美国地质调查局的数据检测到了一次 4.4 级地震。Quakebot 在最初震动后三分钟内为洛杉矶时报发表了这篇报道,这比所有竞争对手的新闻媒体都要快[1]。洛杉矶时报后来开始了一个博客,为当地居民提供凶杀案报告。该博客的软件比人类记者更快地筛选验尸官办公室的数据,并且比人类记者能够编写的报告更深入[2]。
算法可以使用相同的数据以不同的角度创建许多故事。叙事科学使用软件新闻学算法对前弗吉尼亚大学投手 Will Roberts 对乔治华盛顿大学的完美比赛进行了各种回顾。中立和亲 GW 的故事被制作出来以说明这种效果。这些不同的总结是从比赛的计分板中产生的[3]。
软件新闻学算法并非没有错误和偏差。程序员的假设会导致算法产生不正确的结果。例如,美联社使用 Wordsmith 自动生成了一篇关于Netflix第二季度收益的报道。该报道错误地指出 Netflix 的股价在一年内下跌了 71%,而实际上股价翻了一番。这种错误的发生是因为 Wordsmith 的算法无法检测到 Netflix 财务数据中的 7.1 比一股票分割。由于这个算法错误,Netflix 的股票下跌,美联社后来发布了更正[4]。异常值、有偏差的数据和程序员的偏差会导致不正确的故事,可能需要进行关键的更正[5]。算法在进行分析性见解方面也有局限性;它们无法提出问题或解释现象[6]。
软件新闻学程序使用自然语言生成 (NLG) 来创建内容。NLG 是自然语言处理 (NLP) 的对应物。NLP 将文本转换为结构化数据,而 NLG 从数据生成上下文叙述。NLP 和 NLG 都是人工智能 的领域[7]。
软件新闻学使内容生产者能够通过无缝的数据源集成快速识别对叙述很重要的信息。可以使用任何大小的数据集自动生成故事。生成的叙述与人类记者撰写的叙述几乎无法区分,并且可以个性化。员工生产力也提高了,因为员工不再需要进行手动报告和耗时的数据分析。这使员工能够专注于个人成长和更高级的内容生成。所有这些好处使内容生产组织能够生成更多叙述,同时降低生产成本[8]。
在生成内容之前需要数据。软件可以使用预定义的来源或数据挖掘文本来满足此要求。必须使用干净、准确的数据,否则可能会出现错误。算法对可用数据使用统计方法来识别有趣的事件。用户通常为算法提供识别规则以查找此类事件。这些规则还用于优先考虑事件的见地。使用故事和风格模板从最重要的事件中生成叙述。内容发布者可以在将自动生成的故事发布到公众之前对其进行审核[9]。
软件新闻学除了撰写新闻之外,还有多种用途。这些包括
- 电子商务:公司可以使用制造商数据为客户创建有针对性和引人入胜的产品描述[10]。
- 媒体:美联社使用软件新闻学来生成每个季度 3700 篇收益报道;这比手动报告生成的报道数量多 12 倍[11]。
- 金融服务:银行和投资管理公司依靠自动化内容生成来创建投资组合摘要、收益回顾和市场报告[12]。
- 房地产:房产描述、市场趋势和社区摘要可以从房地产数据中生成[13]。
- 客户互动: 奥兰多魔术队 自动生成内容以吸引转售座位季票持有者[14]。
参与者
[edit | edit source]NLG 公司
[edit | edit source]几家公司的软件生产了当今绝大多数的 NLG 内容。该行业的最大参与者是 自动化洞察 和 Narrative Science。自动化洞察制作 Wordsmith,Narrative Science 开发 Quill。自动化洞察在 2013 年生成了 3 亿篇文章,在 2014 年生成了 10 亿篇文章。这相当于 2013 年主要媒体机构所有内容产量的总和。[15]。自动化洞察在 2015 年发布了 Wordsmith 的公开版本。
生成的内容量
[edit | edit source]美联社通过 Wordsmith 每季度自动生成至少 3000 份收益报告。美联社还使用 Wordsmith 每年回顾超过 9000 场小联盟棒球比赛[16]。自动化洞察估计 Wordsmith 仅在 2015 年就生成了 15 亿篇文章[17],并且 Wordsmith 如果需要可以每秒创建 2000 篇文章[18]。
使用软件新闻的公司
[edit | edit source]各种各样的公司使用 NLG 软件。
- 媒体:美联社、 雅虎 和 连线 等大型新闻来源都使用软件新闻自动生成文章[19]。
- 体育: 梦幻足球、 健美网[20] 和奥兰多魔术队[21] 使用该软件报告球员数据并创建比赛摘要。
- 金融: 万事达卡 和 富兰克林坦伯顿投资 使用这项技术来传达财务数据[22]。
软件新闻用于扩大内容制作规模;使用软件新闻可以更低成本地制作更多内容。公司重视在更快地制作更多媒体以吸引特定受众的同时降低成本。
媒体消费者
[edit | edit source]媒体消费者是自愿的,并且会进行事实核查。他们主动寻求信息,并且可以随时停止消费媒体。这些人希望从可信来源获取准确的内容。可以出于个人利益和享受来消费内容。
读者对自动生成内容的感知
[edit | edit source]2014 年的一项研究调查了读者如何看待软件生成的内容与人类撰写的内容。该研究的参与者看到各种文本,并被要求根据客观性、清晰度和可信度等标准对其进行排名。声称由人类记者撰写的文本在连贯性、可读性和清晰度方面得分更高,而软件生成的文本在准确性、信息传递、描述性、可信度和客观性方面得分更高。该研究表明,这些观察到的差异在统计学上并不显著。因此,读者对软件生成的文本的看法与人类撰写的文本相同[23]。
另一项研究检查了读者如何感知使用计算机和人类在同一主题上撰写的文章的内容差异。该研究的结果表明,无论实际作者类型如何,被认为是人类撰写的文章的排名都更高。同样,被认为是计算机撰写的文章的排名都更低。该研究认为,读者对计算机生成内容的先入为主的观念会影响内容的感知质量。换句话说,读者无法辨别计算机撰写内容与人类撰写内容之间的实际差异[24]。
社会影响
[edit | edit source]信息的信度
[edit | edit source]对于受众来说,很难确定一篇文章是由人类还是算法撰写的。文章通常没有标注。由 纽约时报 生成的在线测验显示,读者大约有 50% 的时间能够确定文章的来源[25]。
无论作者类型如何,文章都可能出现错误。NLG 软件存在三个主要错误来源
- 由于 NLG 软件开发人员的偏见导致的错误传播。
- 输入软件模板的数据错误。
- 由于数据流损坏导致的错误( 黑客攻击)。
这些错误比人为错误更频繁地出现在公众面前,因为文章发布速度快于人工 质量控制 的处理速度。有些情况下,软件新闻会在内容中产生严重错误。2014 年 7 月 23 日美国东部时间上午 9:50,美联社发推文称,“快讯:载有 马航 17 号航班 坠毁事故遇难者遗体的荷兰军机在埃因霍芬坠毁。” 9 分钟后,美联社发布了更正声明,称,“更正:载有马航 17 号航班坠毁事故遇难者遗体的荷兰军机降落在埃因霍芬。” 在美联社发布澄清声明的 9 分钟内,有 3818 个用户“转发”了虚假信息[26]。2015 年 10 月 6 日,美联社执行主编 Lou Ferrara 在接受每日秀高级记者 哈桑·米纳吉 采访时表示,这条虚假推文“是无意的,尤其是在如此糟糕的状况下”[27]。这一错误归咎于软件新闻无法正确解构信息。2015 年 3 月 16 日,美联社发表了一篇文章,称 罗伯特·杜斯特 在路易斯安那州因武器罪被捕,在洛杉矶因一级谋杀罪被捕。这篇文章正确地将罗伯特·杜斯特认定为被指控犯罪的人。然而,这篇文章使用了 弗雷德·杜斯特(乐队 林肯公园 的主唱)的描述。在错误出版后的第二天,美联社发布了以下声明;“美联社错误地报道了罗伯特·杜斯特是乐队成员。他是一位房地产继承人;弗雷德·杜斯特是林肯公园的前任主唱”[28]。这些例子表明算法错误如何导致虚假信息的快速传播。
托马斯定理与行业铁三角的延续
[edit | edit source]托马斯定理指出,呈现虚假信息会导致不必要的行动。NLG 软件的高出版率可以被群体用来推动虚假叙事或传播有偏见的信息。叙事科学联合创始人克里斯蒂安·汉蒙德估计,到 2027 年,超过 90% 的新闻报道将由软件撰写。[29] 传播虚假或有偏见的信息使 NLG 软件能够淹没反对意见。因此,这种软件可以成为群体用来维护铁三角的工具。 铁三角 是一种自我强化的社会权力结构。常见的铁三角由政府、利益集团和官僚机构组成。它有权塑造公众舆论、选举同情官员,并控制研究重点,以提升私人利益集团的地位。软件新闻可以通过快速传播海量数据和新闻来维护这种权力结构。结合当今媒体的普遍性,软件新闻可以无休止地向媒体消费者灌输大量单方面观点、统计数据或意识形态。大量的材料可以模仿公众对媒体消费者的共识。实际上,这种媒体可能是 NLG 软件生成的经过人工放大的视图。例如,一个竞选活动可以使用软件新闻来误导选民关于对手候选人的信息。普遍存在的、有偏见的信息会影响公众舆论,导致合格的候选人输掉选举。
概括和未来研究
[edit | edit source]概括
[edit | edit source]像任何技术一样,自动化新闻的可能性为其用户提供了新的力量。正如所讨论的,传播大量媒体内容的能力会极大地影响公众舆论。NLG 软件本身没有内在的恶意动机。在坏人手中,它可以传播虚假信息、宣传或其用户希望传播的任何其他内容。信息可以用来教育和告知公众,但也可能用来控制、引导或误导他们。这直接关系到技术的潜在功能和显性功能。
NLG 软件对错误不具有鲁棒性。像软件新闻中使用的那样的专业技术不是通用的。这种技术无法在没有人工干预的情况下以有效的方式纠正错误。这种现象通常出现在自动化技术中。例如,机械化装配线无法修复所有错误,需要人工质量控制。因此,自动化始终需要人工监督。
未来研究
[edit | edit source]未来的研究人员可能会关注软件新闻如何影响非文本媒体,如广告,因为新闻不仅仅涉及文本叙述。另一个研究领域是人类记者对软件新闻的反应以及被其取代的情况。软件新闻改变了新闻的制作方式。因此,探索人类记者角色的变化将是值得的。自动化是软件新闻的重要组成部分。研究人员可以探索自动化在历史上的感知,以更好地了解软件新闻的社会界面。
参考文献
[edit | edit source]- ↑ Pluscina, J. (2014, March 18). How an algorithm helped the LAT scoop Monday's quake. http://www.cjr.org/united_states_project/how_an_algorithm_helped_the_lat_scoop_mondays_quake.php
- ↑ The Los Angeles Times (2016). Frequently Asked Questions. http://homicide.latimes.com/about/
- ↑ Petchesky, B. (2011, March 30). We Heard From The Robot, And It Wrote A Better Story About That Perfect Game. http://deadspin.com/5787397/we-heard-from-the-robot-and-it-wrote-a-better-story-about-that-perfect-game
- ↑ Associated Press. (2015, July 15). Netflix misses Street 2Q forecasts. http://finance.yahoo.com/news/netflix-misses-street-2q-forecasts-202216117.html
- ↑ Diakopoulos, N. (2016). Accountability in Algorithmic Decision Making: A View from Computational Journalism. Communications of the ACM. http://towcenter.org/wp-content/uploads/2014/02/78524_Tow-Center-Report-WEB-1.pdf
- ↑ Graeffe, A. (2016, January 7). Guide to Automated Journalism. http://towcenter.org/research/guide-to-automated-journalism/
- ↑ Wright, A. doi:10.1145/2820421
- ↑ Narrative Science. (2016). Quill. https://www.narrativescience.com/quill
- ↑ Automated Insights. (2016). The Complete Getting Started Guide. https://wordsmithhelp.readme.io/docs/getting-started
- ↑ Automated Insights. (2016, July). Automating E-Commerce Content Creation. http://go.automatedinsights.com/rs/671-OLN-225/images/E-Commerce-Whitepaper-Ai.pdf
- ↑ Automated Insights. (2016). The Associated Press Leaps Forward. https://automatedinsights.com/associated-press-leaps-forward
- ↑ Automated Insights. (2016). Wordsmith Use Cases. https://automatedinsights.com/use-cases
- ↑ Automated Insights. (2016). Wordsmith Use Cases. https://automatedinsights.com/use-cases
- ↑ Automated Insights. (2016). Customer Data Makes Orlando Magic. https://automatedinsights.com/orlando-magic-case-study
- ↑ Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
- ↑ Kotecki, J. (2016, August 15). Just How Good Can Wordsmith Content Really Be?. https://automatedinsights.com/blog/just-good-can-wordsmith-content-really
- ↑ Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
- ↑ Miller, R. (2015, January 29). AP's 'robot journalists' are writing their own stories now. http://www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-reporting
- ↑ Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
- ↑ Automated Insights. (2016). Bodybuilding.com's Automated Trainer. https://automatedinsights.com/bodybuilding-com-case-study
- ↑ Automated Insights. (2016). Customer Data Makes Orlando Magic. https://automatedinsights.com/orlando-magic-case-study
- ↑ Narrative Science (2016). Narrative Science. https://www.narrativescience.com/
- ↑ Clerwall, C. (2014, February 24). Enter the Robot Journalist: Users' perception of automated content. Journalism Practice, 8(5), 519 - 531.
- ↑ Graefe, A., Haim, H., Haarman, B., & Brosius, H. (2016, April 17). Perception of Automated Computer-Generated News: Credibility, Expertise, and Readability. doi:10.1177/1464884916641269
- ↑ New York Times. (2015 March 8th). Did a human or computer write this?,http://www.nytimes.com/interactive/2015/03/08/opinion/sunday/algorithm-human-quiz.htm
- ↑ RT News. (23 July 2014). Tweet Gone Wrong, https://www.rt.com/usa/175056-twitter-ap-mh17-victims/
- ↑ Aaron Sorkin. (2015 October 6). Robot Journalists. http://www.cc.com/video-clips/fh76l0/the-daily-show-with-trevor-noah-robot-journalists
- ↑ Sasha Goldstein. (2015 March 17). Accused killer Robert Durst misidentified in AP story as ‘former Limp Bizkit frontman’ Fred Durst, http://www.nydailynews.com/news/national/robert-durst-mixed-story-fred-durst-limp-bizkit-article-1.2152410
- ↑ Steven Levy. (2012 April 4). Can an algorithim write a better news story than a human reporter?, https://www.wired.com/2012/04/can-an-algorithm-write-a-better-news-story-than-a-human-reporter/