1、算法和模板是机器新闻写作无法逾越的“鸿沟”
机器新闻写作的方式大致分为两类:一是将数据填空到系统模板形成新闻,模板是常量,数据是变量。二是从管理系统获取数据,将数据进行分类、筛选、汇总、计算处理后,利用最终数据形成文本,目前主要适用于写作财经类新闻文本。其本质是利用AI技术在后台将有效新闻数据进行筛选提取,代入新闻模板,形成完整的新闻文本。例如在2019年两会上,新华社利用AI技术,急速生成2014年以来历次政府工作报告中的同类数据对比,帮助用户在短时间内通读6年报告。
传统新闻记者在进行新闻写作时,不局限于主谓宾结构的简单句子结构,会根据语法语境增加一些有温度有内涵的词句使文章内容更加丰满。而机器新闻写作的本质是数据与模板的组合,对自然语言的处理比较滞后,它不能像人的大脑一样处理一些报道的细节,一些语法语义不能表达完整,导致新闻文本机械化,很难写出有温度的、让读者产生共鸣的文章,降低了新闻的可读性。以2017年四川省阿坝州九寨沟县发生的7.0级地震报道为例,中国地震网“地震信息播报机器人”在仅在地震发生8分钟后,用25秒便发布了标题为“四川省阿坝州九寨沟县发生7.0级地震”的新闻稿件。中国新闻网发布的新闻标题为“四川九寨沟发生7.0级地震当日接待超3.8万游客”。从标题就可以看出,中新网的标题以 “当日接待超3.8万游客”作为副标题, 说明当日地震时景区的游客情况, 对主题的内容进行了补充,让受众产生情感波动,更加吸引受众关注。机器新闻报道的标题虽然具备了事件的基本 元素,但过于平铺直叙,缺少温度。
由于模板的限制,机器新闻写作只能局限于一定题材的新闻报道,如果新闻超出模板覆盖的范围,机器新闻写作的短板将显露无疑。
2、机器新闻写作过于依赖数据,不能保证新闻质量
机器新闻写作的本质是对数据的提取运用,因此新闻数据越复杂、计算方式越繁琐,机器新闻的优势就越突显,但对于数据不完整、不可靠的新闻文本编辑存在局限性。机器新闻不能对数据的新闻价值和真实性进行审核,而这两个要素正是新闻的核心。如果数据质量不能保证,很有可能会产生垃圾新闻。
其次,人工智能通过AI技术进行大数据分析所得到的数据结果准确性有待考究。AI技术可以通过对用户搜索的高频词统计,用户常用的语义语法统计,结合用户信息、收藏信息,对用户的阅读偏好以及对舆论事件的情感倾向做出分析,进行有针对性的新闻写作。但如果用户仅仅被新闻标题吸引来进行文章的阅读,在对新闻内容并不满意的情况下也会被大数据记录为阅读偏好。以此推断,根据人工智能分析所得数据来撰写及推送新闻不能作为用户偏好的绝对依据。
3、人工智能的发展速度与法律制度的更新速度存在“时差”
人工智能时代,科技迭代迅速,法律法规的制定远远比不上机器更新换代的速度,因此,机器新闻写作过程中不断涌现的问题不能得到及时有效的解决,可能存在法律层面的风险。如果机器在采集数据过程中不存在明确界限,采集的数据就会有侵犯他人隐私的风险。
机器新闻写作的版权保护问题存在争议。首先,人工智能可否作为著作权的主体还有待商榷。如果人工智能在对数据的整理编排过程中形成了新观点、新思想,那么人工智能创作的数据新闻就具有独创性, 理应享有著作权。但如果机器新闻写作只是将既有数据片段组合成数据新闻,并没有形成新思想、新观点, 则不具有独创性, 便不赋予著作权。
当机器新闻享有著作权时,自然会存在责任归属问题。传统媒体通过稿件来源的方式来保障新闻稿件的版权,对于机器新闻,也会清楚地注明稿件来源为机器人,这体现了对版权问题的尊重,但当报道内容出现失误时, 机器人不负责承担相应的责任。
由此,不论机器新闻是否拥有著作权,机器新闻稿件的责任归属都不明确。
4、机器新闻写作只能集中运用于高密度数据、语境要求低的程式化新闻报道
人工智能没有人类的思辨能力和情感表达能力,这在机器新闻写作中成为软肋。因此机器新闻写作只能集中运用于财经新闻、体育新闻等数据密度高、语境要求低的简单新闻报道,对于深度报道、新闻评论等数据稀缺的报道领域鲜有涉猎。