来源图蠕虫:Hyun-woo已被授予使用该技术的权利:
彭岚资料来源:腾讯媒体全媒体集团(ID:quanmeipai)数据和算法的应用扩展了人类的能力,但同时也带来了许多新问题和新风险。 客观数据可能成为后真相的另一个驱动力,因为数据生产环节中的偏差可能导致客观数据积累的错觉,而数据分析也可能成为客观事物的干扰因素。 尽管个性化算法提高了个人信息服务的水平,但是它们也可能以多种方式被人们围困:一种是围攻信息茧;另一种是围攻信息茧。 第二是算法中的偏见或歧视对人们的社会资源和位置的限制。 第三个是以幸福的名义通过算法对人进行的无形操纵。 个人在数据时代面临的另一个风险是,相关权利的保护面临着更多的挑战,尤其是在隐私和被遗忘权方面。 为了应对这些风险,有必要改善数据基础结构,包括培养数据素养,构建数据“基础结构”,建立数据质量评估系统以及建立信息伦理法规。 本期全媒体小组(ID:quanmeipai)带来了清华大学新闻与传播学院的彭岚教授的新作品,以深入分析数据时代的新风险。 近年来,我们似乎已经进入了大数据飞跃的时代。 技术不断给我们带来新的想象力和探索能力,并且开辟了一些人类无法触及的新领域。 基于数据的各种算法也已经开始在我们中起作用。 受欢迎。 但是,在这一巨大的飞跃中,存在许多新的伏击风险。 对数据和算法风险的理性分析和判断可以帮助我们理解新技术可能带来的新陷阱。 “客观性”数据:“后真相”的另一个推动者? 近年来,“真相”一词已进入中国研究人员的视野,这在很大程度上是因为它被《牛津词典》选为2016年度最佳词。 这个词中的“职位”一词意味着“超越”,也就是说,“真相”不再那么重要。 根据《牛津词典》,后真理意味着“客观事实的陈述通常不如诉诸情感和煽动信仰宽容。影响舆论很容易。” 尽管《牛津词典》在解释“后真理”一词时强调了情感和其他客观事实的“超越性”,但后真理已成为一个显而易见的问题。 大选和其他结果与预测的失败有关。 因此,正如哲学研究者蓝江所指出的那样,后真理时代是因为支持真理的两个基础已经崩溃,即作为普遍理性原则(以及与之相伴随的)的演绎推理逻辑,甚至是推理逻辑。 哈贝马斯倡导的谈判和沟通的合理性受到质疑),以及经验数据收集,统计和分析的客观结论。 后真相现象使我们想起数据和算法似乎客观的手段和方法不一定带来更多的真理,但可能涉及到它的各个方面。 为什么客观数据也可能带来幻想? 数据通常用作描述客观事物和揭示真相的手段。但是,数据应用程序本身具有一组规范。 如果不遵循这些规范,或者数据应用程序中存在漏洞,而漏洞却未被发现,那么将来我们可能会被看似客观数据的积累所形成的更多幻想所包围。 从数据生产的角度来看,在每个相关步骤中可能都有导致幻觉的因素。 1.由数据样本偏差引起的“部分概括”已进入“大数据”时代,但是大数据的卖点之一是“完整样本”,但实际上,获得“完整样本”并不是一件容易的事 。 由于诸如利益保护等因素,当今的数据,尤其是Internet数据,被少数平台所垄断。该平台通常不愿完全披露数据。 当其他人从这些平台“拾取”数据时,它们将受到技术能力和权限的限制,这可能在某种程度上影响数据的完整性。 原因可能无法保留完整的样本数据。 例如,在社交平台上,帖子的删除将不可避免地导致相关内容不完整。 大数据分析通常依赖于行业数据,但是在中国,由于历史原因,许多行业本身在缺乏完整而系统的数据积累的情况下,通常只能提供不完整的数据。 即使使用传统的小样本分析,样本大小和代表性的质量也越来越令人担忧。 尽管如今在人文和社会科学领域,他们都在强调经验数据分析方法,例如问卷调查。 当今的本科生和研究生也已经接受了某些方法方面的培训。 然而,在实际操作中,它们充满了不规则和不规则。严峻的现象,特别是在采样中。 武汉大学学生会调查的农民工研究中的欺诈事件可能不是孤立的案例。 客观障碍在于,当今的公众已经厌倦了各种问卷调查,他们的抵制,不合作或博弈心态将影响问卷调查的发展。 因此,无论是完整的样本数据,行业数据还是传统采样方法下的小数据,样本都可能存在问题,不可避免地影响数据分析结果的完整性和代表性。 2.除样本问题外,“脏数据”造成的污染也可能会影响以各种方式获得的数据质量。 部分丢失的数据,重复的数据,无效的数据,伪造的数据等都称为“脏数据”。 尽管在处理数据之前需要清理数据,但这可能无法完全消除脏数据造成的污染。 一些数据分析人员还可能出于某些原因而忽略脏数据的存在,甚至创建一些脏数据和伪造数据。 3.由数据分析模型的偏差引起的方向误差是完整的,可用数据只是数据分析的先决条件。 为了使用数据准确地描述或解释客观现象,还需要科学合理的分析模型。 但是,一些基于数据的经验分析可能会使模型本身产生偏差。 一些数据用户甚至在分析模型的设计中进行人为的“失真”以获得他们想要的结果,这不可避免地导致结果的偏差。 4.有限的数据挖掘功能带来了“简单化的味道”。 数据量越大,数据类型越丰富,数据应用目标越多样化,这意味着对数据挖掘功能的要求更高。 但是,当各种力量迅速涌入时,在数据应用领域中,当争取各种数据产品时,它们可能没有相应的数据挖掘能力。 尤其是在媒体行业,传统的数据应用程序匮乏和以往技术能力的匮乏将限制其数据挖掘能力。 但是,外部压力迫使媒体变得面向数据。 因此,数据应用程序大部分在表面上流动。 漏洞越来越多。 作为构建“哑剧环境”的一种方法,媒体生成的过于简单和浅薄的数据也可能误导人们对现实社会的理解。 5.数据解释的偏见数据解释能力是数据利用能力的另一个重要方面。 没有良好的数据培训,数据的解释可能是主观的,随机的和简单的。诸如单一化之类的各种问题(例如,将数据的相关性过度解释为因果关系)是实践中的常见问题之一。 数据解释通常在水平或垂直比较中进行。 如果缺少参考信息或比较数据存在问题,则解释自然容易产生偏差。 数据描述和分析中的偏差不仅会误导我们对环境的理解,而且更大的风险是它们可能带来的决策偏差。 当越来越多地使用大数据或其他数据分析方法来指导公共和个人决策时,这种风险将日益增加。 这些数据的滥用和滥用一方面是由于缺乏数据应用功能,另一方面是由于数据用户的价值取向和利益驱动型问题。 某些数据分析的出发点不是获得对真相的完整理解,而是创造出满足您需求的“真相”或结果。 错误的或以利润为导向的数据滥用已成为“后真相”现象的更大背景。 数据会成为客观性的另一个困扰因素吗? 在2016年美国总统大选中,许多投票机构的预测结果失败使人们对数据的客观性和准确性提出质疑。 从某种意义上说,两年后揭露的Facebook数据门事件是对民意调查结果失败的回应。 尽管我们不确定“牛津分析”“对选举结果的干预是否奏效还是奏效了多少”,所以也许有可能探讨当时民意测验失败的一些原因。 此事件也具有更深的含义。 它使我们想起了一个新的挑战:一方面,数据分析的目标是追求事物的客观描述;另一方面,数据分析的目的是追求事物的客观描述。 另一方面,数据分析也可能成为对客观事物或客观过程的参考。 干预力量。 可以预见,两者之间的博弈将来可能会变得更加正常。 大数据的应用方向之一是对事物的发展趋势做出判断,从而对风险进行预警,并介入危险过程。 但是在实践中,现实干预的边界应该在哪里? 大数据干预大选投票是否合理应用? 2012年,奥巴马赢得了美国大选。 一些研究人员谈到了大数据的应用。 特朗普在2016年大选中获胜后,一些媒体开始调查数据分析机构对选民态度的干预。 在披露Datagate事件后,研究人员似乎更支持“牛津分析”方法。批判的态度。 这可能与人们对特朗普的态度有关,但是从另一个角度来看,这也表明,在大数据的应用进入深层次之后,人们对其影响和应用道德的理解也在加深。 之类的组织(例如“牛津分析”)可以使用数据分析来影响人们的态度和立场,甚至影响人们对客观世界的理解,这是因为它们可以通过数据分析来判断不同人群的心理定位,并使用 这是推送信息的前提。 ,控制人们感知的信息环境,并使用有偏见的信息来影响人们的态度。 哲学家刘青指出:“后真相问题具有深厚的理论背景,最相关的哲学渊源是尼采一个多世纪前对真理客观性的挑战。尼采曾经在《超级》的序言中写道。 善与恶”:“视角是所有生命的基本条件。” 在他的遗腹手稿《纳克拉斯》中,他留下了一个著名的断言:“没有事实,只有解释。” 哲学界称之为“透视主义”。“透视主义”是尼采哲学的核心思想之一,也为当今的后真理时代奠定了基础。” 他还认为:“透视主义和后真理问题也有重要线索,可以称为”从观点中做出事实的想法” ...如果所谓的“事实”是满足“适当证据”的事情。 ”,而适当的证据标准是通过透视图创建的,那么“没有独立于透视图的现实世界”意味着“事实”在一定意义上是通过透视图创建的。” 今天的一些大数据分析是分析甚至“创造”人们的“观点”,然后将符合观点的“事实”推向“现实”。 视角”,它们成为影响主观判断和态度的重要手段。 关于后真理问题的解释,刘青认为,真理的“客观性”取决于“共同的视角”。 澳大利亚学者约翰·基恩(John Keane)也指出,对真相的最终确定仍取决于人们的同意和信任。 这些观点似乎是大多数学者对“后真理”问题的共识。 因此,从解决“后真相”危机的角度出发,今天我们需要使用数据分析来找到人们的“共同视角”。“或”共识。”但是,当各种实体试图利用数据分析和算法的力量来创建满足其需求的信息环境和意见模式时,数据和算法成为力量博弈的武器时,发现和形成 共识必将充满困难。
可能您还想看