查看原文
其他

当期荐读 2021年第1期 | 失控的数据:数字阅读隐私问题研究

潘玉辰 商宪丽 信息资源管理学报 2024-01-09

图源 | pexels



潘玉辰1 商宪丽2

(1.武汉大学信息管理学院,武汉,430072;2.信阳农林学院工商管理学院,信阳,464000)




摘 要


数字阅读已经成为人们的主要阅读方式,探究阅读隐私问题有利于促进数字阅读行业的健康发展,保护公众信息隐私权利。研究发现,获取危险权限并与第三方数据收集公司共享数据已经成为数字阅读市场的普遍态势,而晦涩难懂的隐私政策使得用户难以了解应用的数据共享情况,用户正失去对隐私数据的控制权。在此基础上,提出了法律保障、政府监管、企业负责和用户重视的多元协同治理体系,以期能够为阅读隐私保护研究和实践提供借鉴和参考。

关键词

数字阅读 阅读隐私 数据流 隐私保护 隐私政策



01

引言


1.1 研究背景


一直以来,阅读是一种私人的、非社交化的个人活动,书籍也被认为是某种形式的私有财产。但是在互联网时代,这种想法受到了越来越多的挑战。网络技术和智能设备的发展使得用户能够方便地同其他人交流阅读体验,但是也给予阅读服务提供者更多机会收集用户在阅读过程中产生的行为数据。实际上,数字阅读行业的赢利模式正是建立在将用户注意力与数据转化为流量广告的基础上[1]。普遍的数据收集行为引发了社会各界的担忧,据DCCI互联网数据中心发布的《中国Android手机用户隐私安全认知调查报告》显示[2],76%的用户担心手机软件会泄露隐私。

近年来,“内容免费、广告赢利”的阅读模式发展迅速,其对用户数据的依赖更甚,面临的阅读隐私保护问题更加复杂。在这一背景下,如何保护用户阅读隐私,提高用户使用意愿是亟需解决的现实问题。因此,本文选取国内主流数字阅读APP,从应用访问权限、应用内数据流动、隐私政策三个角度深入分析数字阅读APP收集、共享用户信息的具体情况,评估用户阅读隐私侵犯风险,并在此基础上提出相应的保护对策,为阅读隐私保护研究和实践提供借鉴和参考。


1.2 文献综述


隐私概念涉及心理学、社会学、管理学等多个学科,一般可以将隐私的定义归纳为“权利论”和“控制论”两大类,“权力论”认为隐私是一种独处的权利[3],是社会价值体系的一部分;“控制论”认为隐私关系到个人思想和认识的独立,是控制其他人接触个体信息的能力[4]。在互联网问世之前,隐私问题已被信息管理学者关注,1986年Richard O.Mason教授预测到,在信息时代,隐私、准确性、财产和可访问性将成为人们的主要关注点[5]。随着互联网的快速发展和普及,其暴露的隐私问题加剧了人们的担忧,具体而言,在线跟踪技术的进步使得企业可以在用户不知情的情况下自动收集用户数据[6];数据处理技术的发展也大幅提升了企业处理用户数据的能力[7]。在此背景下,国内外学者对网络环境下的隐私权内涵[8]、范围[9]等基础理论问题进行了探讨;随着社会各行业互联网化的加深,国内外学者又针对电子商务、物联网、社交网络等情景下的隐私保护[10-12]以及用户隐私披露[13]、隐私关注[14-15]等问题进行了深入研究。总体来看,学界对网络隐私的研究呈现了从法律到技术、从理论到实践的演化路径。

随着出版行业的数字化,阅读隐私成为信息隐私的新子集。阅读隐私反映了用户的阅读喜好,揭示了用户对现实世界的看法、个人价值观、教育背景等,它保护人们独立思考的能力,而不必担心别人会根据人们读到的内容而判断他们,因而更值得去保护[16]

在纸质阅读时代社会就十分重视保护人们的阅读隐私。美国图书馆协会(ALA)在1930年制定的《图书馆员道德规范(1939)》规定:“图书馆员有义务将在与图书馆用户发生关系的过程中获得的私人信息视作机密”[17]。在此之后,ALA通过对《图书馆权利法案》解释及出台新的隐私政策,进一步阐明保护用户阅读隐私的立场,强调匿名阅读的自由是个人自由的核心[18]

在互联网时代由于其开放特性使得对阅读隐私的保护要弱于传统的纸质阅读。实际上,互联网的发展使现代社会正逐渐转变为一个自动的、永远自我披露的世界,数字领域隐私立法及监管措施的滞后导致隐私泄露问题频发,Proia[19]梳理了美国用户权益保护历史,从法律的角度提出了利用行政规定填补法律以及政策滞后造成的数字阅读中存在的隐私保护空白;Richards[16]针对数字阅读中的隐私侵权问题提出了智力隐私(Intellectual Privacy)的概念,即人们在阅读书籍和观看电影的过程中产生的隐私信息,是一种区别其他隐私信息而需要被特别保护的隐私信息。他指出,当下的数字阅读方式和分享方式伤害了人们的智力隐私,政府和社会应当制定一个更加平衡的隐私信息分享与保护机制。

随着以豆瓣阅读、微信阅读为代表的数字阅读在国内的快速发展,其潜在的隐私侵犯风险也备受学者关注。李晶晶等[20]认为中小型数字阅读 APP倾向于获取更多高隐私权限,隐私侵犯风险与市场占有率、月均活跃人数等经济性因素高度负相关,并指出未来数字阅读 APP用户隐私保护路径可以沿“隐私越轨”和“授权风险”两个维度施行;樊佳怡[21]通过考察美国图书馆电子书服务政策,指出现有数字阅读隐私政策重在保护厂商的商业利益, 而非用户的隐私权,并提出通过完善立法等方式保护用户阅读隐私;李宁等[22]认为国内移动阅读APP在信息收集、信息使用环节以及平台本身风险点频出。

综合来看,既有研究在方法上主要从访问权限等视角探究阅读隐私问题,然而阅读APP功能不同,对系统访问权限需求也不一样,因此不能排除不同APP间因功能差异而导致的权限获取差异,需要结合阅读APP在使用过程中的数据流向与隐私政策做进一步的对比分析;在对策上现有研究主要关注数字阅读隐私的法律法规完善,并未对数字阅读服务商和用户提出相应的对策。基于此,本研究从访问权限、应用内数据流和隐私政策三个方面探讨数字阅读APP收集用户隐私情况,以期为阅读隐私保护研究提供理论和实践参考。



02 

研究设计


2.1 研究对象


数字阅读指阅读的数字化,包括阅读对象的数字化和阅读方式的数字化。广义的数字阅读包括以数字文件为载体的公开出版物、电子书、漫画以及有声读物。狭义的数字阅读指通过PC、手机、平板电脑等互联网设备进行文学作品的阅读[23]。本研究主要讨论狭义的数字阅读 。

目前国内数字阅读载体主要为运行在PC、手机、平板电脑上的阅读APP,从付费类型上可以分为两大类,即免费阅读APP和付费阅读APP。免费阅读APP指用户不需要充值就可以通过观看广告等方式免费阅读小说等;付费阅读APP是指用户需要充值才能阅读小说等。基于数据的代表性及研究的严谨性考虑,综合易观智库[24]和必达咨询[25]2018年数字阅读市场调研数据,本研究选取安卓平台下月活跃人数较多的四款付费数字阅读APP,包括QQ阅读、掌阅、咪咕阅读、书旗小说,四款免费数字阅读APP,包括追书神器、七猫精品小说、米读小说、连尚免费小说作为研究对象,如表1所示。


表1 数字阅读APP信息


2.2 研究方法


应用权限分析、隐私政策分析和动态分析是三种常用的研究移动应用数据共享的分析方法[26]。应用权限分析通过在应用的下载页面或者安装期间记录应用的许可请求[27],隐私政策分析则是从法律视角探究应用数据共享的规则[28]。这两种方法的优点是分析效率高,可以同时检查多个应用程序,缺点是分析只能在较高层面上进行,无法深入了解应用向谁共享了数据。动态分析通过特定程序[29]、VPN[30]、中间人代理[26]等方式捕获使用应用程序时数据的传输情况,但是需要人工干预,只能用于少量样本。本研究重点考察数字阅读应用共享用户数据的现状,既包括应用权限和隐私政策等较高层面的共享情况,也包括应用内部数据实际传输情况,因此,本研究将同时使用上述方法进行研究。


2.2.1 访问权限分析


访问权限指阅读APP在正常安装和使用时所必须获得的系统权限。根据安卓开发者指南[31](Android 6.0以上),系统权限分为正常权限和危险权限。正常权限涵盖应用需要访问的外部数据或资源,但对用户隐私或其他应用操作风险很小的区域,系统会自动向应用授予需要的正常权限。危险权限涵盖应用需要涉及用户隐私信息的数据或资源,或者可能对用户存储的数据或其他应用的操作产生影响的权限,危险权限以权限组的形式存在,例如日历权限组可以分为读、写日历两个子权限。

为了便于分析比较,本研究将统计样本应用所有访问权限,见表2,其中每个危险权限的子权限均算作1个危险权限。


表2 访问权限说明


2.2.2 应用内数据流分析


应用内数据流指阅读APP在正常使用时,与服务商(首选域名)、其他网络服务(第三方域名)之间的通信。本研究使用网络中间人代理截取样本应用通信数据,观察并分析样本应用在使用期间与哪些域名进行通信。

如图1所示,样本应用被安装在全新的安卓手机(a)上,并连接至由一台笔记本提供的无线热点,安卓手机(b)连接至同一热点用于观察记录网络连接质量。所有的设备通过联通4G网络连接至互联网。


图1 网络拓扑图


实验过程中对于每个样本应用执行如下操作:①安装应用;②启动应用;③注册测试用账号,为避免其他应用干扰,所有样本应用不使用第三方账号登陆;④关闭应用;⑤在笔记本电脑上启动网络抓取;⑥启动应用并使用应用的所有功能;⑦关闭应用;⑧关闭网络抓取;⑨卸载应用。每个数字阅读APP均在前台运行60分钟。

截取并分析应用内数据流。样本应用同设备、互联网之间的通信将被全部截取下来,具体而言,提供无线热点的笔记本电脑装有网络测试软件Fiddle用以监控HTTP和HTTPS流量,Wireshark软件用以监控TCP/IP流量。本研究使用Textwizard、Apktool等工具分析收集到的数据。


2.2.3 隐私政策内容分析


应用隐私政策文本包含了应用如何收集用户信息、收集哪些信息以及用户信息的保存、撤回等内容,是当前研究移动应用隐私的主要参考依据。本文主要考虑如下问题:①隐私文本政策的可见性与可读性;②隐私政策文本是否规定同第三方数据公司分享数据,其分享数据的目的是什么;③用户数据的所有权;④用户数据的保留期和保留地;⑤其他用户认为不当的行为(例如,在用户不知情的情况下修改隐私政策文本,无故中止服务等)。



03

研究发现


3.1 访问权限


从样本应用请求危险权限数量上看(见表3),付费应用和免费应用的总访问权限接近,但是免费应用请求了更多的危险权限。进一步分析不同类型阅读APP请求危险权限的类别,如图2所示。免费阅读APP请求的危险权限类别也多于付费APP,其中付费阅读APP主要请求电话和麦克风权限,免费阅读APP主要请求定位、短信、存储和相机权限。

综合来看,免费阅读APP需要的访问权限数量和种类均高于付费阅读APP,造成这一差异的原因是免费阅读APP收集更多用户信息,还是免费阅读APP与付费阅读APP在功能上存在不同,仍然值得进一步探讨。笔者将在下一节中深入研究样本应用在使用过程中的通信信息来回答这一问题。


表3 样本应用访问权限数量


图2 样本应用请求访问权限类型


3.2 应用内数据流


表4展示了样本应用在使用过程中的加密方式及通信域名。从加密方式上看,付费阅读APP更加关注数据传输过程中的安全性。QQ阅读、掌阅、书旗小说三个付费应用使用了SSL方式加密用户数据,提高了安全性;免费阅读APP中只有七猫精品小说使用了SSL加密。


表4 样本应用数据传输信息汇总


从通信域名上看,样本应用在实验过程中与大约80个域名进行了通信,其中第三方域名70个,而免费应用平均与10.5个第三方域名通信,高于付费应用。考虑到第三方域名可能包含阅读APP远程服务资源,笔者通过WHOIS查询域名详细信息、判断域名功能,做进一步分析(见表5)。所有阅读APP均同大量信息收集域名通信,但是与免费阅读APP通信的域名多于付费APP,也高于国外相关研究[26]。可见,免费阅读APP更倾向于共享用户信息。


表5 第三方域名详情


结合访问权限的分析可以看出,所有阅读APP均收集、共享用户信息,且免费阅读APP比付费阅读APP请求更多的危险权限,向更多的第三方数据分析公司共享用户信息,即免费阅读APP更倾向收集、共享用户信息。造成这种现象的原因可能与数字阅读APP的赢利模式有关。

具体而言,免费阅读APP一般属于数字阅读行业的挑战者[32],需要靠免费这一方式快速积累用户,提高应用流量,因而免费阅读APP需要引导用户通过点击广告、返利链接等方式赢利,甚至用户个人信息及阅读过程中产生的行为数据也是其利润来源[33]。而付费阅读APP已经具有一定的用户规模,主要通过内容收费、优质IP改编影视剧等方式赢利,更加注重免费用户的转化度以及付费用户的使用体验与口碑,因此其对用户信息的需求较为克制。


3.3 隐私政策


(1)隐私政策协议可视性与可读性差。可视性指用户查看隐私政策协议的方便程度。表6展示了样本应用隐私政策文本的概况,所有应用均有隐私政策协议,说明2018年颁布的《个人信息保护规范》受到厂家重视。但是,部分阅读APP的隐私政策入口设置不合理,需要点击3—4次才能查看隐私政策文本,降低了用户阅读隐私政策的可能性;部分阅读APP更新隐私政策协议并不通知用户;部分免费阅读APP不能保存隐私政策文本,没有考虑到用户将隐私政策文本保存下来向专业人士咨询的情况。


表6 样本应用隐私政策一般情况


可读性指隐私政策协议文本的可理解性。为了避免潜在的法律纠纷,隐私政策往往使用模棱两可的词语,大大增加了用户理解隐私政策的难度。以用户数据使用范围为例,所有的应用均指明应用收集的数据只是为了提供必要的服务。但是,大部分应用并没有明确定义什么是必要的服务。

(2)数据收集范围过于宽泛。根据2018年颁布的《个人信息安全规范》,用户数据分为个人信息和个人敏感信息两大类。个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、出生日期、住址、通信通讯联系方式等。个人敏感信息是指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息,包括身份证件号码、个人生物识别信息、银行账号、通信记录和内容、行踪轨迹、交易信息等。样本应用收集用户信息及共享行为见表7。


表7 数字阅读应用隐私政策内容(数据收集)


整体来看,隐私政策普遍侧重于数字阅读服务商的利益,所有的样本应用均收集手机号、邮箱等个人信息,与应用内数据流的实验结果一致,所有应用均同第三方共享用于广告投送业务,部分应用甚至收集用户交易、消费记录等敏感信息用于精准广告推送业务。

(3)隐私政策对用户信息权利保护不到位。主要表现为:①对于用户的信息存储,部分应用无法做到全程匿名,只承诺在用户超出保存期限后的有条件匿名,在保存期限内实名存储。②用户有权自行删除或要求服务商删除其个人信息,以实现对个人信息的有效控制。但部分应用不提供删除功能,或者要求用户进行书面申请才能删除,增加了用户删除信息的难度。③用户有权撤回其对隐私政策的同意。但是部分应用也未满足用户该权利,部分应用并未提及该权利。表8展示了样本应用隐私政策对用户信息权利的保护措施。


表8 数字阅读应用隐私政策内容(隐私保护)



04

数字阅读隐私保护对策


从理论上来说,用户使用阅读APP过程中产生的数据属于用户本人,这是公民隐私权的体现。而实验结果显示,阅读APP在收集、共享用户信息的过程中缺乏透明性,并通过苛刻的隐私政策延长用户数据在企业的留存时间,变相“拥有”用户数据,用户正逐步失去对隐私数据的控制权,成为数字阅读公司的“数字劳工”和“数字资产”[34]

由于数字阅读隐私的特殊性,其保护工作既需要在国家法律法规的大框架下进行,也需要企业、个人认识到阅读隐私的独特性,提高隐私保护的意识。因此,有必要从法律、政府、企业和个人多个维度构建多元隐私保护机制,切实保护用户阅读隐私。具体对策如下:

第一,完善隐私立法,从根本上保护用户阅读隐私。用户阅读隐私保护需要在国家隐私保护法律法规的基础上进行。2018年,欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)实施,从更为通用的角度保护用户隐私问题,美国加利福尼亚州甚至制定《用户隐私法案》以专门保护用户阅读隐私。我国关于公众数据隐私的保护条款主要在《关于加强网络信息保护的决定》《网络安全法》《民法总则》及《刑法修正案(九)》等法律及相关司法解释中[35],其中《网络安全法》第四章针对实践中的突出问题做了详细的规定。2020年制定的《个人信息保护法》《数据安全法》将推动用户网络隐私保护朝向规范化方向发展。

第二,成立数据安全与隐私保护机构,完善隐私保护机制。健全的数据安全与隐私保护机构是保护用户阅读隐私的制度保证。在我国,个人信息违法违规问题由工业和信息化部、公安部、市场监管总局、互联网信息办公室、中国消费者协会、中国互联网协会、中国网络空间安全协会等多家机构共同管理,存在着业务重叠、权力分散的问题。随着个人隐私立法的完善,未来国家应当成立统一的个人信息保护机构,落实隐私保护法律法规,指导行业和企业制定完善的用户信息采集、存储和传输技术标准;建立详细的隐私泄露风险评估体系,完善的数据收集行为审计规则;明确用户信息安全从业人员的能力要求等内容,构建自上而下的隐私保护体制。

第三,提升隐私保护技术,增强用户信任。随着网民增速的减缓及各类数字阅读服务的同质化,流量红利将会逐渐减少,进一步开发用户数据资源,将数字阅读产业拓展到影视、游戏等下游产业链上,已经成为数字阅读行业突破瓶颈的关键所在。这一过程意味着对用户数据的深度加工,必然与日益觉醒的公众权利意识发生冲突。因此,数字阅读企业应当积极进行技术创新,保护用户阅读隐私,构建与用户和谐的信任关系。例如,利用设备端机器学习[36]技术构建本地推荐系统,减少数据共享风险;使用HTTPS/TLS等加密通讯协议提高数据传输的安全性;在应用的显著位置增加数据共享选项,让用户可以选择共享范围。鉴于阅读隐私的特殊性,数字阅读企业应当仅将用户信息用于书籍推荐等相关服务。完善的隐私措施是用户信任的基石,企业也将是这一良好信任体系的受益者[28]

第四,提高用户保护阅读隐私的安全意识。社交化阅读通过网络将成百上千阅读同一本书的用户联系起来,是数字阅读的魅力所在,也是用户更应该慎重对待其数据共享方式的原因[19]。用户应当意识到社交化阅读所带来的便利只有在尊重阅读隐私的前提下才是有益的,用户应当慎重选择他们共享的内容、共享的时间和方式。基于此,用户应当积极学习各大平台信息素养MOOC,掌握个人信息保护措施,提升隐私保护安全意识。



05

结语


数字阅读因其多样化资源、便捷的使用方式、社交化阅读体验深受用户喜爱,成为公众主要的阅读方式。但同时,用户阅读隐私侵犯的风险也急剧上升。本文选取流行的付费和免费阅读APP,从访问权限、应用内数据流和隐私政策文本三个角度深入分析了阅读隐私侵犯现状,探讨了数字阅读APP赢利模式与其收集、共享用户数据之间的关系,在此基础上提出了法律保障、政府监管、企业负责和用户重视的多元协同治理体系,以期能够为阅读隐私保护研究和实践提供借鉴和参考。



作者简介

潘玉辰(通讯作者),博士生,研究方向为图书馆学,Email:panyuz@outlook.com;

商宪丽,副教授,博士生,研究方向为信息管理。


*原文载于《信息资源管理学报》2021年第1期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

潘玉辰,商宪丽.失控的数据:数字阅读隐私问题研究[J].信息资源管理学报,2021,11(1):40-48.


参考文献


The End

制版编辑 | 王阿凤

审核 | 于   媛


往期推荐

当期目录 | 2021年第1期

当期荐读 2021年第1期 | APP隐私政策用户友好度评价研究

当期荐读 2021年第1期 | 基于文本分析的APP 隐私政策框架优化研究

当期荐读 2021年第1期 • 长江学者论坛 | 应急知识管理:理论基础、研究领域与应用前景

当期荐读 2021年第1期 | “新姿态,新贡献,新展望” ——马费成教授谈互联网时代情报学的发展、应用及未来趋势


扫码关注我们

微信号|xxzyglxb

信息资源管理学报

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存