随着新技术的迅猛发展,数据统计与分析已经被广泛应用于商业、金融、医疗、制造业和公共管理等领域。如今,数据具有毋庸置疑的重要价值,也是知识的重要来源。但规模庞大的数据集也给相关统计分析工作带来了挑战。
人们可以利用主成分分析(Principal Component Analysis,PCA)筛选一些有意义的特征以解释数据差异的程度,从而展现数据的复杂性。然而,主成分分析的基本假设是所有数据源是同质的。物联网的发展带来了挑战,因为从联网车辆、传感器、摄像头、智能手表等不同来源收集的数据之间具有明显的异质性。考虑到能够用来收集数据的物品和技术越来越多,人们需要一种新的分析工具来分析异构数据,以及分析多个来源的日益复杂的数据之间有哪些异同。近日,美国密歇根大学官网发布消息称,该校研究人员开发了一种能够从不同数据集中提取可识别、可解释的数据共有和独有特征的统计工具,即个性化主成分分析(personalized PCA)。
研究人员提到,利用低秩表示(low-rank representation)学习技术,个性化主成分分析方法可以识别数据的共有和独有特征,更好地处理来自多个来源的复杂数据。该方法可以用完全联合、分布式的方式实现。也就是说,无需分享不同来源的全部原始数据,只需要在各客户端之间分享具有共有特征的数据。这能够加强对数据隐私的保护,降低数据传输与存储成本。
借助个性化主成分分析,人们可以构建起强大的统计模型,分析彼此间存在很大差异的数据,提取其共有和独有特征,并为下游分析研究提供丰富的信息。
研究人员利用个性化主成分分析分析了1960年至2020年的美国总统竞选电视辩论,从13个不同数据集中有效提取关键主题。这表明,使用这种方法能够辨别历次辩论共有和独有的辩论主题及关键词。
研究人员认为,个性化主成分分析突出了对于相关从业者而言易于解释的线性特征,进一步强化了其在新应用程序中的使用。该统计工具具有良好的统计效果,可为遗传学、图像信号处理乃至大型语言模型等领域的数据分析处理提供助力。
(姚晓丹/编译)
友情链接: 中国社会科学院官方网站 | 中国社会科学网
网站备案号:京公网安备11010502030146号 工信部:京ICP备11013869号
中国社会科学杂志社版权所有 未经允许不得转载使用
总编辑邮箱:zzszbj@126.com 本网联系方式:010-85886809 地址:北京市朝阳区光华路15号院1号楼11-12层 邮编:100026
>