科学界正在被人工智能改变

作者:北京诚信汇发物流有限公司  来源:www.cxhfwL.com  发布时间:2019-02-25 11:19:51
科学界正在被人工智能改变
  AI早期试验场:寻找新粒子  正如「神经网络」一词能让公众展开无尽遐想,粒子物理学家们从上个世纪 80 年代就开始捣鼓人工智能。由于几乎每项试验都是在复杂粒子检测器的无数高度相似数据中发现微度空间的模式— — 这正是 AI 所擅长的,所以人工智能和机器学习自然而然地适用于粒子物理学领域。「我们花了许多年的时间来让人们相信这一切不是魔术,不是变戏法,也不是黑箱操作。」说这话的是Boaz Klima,伊利诺伊州巴尔迪莫费米国家加速器实验室( Fermilab )首批使用该技术的物理学家之一。  为了解宇宙的奥秘,粒子物理学家们需要粉碎亚原子粒子,同时用巨大的力量炸出新的异常物质(物理学中,异常物质指的是与普通物质不同,具有奇异特性的物质的统称)。比如,在 2012 年,科学家使用世界上最大的质子对撞机(瑞士的大型强子对撞机( LHC ))发现了传说中的希格斯玻色子。这颗稍纵即逝的粒子正是物理学家们解释其他所有基本粒子如何获得其质量的关键。
  然而,这种异常物质很难定性。在 LHC 中,大约每 10 亿个质子碰撞中才会出现一个希格斯玻色子,而且在十亿分之一皮秒内,它会衰变成其他颗粒,比如一对光子或被称为μ子的四分之一粒子。为了「重建」一个希格斯玻色子,物理学家们必须发现所有更常见的粒子,看其是否能与来自同一种父辈物质一致的方式相配合——在典型的碰撞过程中, 大量不相关的粒子群使这项工作变得更加困难。  费米实验室的物理学家 Pushpalatha Bhat 说,神经网络算法优于直接从原始数据中筛选信息。在粒子检测器中——这通常是一个由各种传感器组成的巨大的桶状结构——光子通常在被称为电磁热量计的子系统中产生粒子喷雾。虽然电子和粒子都被称为强子,但它们的簇与光子还是有细微的差异。机器学习算法可以通过探测这类簇的多个变量之间的相关性来辨别差异,同时也可以帮助区分源自任意一对由希格斯衰变后产生光子。「这就好比大海捞针,」Bhat说,「所以从数据中提取最多的信息非常重要。」  机器学习尚未攻克这一领域。物理学家们仍主要靠对隐含物理学的理解来找出与新粒子相关的数据。但 AI 很可能变得愈来愈重要,加州伯克利劳伦斯伯克利国家实验室的计算机科学家 Paolo Calafiura 说。2024 年,研究人员计划升级 LHC 以将碰撞率提高10 倍。Calafiura 说,在这一点上,机器学习对于能否跟上数据大潮至关重要。  算法如何分析大众情绪  社交媒体每年数以十亿计的用户以及数以千亿计的推特和帖子为社会科学带来海量数据。心理学家 Martin Seligman 认识到这也为利用人工智能研究大众传播的走向提供了前所未有的机会。在宾夕法尼亚大学正面心理学中心进行的世界福祉项目( World Well-Being Project )中,他与 20 多位心理学家,医生和计算机科学家使用机器学习和自然语言处理方法来筛选数据,以检测公众身心健康状况。  这通常是由调查问卷来完成的。但是,社交媒体数据 「不起眼,价格便宜,而且数量级更大」,Seligman 说。 这些数据当然首先需要大量预处理,但 AI 同时也提供了强大的可视化工具。  在最近的一项研究中,Seligman 和他的同事们对 29,000 位参与了抑郁自我评估的脸书用户的日常更新进行了跟踪。 使用其中的 28,000 个用户的数据,机器学习算法发现了更新所用的词汇与抑郁水平之间的联系。然后可以根据其更新内容成功预测其他用户的抑郁情况。  在另一项研究中,小组成员通过分析 1 亿 4890 条推特来预测郡县的心脏病死亡率。与愤怒和负面关系有关的字眼被归为危险诱因。由社交媒体信息推测出来的数据较传统印象中的所谓十大关键诱因,比如吸烟和糖尿病,更接近真实的死亡率。通过社交媒体信息,研究人员还可预测出人格,收入,政治倾向;同时还研究医疗护理,过往经历以及定向模式。通过推特数据,该团队甚至根据幸福指数,抑郁程度,信任度和五种人格特质,创建了一张美国郡县地图。  「语言与心理学的交叉分析注定会有一场革命。」德州大学奥斯丁分校的社会心理学家 James Pennebaker 说,他关注的重点不是内容而是行文风格。比如,通过观察大学申请书中使用的功能词可以预测成绩。冠词和介词代表了辩证思维和更高的分数;代词和副词则代表叙事思维和较低的分数。而据传那部 1782 年的戏剧「将错就错」( Double Falsehood )大部分为莎翁所著,Pennebaker 也找到了相关的佐证:机器学习算法通过诸如对认知复杂度和罕见词等要素将其与莎翁其他作品进行匹配。「现在我们可以对你之前发布和撰写过的所有内容进行分析。」Pennebaker说,结果就是,「越来越多的图片拼凑出一个原本的你。」  梳拢自闭症基因  对于基因学家来说,自闭症是一项恼人的挑战。遗传图谱表明它具有很强的先天性遗传因素。但已知的在自闭症中发挥一定作用的数十种基因的变体只能解释约 20% 的病例的病因。在其他 25,000 种人类基因和相关DNA数据中找到其他的变体或许可以对完整解释自闭症有一定帮助。所以普林斯顿大学计算生物学家 Olga Troyanskaya 和纽约西蒙斯基金会( Simons Foundation in New York City )也拿起了人工智能的武器。纽约基因组中心创始人兼洛克菲勒大学临床医学科学家罗伯特·达内尔解释说:「我们只能做到像生物学家那样,发现类似自闭症这样的疾病到底隐藏着什么秘密。一台机器可以搜索成兆问题的同时一个科学家只能找出 10 个。这完全改变了游戏规则。」  Troyanskaya 收集了上百个数据集,其中包括特殊人体细胞内活跃基因的数据,蛋白质如何相互作用以及转录因子与其他关键基因组特征结合点位于何处的数据。然后她的小组利用机器学习构建了一个基因相互作用图谱,并把少部分已知的能够促成自闭症的高危基因与其他数以千计的基因进行比较,找出其中的相似度。他们在去年的自然神经科学杂志( Nature Neuroscience )上发布了 2500 个可能与自闭症有关的基因。
  但是基因学家们近期才意识到,基因并不是孤立的。它们的行为是由数百万附近的非编码基因联合造成的,而且与 DNA 结合蛋白以及其他因素相互作用。识别哪些非编码变体可能影响附近的自闭症基因是比找到病变基因本身更难的问题,特洛伊斯卡亚所在实验室的研究生 Jian Zhou 正在试图用 AI 解决这个问题。  为训练深度学习系统,周将该系统运用于从 Encyclopedia of DNA Elements, Roadmap Epigenomics 收集到的数据。这两个项目列出了成千上万个非编码 DNA 如何影响邻近基因的点位。该系统学习了应该抓住哪些特征,因其预估了未编码 DNA 的潜在活动。  在周和特洛伊斯卡亚在 2015 年 10 月的《自然》杂志上发表了他们的 DeepSEA 研究之后,加州大学艾尔文分校的计算机科学家 Xiaohui Xie 盛赞这是「应用深度学习迈向基因组工程的里程碑」。现在,普林斯顿的团队正通过 DeepSEA 运行自闭症患者的基因组,对非编码基因的影响进行排序。  Xie 也准备将 AI 应用于基因组,而且相较自闭症侧重更广。 他希望通过研究任一基因演变为有害基因的或然性来对基因突变进行分类。但他认识到,在基因组学中,深度学习系统只能在其训练的数据集上表现得很好。他说:「人们怀疑这样的系统是否能可靠地解析基因组。但我认为,越来越多的人会接受深度学习。」  通达天意的机器  今年 4 月,天体物理学家凯文·沙文斯基( Michael Schawinski )在 Twitter 上发了几张模糊的星系图片,并问有没有同仁能帮他区分出这四个星系。同事们说,这些图像看起来很像与银河类似的椭圆螺旋星系。   费米实验室的天文物理学家布莱恩·诺德( Brian Nord )说,Schawinski 的方法是机器学习用于天文学中的特别前卫的例子,但绝不是唯一一个。在 1 月份的美国天文学会会议上,诺德提出了一种机器学习方法来追踪强引力透镜:当遥远星系的图像在传往地球的过程中经历扭曲时空时,形成了天空中罕见的光弧,这些镜头可用于测量宇宙的距离,并发现不可见的超浓缩物质。  强引力透镜在视觉上很独特,难以用简单的数学规则来描述。这使传统的计算机很难抉择,但却容易为人所掌握。Nord 等人意识到,经过数千个镜头训练的神经网络可以获得类似的感知。 在接下来的几个月中,「实际上已经有十几篇论文在使用机器学习来寻找强大的镜头。 大多数匆忙上阵。」Nord 说。  这只是越来越多的天文学认知的一部分。人工智能提供了一种强大的方法在 PB 级数据中查找和分类有趣的对象。 对Schawinski 来说,「我认为这个时代真的会变成一个‘哦,上帝,数据太多了’的时代。」

推荐阅读/观看:模板网站建设 https://www.9543.biz


上一篇:中国联通福建分公司原党委书记、总经理李文林被查(简
下一篇:最后一页