【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...

SUNSHINEhzl · 发表于 2023-2-6 14:54:54

今日科技前沿

AI技术从头开始生成原始蛋白质
互联网媒体的真实与谎言，哪个传播性更广
我国成为世界上第三个具备量子计算机整机交付能力的国家

1. AI技术从头开始生成原始蛋白质

论文地址：https://arxiv.org/abs/2206.13517

用蛋白质序列来训练的注意力模型，在人工智能驱动的蛋白质设计相关的分类和生成任务中取得了巨大成功。然而对大模型以及海量数据如何在蛋白质设计与生成中发挥有效的作用，依然缺乏了解。
我们介绍了一套名为 ProGen2 的蛋白质语言模型，模型可扩展到 6.4B 参数，并在从基因组、宏基因组和免疫库数据库中提取的超过 10 亿种蛋白质的不同序列数据集上进行训练。
ProGen2 模型在捕获观察到的进化序列的分布、生成新的可行序列以及预测蛋白质适应性方面表现出最先进的性能，无需额外的微调。随着大型模型和原始数量的蛋白质序列继续变得更广泛，我们的结果表明需要越来越重视提供给蛋白质序列模型的数据分布。
我们在 https://github.com/salesforce/progen 发布了 ProGen2 模型和代码。

Attention-based models trained on protein sequences have demonstrated incredible success at classification and generation tasks relevant for artificial intelligencedriven protein design. However, we lack a sufficient understanding of how very large-scale models and data play a role in effective protein model development. We introduce a suite of protein language models, named ProGen2, that are scaled up to 6.4B parameters and trained on different sequence datasets drawn from over a billion proteins from genomic, metagenomic, and immune repertoire databases. ProGen2 models show state-of-the-art performance in capturing the distribution of observed evolutionary sequences, generating novel viable sequences, and predicting protein fitness without additional finetuning. As large model sizes and raw numbers of protein sequences continue to become more widely accessible, our results suggest that a growing emphasis needs to be placed on the data distribution provided to a protein sequence model. We release the ProGen2 models and code at https://github.com/salesforce/progen.

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...984 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...164 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...978 / 作者:SUNSHINEhzl / 帖子ID:109233

该实验表明，自然语言处理虽然是为了阅读和编写语言文本而开发的，但它至少可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen2的AI程序，该程序使用 next-token 预测将氨基酸序列组装成人造蛋白质。
科学家们表示，这项新技术可能会比获得诺贝尔奖的蛋白质设计技术定向进化更强大，它将通过加速新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力，这些蛋白质几乎可用于从治疗到降解塑料的任何东西。
“人工设计比受进化过程启发的设计表现要好得多，”加州大学旧金山分校药学院生物工程和治疗科学教授James Fraser博士说
论文作者在Github上给出了完整的本地部署流程，感兴趣的同学可以去试试~
# code
git clone https://github.com/salesforce/progen
cd progen/progen2

# checkpoint
model=progen2-large
wget -P checkpoints/${model} https://storage.googleapis.com/sfr-progen-research/checkpoints/${model}.tar.gz
tar -xvf checkpoints/${model}/${model}.tar.gz -C checkpoints/${model}/

# venv
python3.8 -m venv .venv
source .venv/bin/activate
pip3 install --upgrade pip setuptools
pip3 install -r requirements.txt

# sample
python3 sample.py --model ${model} --t 0.8 --p 0.9 --max-length 1024 --num-samples 2 --context &#34;1&#34;

# log-likelihood (GenBank: TMF32756.1)
python3 likelihood.py --model ${model} --context &#34;1MGHGVSRPPVVTLRPAVLDDCPVLWRWRNDPETRQASVDEREIPVDTHTRWFEETLKRFDRKLFIVSADGVDAGMVRLDIQDRDAAVSVNIAPEWRGRGVGPRALGCLSREAFGPLALLRMSAVVKRENAASRIAFERAGFTVVDTGGPLLHSSKARLHVVAAIQARMGSTRLPGKVLVSIAGRPTIQRIAERLAVCQELDAVAVSTSVENRDDAIADLAAHLGLVCVRGSETDLIERLGRTAARTGADALVRITADCPLVDPALVDRVVGVWRRSAGRLEYVSNVFPPTFPDGLDVEVLSRTVLERLDREVSDPFFRESLTAYVREHPAAFEIANVEHPEDLSRLRWTMDYPEDLAFVEAVYRRLGNQGEIFGMDDLLRLLEWSPELRDLNRCREDVTVERGIRGTGYHAALRARGQAP2&#34;<hr/>2. 互联网媒体的真实与谎言，哪个传播性更广

一项新的研究发现，在社交媒体网站Reddit上，被标记为真实的新闻文章比被标记为假的新闻文章更受欢迎，并获得更多的反应。
这项研究与2018年对Twitter用户的广泛报道的研究结果相悖，该研究发现假故事比真实故事更受欢迎，传播更快。
新研究的作者认为，Twitter研究的结果不适用于所有社交媒体平台，并警告不要假定所有社交媒体平台具有相同的行为。
Reddit的结构不同于Twitter，有明确的规则和版主，这可能是为什么用户更倾向于在Reddit上与真实信息互动的原因。

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...104 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...104 / 作者:SUNSHINEhzl / 帖子ID:109233

这篇文章研究了在 Reddit 上分享的核实事实的帖子的参与情况。从2016年到2018年，使用三个核实机构，将讨论的帖子的真实性分为真实、混合和虚假。研究发现，不管真实性如何，核实事实的帖子都有更多和更长的讨论。在被核实的帖子中，被评为虚假的帖子的讨论比被评为真实的帖子少，持续时间也更短。研究还发现，评价为虚假的帖子的核实通常比评价为真实的帖子的核实更快。最后，研究发现，帖子的删除和移除与核实事实的存在和核实的真实性有关，但是当删除和移除结合在一起时，差异很小。本文讨论了研究结果的理论和实际意义。

<hr/>3. 我国成为世界上第三个具备量子计算机整机交付能力的国家

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...215 / 作者:SUNSHINEhzl / 帖子ID:109233

本源量子是中国第一家量子计算公司，其在2020年已上线国内首台国产超导量子计算机本源悟源，并通过云平台面向全球用户提供量子计算服务；在2022年发布了国内首个量子计算机和超级计算机协同计算系统解决方案，该方案可以双向发挥量子计算机和超级计算机的优势。

1 月 31 日，据本源量子消息，在安徽合肥，中国国内首条量子芯片生产线已经上线。我国自研的最新量子计算机“悟空”即将在这里面世，正在紧锣密鼓地生产量子芯片。
据公开报道，该量子计算机的成功交付使我国成为世界上第三个具备量子计算机整机交付能力的国家， 这是我国继实现“量子优越性”之后，又一次牢固确立在国际量子计算研究领域的领先地位。
之后的发展，根据本源量子官网技术路线图表明，到 2025 年，本源量子将突破 1000 位量子比特，达到 1024 位量子比特，并将运用量子计算尝试在不同行业领域解决对应的问题，研制出行业领域的专用量子计算机。

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...374 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...374 / 作者:SUNSHINEhzl / 帖子ID:109233

<hr/>一些小科普：

量子计算机是什么：

量子计算机是利用量子力学来进行运算的计算机。与使用二进制数字（比特）来表示数据的经典计算机不同，量子计算机使用量子比特（qubit）。qubit 可以同时处于多个状态，这使得量子计算机能够比经典计算机快得多地执行某些计算。
量子计算是一个多学科领域，涵盖计算机科学、物理学和数学的各个方面，它利用量子力学，可以比传统计算机更快地解决复杂问题。量子计算领域包括硬件研究和应用程序开发。通过利用量子力学效应，例如叠加和量子干涉，量子计算机能够比传统计算机更快地解决某些类型的问题。量子计算机可以提供此类速度提升的一些应用领域包括机器学习（ML）、物理系统的优化和模拟。最终的使用场景可能是金融领域的投资组合优化或化学系统的模拟，以及解决目前即使是市面上最强大的超级计算机也无法处理的问题。

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...660 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...660 / 作者:SUNSHINEhzl / 帖子ID:109233

量子计算机与经典计算机的一个主要区别是，量子计算机可以利用量子力学的重叠和纠缠原理同时执行某些类型的计算，而经典计算机必须按顺序执行计算。另一个区别是，量子计算机可以利用量子干涉快速搜索大型数据库，而经典计算机不能。
总的来说，量子计算机有可能彻底改变我们解决某些计算问题的方式，但它目前仍处于发展的初期，并存在局限性。在广泛用于实际应用之前需要克服一些技术挑战。这些挑战包括维持量子态的稳定性、降低量子运算的错误率以及开发能够有效利用量子资源的算法。
量子计算机的通用性：

量子计算机并不普遍适用于所有计算问题。他们擅长解决经典计算机难以解决的特定类型的问题，例如模拟量子系统、搜索大型数据库和分解大数。
然而，并不是所有的计算问题都能被量子计算机有效地解决。一些对于经典计算机来说很容易的问题，例如对数据进行排序或评估简单的数学表达式，对于量子计算机来说仍然很困难。
一般来说，量子计算机最适合解决可以利用量子力学独特性质的问题，例如叠加和纠缠，而经典计算机更适合解决不需要这些性质的问题。
量子计算机的安全性

量子计算机有可能对包括银行系统在内的许多重要系统的安全性产生重大影响。这是因为量子计算机可以快速分解大数，这是许多常用加密算法（如RSA加密）中使用的关键操作。
如果量子计算机变得足够强大（大于512比特左右），它们可能会破坏用于保护敏感信息的加密，例如金融交易、个人数据和机密通信。这可能会导致重大的安全风险，因为攻击者可以访问敏感信息并将其用于恶意目的。

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...968 / 作者:SUNSHINEhzl / 帖子ID:109233

【科技前沿】我国成为世界上第三个具备量子计算机整机交付 ...968 / 作者:SUNSHINEhzl / 帖子ID:109233

<hr/>今天的内容就到这里结束啦
感兴趣的不妨点个关注
日后默子会持续更新哒
后天见~
参考资料：

True stories can win out on social media, study finds (phys.org)
Engagement with fact-checked posts on Reddit | PNAS Nexus | Oxford Academic (oup.com)
量子计算机 - 维基百科，自由的百科全书 (wikipedia.org)
IBM将其量子计算机的性能提高了一倍 | 雷峰网 (leiphone.com)

		自动登录	找回密码
密码			注册会员