阿里灵杰

其他

【ACL2024】基于动态辅助融合的大模型序列编辑

注意力流将每个输入的序列中的token之间进行交互建模,使得每个token的交互能够更加的充分,输入的语义表示是经过该输入序列之间的语义建模后的表示。inter-editing
8月20日 上午 8:00
其他

【ACL2024】基于长尾检索知识增强的大语言模型

近日,阿里云人工智能平台PAI与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《On
8月19日 上午 8:00
其他

【ACL2024】面向Stable Station的交互式多轮Prompt生成模型DiffChat

近日,阿里云人工智能平台PAI与华南理工大学金连文教授团队合作,在自然语言处理顶级会议
8月16日 上午 8:00
其他

【7月重点功能发布】阿里云大数据+ AI 一体化平台

计算成本优化功能在中国香港、新加坡等4个地域发布计算成本优化功能在中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)地域发布。3.新功能/规格
8月12日 上午 9:57
其他

【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024

近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。论文简述PAI-Diffusion中文开源文图生成模型系列及云上推理服务在过去几年中,Stable
8月11日 上午 8:00
其他

飞天发布时刻:大数据AI平台产品升级发布

阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。01大数据
8月8日 上午 8:00
其他

阿里云 EMR StarRocks VS 开源版本功能差异介绍

StarRocks。对于用户来说,节省了成本,在后期的技术当中也能做得更为统一。本案例中的客户还希望实现对用户行为进行分析、监控、报警、用户画像的功能,该用户也就是期望所有
7月18日 上午 8:02
其他

阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态

Scikit-learn)在数据科学领域内提供了强大的支持,但这些工具往往受限于单机或单核计算能力,难以满足分布式大数据处理的需求。为满足用户在
7月17日 上午 8:01
其他

阿里云人工智能平台PAI论文入选OSDI '24

近日,阿里云人工智能平台PAI的论文《Llumnix:
7月11日 上午 9:30
其他

【6月重点功能发布】阿里云大数据+ AI 一体化平台

/更多推荐阿里云大数据计算&人工智能推出免费试用活动,其中包含Maxcompute、Hologres、实时计算Flink版、人工智能平台
7月10日 上午 8:00
其他

森马基于MaxCompute+Hologres+DataWorks构建数据中台

在上面去使用Spark的计算能力,然后将数据的ADS层,或者说数仓的一些模型层,放到click
7月1日 上午 8:00
其他

一站式实时数仓Hologres整体能力介绍

3。37手游原有大数据平台全套使用开源flink+Presto+HBase+Clickhouse的架构。主要具有如下痛点,原有的ETL链路非常复杂;开源flink缺乏schema
6月20日 上午 8:00
其他

基于EasyAnimate模型的视频生成最佳实践

EasyAnimate是阿里云PAI平台自主研发的DiT的视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。本文为您介绍如何在PAI平台集成EasyAnimate并一键完成模型推理、微调及部署的实践流程。01背景信息本文为您介绍以下两种视频生成的方式:方式一:使用DSWDSW是为算法开发者量身打造的一站式AI开发平台,集成了JupyterLab、WebIDE、Terminal多种云端开发环境,其中,Gallery提供了丰富的案例和解决方案,帮助您快速熟悉研发流程。您可以打开DSW
6月19日 上午 8:01
自由知乎 自由微博
其他

阿里云PAI大模型评测最佳实践

作者:施晨、之用、南茵、求伯、一耘、临在01背景信息内容简介在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速AI创新和应用落地。因此,建立一套平台化的大模型评测最佳实践愈发重要。本文为PAI大模型评测最佳实践,旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践,您可以轻松构建出既能反映模型真实性能,又能满足行业特定需求的评测过程,助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容:·如何准备和选择评测数据集·如何选择适合业务的开源或微调后模型·如何创建评测任务并选择合适的评价指标·如何在单任务或多任务场景下解读评测结果平台亮点PAI大模型评测平台,适合您针对不同的大模型评测场景,进行模型效果对比。例如:·不同基础模型对比:Qwen2-7B-Instructvs.
6月19日 上午 8:01
其他

【CVPR2024】面向StableDiffusion的编辑算法FreePromptEditing,提升图像编辑效果

无需引入源提示的交叉注意力图;2)自注意力图包含源图像的空间布局和形状细节,自注意力机制允许将结构信息从源图像注入到生成的目标图像中。算法框架及伪代码如下:图4.
6月18日 上午 8:00
其他

【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024

近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。CVPR(计算机视觉与模式识别会议)是计算机视觉和模式识别领域的顶级国际会议,旨在展示最新的研究进展和技术成就,推动这一领域理论与应用的前沿进展,并通过精选提交的高水平学术论文和实践工作,对学术界和工业界产生深远的影响。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。基于文本引导的图像编辑任务允许用户使用简单的文字描述来指导修改一幅图像,无需具备复杂的图像编辑软件或专业知识即可实现编辑效果。用户可以通过输入文本对图像进行涉及颜色变更、物体添加或去除、风格转换等多种编辑的操作。这种交互式的编辑方式大大降低了图像编辑的门槛,使得创意表达更加便捷和个性化。目前的一些先进图像编辑方法,例如Prompt-to-Prompt(P2P),通过替换与目标编辑术语相对应的源提示中的交叉注意力图来改变图像的特定区域。而Plug-and-Play(PnP)策略则是先从注意力层提取原始图像的空间特征和自注意力,再将它们注入到目标图像的生成过程中。在这些技术中,注意力层对于控制图像布局以及确立输入提示与生成图像之间的关联起着至关重要的作用。但是,对注意力层的不恰当调整可能会带来意外的编辑结果或者编辑失败。例如,在交叉注意力层进行编辑时,真实图像可能因此而失去预期效果,如尝试将人类编辑成机器人或将汽车颜色变更为红色的编辑尝试可能不会成功。图1:图像编辑的失败案例以及我们提出的方法成功编辑的结果在我们的研究中,我们介绍了一种名为Free-Prompt-Editing(FPE)的简洁而高效的算法。FPE通过在去噪阶段替换指定注意力层的自注意力图进行图像编辑,这一过程中解放了需要源提示的限制,这对实际的真实图像编辑场景极有价值。总体来说,我们的研究促进了对稳定扩散(Stable
6月17日 上午 8:00
其他

通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践

Qwen2(通义千问2)是阿里云最近推出的开源大型语言模型系列,相比2月推出的Qwen1.5,Qwen2实现了整体性能的代际飞跃,大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中,Qwen2系列包含5个尺寸的预训练和指令微调模型,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中,Qwen2-57B-A14B为混合专家模型(MoE)。Qwen2所有尺寸模型都使用了GQA(分组查询注意力)机制,以便让用户体验到GQA带来的推理加速和显存占用降低的优势。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen2模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen2系列模型的微调、评测和快速部署。PAI-QuickStart
6月14日 上午 8:00
其他

【5月重点功能发布】阿里云大数据+ AI 一体化平台

/更多推荐阿里云大数据计算&人工智能推出免费试用活动,其中包含Maxcompute、Hologres、实时计算Flink版、人工智能平台
6月13日 上午 8:01
其他

实时数仓Hologres V2.2发布,Serverless Computing降本20%

提升100%实时湖仓加速架构升级,支持Paimon,直读ORC、Parquet数据性能提升5倍以上新增实例监控指标,可观测性全面提升,新增SQL指纹、Query洞察、SQL
6月12日 上午 8:00
其他

视频生成框架EasyAnimate正式开源!

VAE,用于解决MagViT在面对长、大视频时编解码上的显存困难,同时相比于MagViT在视频编解码阶段进行了时间维度更大的压缩。我们将在下面的部分对所使用的视频VAE,视频Diffusuion
6月4日 上午 8:00
其他

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

Spark开发和调度平台使用的内置变量,代表业务日期(T-1)。比如在2024年5月21日运行的SQL任务,业务时间是指前一天,${ds}=2024-05-20(在这里无需手动替换
6月3日 上午 8:01
其他

[ICDE2024]多正常模式感知的频域异常检测算法MACE

Convolution机制对短期异常进行增强使其更容易被检测到。应用现已将MACE集成到飞天大数据AI管控平台ABM的异常检测算法服务中,辅助大数据平台进行异常的及时发现。论文标题:Learning
5月31日 上午 8:00
其他

[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

郭晨娟论文链接:https://openreview.net/forum?id=lJkOCMP2aW&noteId=oPHVNbGopY/
5月30日 上午 8:00
其他

[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP

开篇近日,由阿里云计算平台大数据基础工程技术团队主导,与南京大学、宾夕法尼亚州立大学、清华大学等高校合作,解释时间序列预测模型的论文《Explaining
5月29日 上午 8:00
其他

阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!

推出分布式训练资源预估、自动弹性训练、资源/计算图监控、自动备份容错等功能,有效降低了大规模稀疏模型训练的技术门槛和成本,同时提升了分布式训练的效率和稳定性。DeepRec
5月23日 上午 8:00
其他

阿里云 EMR Serverless Spark 版开启免费公测

版还内嵌了先进的版本管理系统,并提供了开发与生产环境的完全隔离,确保符合企业级用户在研发和发布流程方面的严格要求。这些特性共同保障了数据处理的可靠性和效率,同时满足企业级应用的高标准要求。
5月23日 上午 8:00
其他

OpenSearch LLM智能问答版全新升级

LLM智能问答版是OpenSearch推出的一站式开箱即用的检索增强生成(RAG)云产品,帮助开发者快速构建多模态对话式搜索服务。自2023年6月上线以来,OpenSearch
5月16日 上午 8:01
其他

【4月重点功能发布】阿里云大数据+ AI 一体化平台

Paimon等多种数据湖上的数据,并涵盖OSS、OSS-HDFS、HDFS等平台,无需数据迁移即可实现快速的数据湖查询分析,且其性能比Presto高出3到5倍。本文以创建Hive
5月15日 上午 8:00
其他

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统

PAI控制台。https://c.tb.cn/F3.bTLLdz在左上角顶部菜单栏选择目标地域。在左侧导航栏选择模型部署>模型在线服务(EAS),在下拉框中选择目标工作空间后单击进入EAS。在
5月11日 上午 8:01
其他

Hologres RoaringBitmap在Lazada选品平台的最佳实践

System.currentTimeMillis();rbAnd1.andNot(rbAnd2);System.out.println("roaringBitmap
5月9日 上午 8:01
其他

大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW

近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。论文成果是阿里云与华东师范大学、浙江大学、南京大学等高校共同研发,涉及时间序列与智能运维结合的多个应用场景。包括基于Pathways架构的自适应多尺度时间序列预测模型Pathformer;基于扰动技术的时间序列解释框架ContraLSP;多正常模式感知的频域异常检测算法MACE;轻量数据依赖的异常检测重训练方法LARA。此次,时间序列相关模型等多篇论文的入选,表明阿里云在大数据基础技术领域的研究得到了国际学术界的认可,不仅展示了阿里云的技术竞争力,也创造了更多国际合作交流的可能性。ICLR(International
5月7日 上午 8:02
其他

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

Port。您可以在Milvus实例的实例详情页面查看。默认为19530。USER配置为创建Milvus实例时,您自定义的用户。PASSWORD配置为创建Milvus实例时,您自定义用户的密码。在
4月18日 上午 8:01
其他

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

随着当前数据处理业务场景日趋复杂,对于大数据处理平台基础架构的能力要求也越来越高,既要求数据湖的大存储能力,也要求具备海量数据高效批处理能力,同时还可能对延时敏感的近实时链路有强需求,本文主要介基于
4月16日 上午 8:00
其他

AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!

资源包参与活动。活动介绍【活动时间】:4月1日-4月26日【活动任务】:跟着UP主”秋葉aaaki“使用PAI-EAS一键部署基于ComfyUI和Stable
4月10日 上午 8:00
其他

【3月重点功能发布】阿里云大数据+ AI 一体化平台

MaxCompute产品在华北6(乌兰察布)正式开服MaxCompute产品新增开通华北6(乌兰察布),提供企业级Serverless智能数仓服务,可以在控制台上按需求开通。
4月9日 上午 8:00
其他

阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态

MaxFramehttps://help.aliyun.com/zh/maxcompute/user-guide/preparations-1?开通
4月8日 上午 8:00
其他

阿里云向量检索 Milvus 版开启公测,助力企业打造高质量 AI 服务

可高效索引和检索不同类型的数据,如:图片、视频、声纹、办公文档和一些半结构化文档,支持快速精准地跨媒体类型进行信息检索,并提供强大的扩展性和灵活的接口。智能问答&大模型Milvus
3月29日 上午 8:00
其他

TorchAcc:基于 TorchXLA 的分布式训练框架

Scheduler:引入了显存感知的权重更新调度器,它会根据梯度产生的时机、使用的优化器类型以及当前显存资源状况,选择合适的权重更新时间点,避免即时更新加重显存压力,特别是对于复杂的优化器如
3月25日 上午 8:00
其他

AI大模型运维开发探索第三篇:深入浅出运维智能体

大模型出现伊始,我们就在SREWorks开源社区征集相关的实验案例。玦离同学提供了面向大数据HDFS集群的智能体案例,非常好地完成了运维诊断的目标。于是基于这一系列的实验和探索,就有了本篇文章。读者思路:介绍什么是智能体基于智能体的运维诊断工程框架HDFS集群智能体诊断实战智能体工程框架进阶思路01初识智能体智能体是什么当前在大模型的推理应用场景,有RAG(Retrieval-Augmented
3月22日 上午 8:01
其他

【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法

01文章介绍文档版面分析任务是文档智能的一个关键任务。然而,现有的很多文档版面分析研究方法都基于通用目标检测方法,忽视了文档的文本特征而仅仅只关注于视觉特征。近年来,基于预训练的文档智能模型在很多文档下游任务中都取得了成功,然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此,本文设计了可插拔的多模态融合方法M2Doc,可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块,Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征,Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构,它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升,值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。02出发点版面分析任务与目标检测任务最大的不同在于它们面向的场景不同,版面分析任务的检测目标大多都是文本区域,也即天然就具有视觉和文本两个属性,故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。版面分析任务的多数实例都具有语义的连接关系,例如存在上下文联系的两个实例大概率属于同一个类别,故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。现有的文档版面分析方法大多都是基于通用目标检测器改进的,它们在相对简单的物理版面分析数据集上能取得不错的成绩,但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少,且也存在效果不好参数量过大等问题。基于上述三点,本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc,从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。03M2Doc框架M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段:文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的,可以轻松应用到其他的单模态目标检测器中。(1)文本Grid表征阶段:给定一张文档的图片,文档图片中包含多个单词,我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示,我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框,将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致,只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式,同时又使得两种模态的输入能够在像素级别上对齐,方便后面的特征融合。(2)特征提取阶段:因为在前面我们提到两种模态的输入其实在像素级别上是对齐的,于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络,经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。(3)Early-Fusion阶段:在传统的单模态网络中,主干网络提取出的特征需要被用来生成候选框,以及作为候选框的视觉特征表达,所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法,使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后,考虑到在第一个阶段中没有文本的地方表征为0,于是我们使用LayerNorm去归一化融合后的特征。(4)Late-Fusion阶段:我们把第一次融合后的特征送入到候选框生成模块之后,得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。04实验a)
3月20日 上午 8:01
其他

阿里云 EMR Serverless Spark 版免费邀测中

元数据,全面打通湖仓元数据。一站式的开发体验:提供作业开发、调试、发布、调度等一站式数据开发体验;内置版本管理、开发与生产隔离,满足企业级开发与发布标准。Serverless
3月20日 上午 8:01
其他

eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案

01欲穷千里目,更上一层楼在上一篇文章《eBPF动手实践系列二:构建基于纯C语言的eBPF项目》中,我们初步实现了脱离内核源码进行纯C语言eBPF项目的构建。libbpf库在早期和内核源码结合的比较紧密,如今的libbpf库更加成熟,已经完全脱离内核源码独立发展。为了更加具体的理解linux内核版本演进和libbpf版本演进的关系,本文在“附录A”中总结了各个内核版本源码示例中所依赖的libbpf库的对应版本信息。大部分版本的内核获取libbpf版本的方法如下,从libbpf库目录的libbpf.map文件中提取最大的版本号信息。这里的"source"为内核源码所在目录。$
3月18日 上午 9:45
其他

【AAAI 2024】MuLTI:高效视频与语言理解

Modeling(MCM),这是一种新的预训练任务,提高了模型对视频问答题的敏感性。具体来说,它的结构如下,这是一个四选择题。"[CLS]
3月18日 上午 9:45
其他

【AAAI 2024】解锁深度表格学习(Deep Tabular Learning)的关键:算术特征交互

Learning》正式在国际人工智能顶会AAAI-2024上发表。本项工作聚焦于深度表格学习中的一个核心问题:在处理结构化表格数据(tabular
3月15日 上午 8:00
其他

阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。https://huggingface.co/spaces/mteb/leaderboard01混合检索Embedding模型随着RAG技术的广泛应用,其中关键检索链路中的Dense
3月13日 上午 8:00
其他

【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选

FSCIL)是机器学习领域中一项极具挑战的任务,目标在于仅利用有限数据学习新类别,同时保留对已学类别的记忆,无需重新训练模型。针对此难题,本文提出了一种创新策略,称为多重混合自蒸馏(Multiple
3月12日 上午 8:00
其他

【2月重点功能发布】阿里云大数据+ AI 一体化平台

QuickStart在国际站发布快速开始(QuickStart)开通对新加坡地域的支持,您在该地域可以开始使用QuickStart产品。实时数仓
3月11日 上午 8:01
其他

"使用PAI实现涂鸦变大作"AIGC活动重磅来袭!

Turbo完成AI画画功能,轻松实现随手涂鸦变精美画作,人人都可当AI画家!诚邀AIGCer参与挑战,沉浸式体验云上绘画AIGC创新之旅。制作上传专属美画,即有机会抽取Powerbeats
3月8日 上午 8:01
其他

友盟+Hologres:千亿级多维分析平台建设实践

为开发者提供基础报表及自定义用户行为分析服务,能够帮助开发者更好地理解用户需求,优化产品功能,提升用户体验,助力业务增长。为了满足产品、运营等多业务角色对数据不同视角的分析需求,统计分析
3月1日 上午 8:00
其他

通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践

作者:汪诚愚(熊兮)、高一鸿(子洪)、黄俊(临在)Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。此外,该系列模型还包括了Base和Chat等多个版本的开源模型,为全球的开发者社区提供了空前的便捷性。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。01Qwen1.5系列模型介绍通义千问1.5在先前发布1.0版本模型的基础上进行了大幅更新,主要体现在如下三个方面:多语言能力提升:Qwen1.5在多语言处理能力上进行了显著优化,支持更广泛的语言类型和更复杂的语言场景。人类偏好对齐:通过采用直接策略优化(DPO)和近端策略优化(PPO)等技术,增强了模型与人类偏好的对齐度。长序列支持:所有规模的Qwen1.5模型均支持高达32768个tokens的上下文长度,大幅提升了处理长文本的能力。在性能评测方面,Qwen1.5在多项基准测试中均展现出优异的性能。无论是在语言理解、代码生成、推理能力,还是在多语言处理和人类偏好对齐等方面,Qwen1.5系列模型均表现出了强大的竞争力。02PAI-QuickStart
2月29日 上午 8:00