当前位置：网站首页 » 导读 » 内容详情

pretrain新上映_pretrained model(2024年12月抢先看)

内容来源：兔子在线电影所属栏目：导读更新日期：2024-12-02

pretrain

NLP自学指南：Prompt学习详解 𐟓š NLP的发展可以分为四个主要阶段： 1️⃣ 全监督学习（非神经网络） 2️⃣ 全监督学习（神经网络） 3️⃣ Pretrain -> Finetune 4️⃣ Pretrain, Prompt, Predict 𐟔 Finetune与Prompt的性能比较 Finetune：需要为每个下游任务准备整个预训练模型的副本，推理过程需要在单独的批次中执行。 Prompt：只需为每个任务存储一个特定于下游任务的小单元，并使用原始的预先训练过的模型进行混合任务推理。 𐟓Œ Finetune与Prompt的区别 Finetune：特定任务的微调，通过在预训练模型后添加新的参数和特定任务损失函数进行微调。通常会固定前面层的参数，只训练新加的层。 Prompt：通过在预训练模型中加入相关的提示信息，使模型能够适应各种下游任务。

【「腾讯推出Hunyuan-Large大模型」：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型】IT之家 11 月 5 日消息，腾讯今日宣布推出 Hunyuan-Large 大模型，官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 3890 亿总参数（389B）和 520 亿激活参数（52B）。腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册，详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下： 1.高质量合成数据：通过合成数据增强训练，Hunyuan-Large 能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据。 2.KV 缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了 KV 缓存的内存占用和计算开销，提高了推理吞吐。 3.专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献。 4.长上下文处理能力：预训练模型支持高达 256K 的文本序列，Instruct 模型支持 128K 的文本序列，显著提升了长上下文任务的处理能力。 5.广泛的基准测试：在多种语言和任务上进行广泛实验，验证了 Hunyuan-Large 的实际应用效果和安全性。

降低AI模型幻觉的6个实用技巧在过去一年的工作中，我总结了6个降低AI模型幻觉的实用方法，分享给大家： ✨1. 预训练（Pretrain）：通过扩大模型的知识范围，使用更多数据来进行预训练。 ✨2. 微调（SFT）：这里分享两个微调的小技巧： 1）过滤数据：基于回答质量清洗数据，尤其是回答，避免带有幻觉的错误样本进入训练集。 2）反向修改指令：对于过度发散的问题，比如“写一篇作文”，可以根据回答的主题和字数，反向修改指令，使其更契合，例如修改为“写一篇关于感谢母爱的作文，举例子，大约500字”。 ✨3. post-pretrain：对于新增的知识，可以不断加在这个阶段。 ✨4. 本地知识库：将知识存为向量数据库，本质上是RAG（Retrieve Augment Generate）的应用。 ✨5. 搜索增强：选择好的搜索引擎和搜索源，本质也是RAG。 ✨6. Agent思路（工具调用）：对于垂类应用，接入API，例如历史close price、deal amount等指标查询，不应该调用通用搜索引擎，应该接入专业API，比如接入Yahoo Finance API。这些方法可以帮助我们降低AI模型的幻觉，提高模型的准确性和可靠性。希望这些技巧对大家有所帮助！

感知算法工程师的崩溃日常早上7点醒来，不是因为睡够了，也不是因为太阳晒，而是因为担心昨晚要发布的模型有没有正常训练。满脑子都是训练的事，感觉整个人都要疯了。 8点一到，开始了一场思想斗争。挣扎着起床，打开电脑一看，发现数据还是有问题，心里瞬间崩溃。洗漱、做早饭，顺便再把数据提一遍，希望能加速解决。 9点准时出发去公司，一路上感觉整个人都是飘的，完全不在状态。 9点半到公司，先看看要发布的模型在各个车上的可视化效果，结果发现之前实车的问题还是没完全解决。心情更加沉重了。 10点继续搞数据，发现还是加速不上，抓耳挠腮半小时，真是让人抓狂。 10点半开始和标注团队扯皮，差点在工位上吵起来，感觉情绪都要爆炸了。 11点半继续看实车可视化，希望能找到解决办法。 12点随便找家店吃了点午饭，顺便买了杯瑞幸，希望能提提神。 1点半开始写发版报告，整理所有发版需要的代码、模型和可视化。 1点半参加数据闭环追踪会，昨天发现的数据大坑在会上指出来，大家讨论了后续质检规范。 2点半继续整理发版报告，感觉时间紧迫，任务繁重。 3点半和数据平台讨论后续数据加速的问题，还是没能完美解决。 4点半和部署同学同步发版内容，希望能顺利发布。 5点半写数据脚本，最近数据每天增加100k级别，洗数据真的占了大半时间。 6点随便吃口晚饭，顺便下把棋，希望能放松一下。 7点和实习生讨论CVPR，实验进展不顺，论文intro还没写完，希望渺茫。 8点继续看数据可视化，整理反馈问题，协助部署同学做模型转换。 9点整理一下要finetune的实验，并且再起一个pretrain模型。 10点打车回家，感觉整个人都累瘫了。 10点半发现实验没起来，重新跑实验。开始下棋，希望能放松一下。这一天真是压力山大，感觉整个人都要崩溃了。

LLaMA版o1开源，数学大提升！最近，上海AI Lab团队发布了他们的最新成果——LLaMA版o1项目。这个项目的目标是复刻OpenAI的o1推理大模型，并且已经将相关代码开源了。LLaMa版o1采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式，使得模型在数学能力上有了显著的提升。其实，这个项目早在2024年6月就开始了，当时团队就在探索如何通过蒙特卡洛树搜索来提高大模型的数学能力。他们的研究在开发者社区中引起了不小的关注。随着OpenAI o1系列的发布，团队进一步升级了算法，专注于解决数学奥赛问题，作为OpenAI草莓项目的开源版本。到了10月初，团队发布了一篇新论文，介绍了他们使用成对优化的方法来提高Llama模型在数学奥赛中的表现。在AIME2024基准测试中，优化后的LLaMA-3.1-8B-Instruct模型在30道题中做对了8道，超过了除o1-preview和o1-mini之外的其他商业闭源方案。到了10月底，团队宣布他们在复刻OpenAI o1的努力中取得了重大进展。他们成功使模型在学习过程中通过与搜索树交互获得高级思维能力，且无需人工标注。项目在不到一周的时间内就完成了开源。目前，LLaMA版o1已经开源了预训练数据集、预训练模型和强化学习训练代码。OpenLongCoT-Pretrain数据集包含超过10万条长思维链数据，每条数据都包含一个完整的数学问题推理过程，包括思考内容和评分结果。这样的数据集使得模型能够读取和输出类似o1的长思维链过程。尽管预训练代码尚未发布，但推荐使用LLaMaFactory作为替代。在预训练模型的基础上，可以继续进行强化学习训练。训练过程包括使用蒙特卡洛树搜索进行自我对弈、将经验存储在优先经验回放缓冲区中、从缓冲区采样批次数据进行训练以及更新模型参数和经验优先级。训练代码中还使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、GAE算法用于计算优势函数以及优先经验回放提高训练效率等关键技术点。 LLaMA-O1的代码发布在名为SimpleBerry的GitHub账号下，该账号并没有特别简介，显得相当神秘。与SimpleBerry相关的账号和官网只透露其为一个研究实验室，并未透露更多研究方向信息。

放弃pretrain，创业会垮？最近有不少博主在讨论大模型6小龙中的一些公司放弃了pretrain，甚至认为这些创业公司可能很快就会垮掉。然而，我的看法是，对于这些6小龙的创业公司来说，放弃pretrain并不一定是一件坏事。首先，当前的环境下，找到更实际的发展方向才是关键。比如，专注于特定领域的应用，或者探索出可行的商业模式。换句话说，做不做pretrain和创业公司是否能活下去没有直接关系，能否找到业务模式才是关键。相反，那些敢于放弃pretrain并聚焦探索业务模式的创业公司，恰恰可能是那些能够活下来的。它们有勇气也有判断力，毕竟，活着才是创业公司的第一要义。

DPO和PPO的区别与联系，你了解多少？在上一篇文章中，大家对DPO和PPO的区别和联系表现出了浓厚兴趣。随着O1的推出，RLHF似乎有些被边缘化的趋势。今天我想分享一些个人的思考。 𐟌Ÿ 在O1推出后，原本备受推崇的Pretrain -> SFT -> RLHF范式似乎有些过时了。大家都在猜测O1是如何实现的。这篇文章在RLHF逐渐淡出舞台前，总结一下曾经的范式。 𐟌Ÿ RLHF主要分为PPO和DPO，各有优劣。在实际应用DPO的过程中，我隐约感觉到它可能会逐渐演变为PPO。那么，为什么头部玩家选择PPO而不是DPO呢？一些次头部玩家使用DPO的原因又是什么呢？ 𐟓Œ PPO的特点：数据集：采用在线学习方式，逐步收集数据。训练过程：对训练参数敏感，需要仔细调参（这也是头部玩家的核心护城河之一）。 𐟓Œ DPO的特点与实践：数据集：是一种离线方法，提前收集好的人类（AI）偏好数据，进行优化。训练过程：简单高效，适合快速验证。 𐟘蠄PO的缺陷： (a) 训练过程中更偏向于在给定数据集中最大化margin，而不是真正实现价值观对齐。 (b) 仅使用偏好反馈太过单一，我们应该提供更细粒度的反馈。 𐟘Š DPO的解决方案： (a) 避免只使用离线已收集好的数据集，在在线环境下进行fine-tune。 (b) 使用一些数据训练一个reward function，以提供细粒度反馈。 𐟤” 不知道大家有没有发现，DPO到这个时候，已经具备PPO的基本特性了。那么，训练DPO可能还不如直接去训练PPO。这可能是头部玩家选择PPO而不是DPO的原因之一。当然，这只是我的一家之言，肯定有不全面的地方，欢迎大家在评论区讨论！

【AIGC 日报】2024.11.6 让我们看看今天人工智能领域和AI应用有什么新的发展新闻。配图均为我采用AI绘画生成的原创作品。 1.IDC：2023 年中国工业机器人厂商出海收入合计约 95.8 亿元国际数据公司（IDC）发布报告称，2023年中国工业机器人厂商出海收入合计约95.8亿元人民币，主要市场区域为亚太、欧洲、北美，这些区域贡献了90%的境外收入。协作机器人是中国厂商出海的新兴热门领域，2023年出海收入总计超3.8亿元人民币。同时，中国商用服务机器人厂商出海收入合计约15.1亿元人民币，主要市场区域为亚太、欧洲，这些区域贡献了90%以上的境外收入。中国商用服务机器人厂商是出海的先行军，海外业务已成为重要业绩增长点。来源：IDC 2.Claude 3.5 Haiku模型价格公布 Anthropic发布Claude 3.5 Haiku模型，开发者可通过第一方API、Amazon Bedrock和Google Cloud的Vertex AI调用。该模型在多项AI基准测试中超越上一代Claude 3 Opus，目前仅支持文本模态，未来将支持图像输入。需要注意的是Claude 3.5 Haiku AI 模型每百万 tokens 输入 1 美元 / 输出 5 美元，是GPT-4o mini 的 6.7/8.3 倍。来源：IT之家 3.腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型腾讯混元开源Hunyuan3D-1.0大模型，这是首个同时支持文生和图生的3D开源大模型。该模型采用两阶段生成方法，在保证质量和可控的基础上，10秒内即可生成3D资产。第一阶段使用多视角扩散模型，在4秒内生成多视角图像；第二阶段引入前馈重建模型，在3秒内快速准确地重建3D资产。最终，该模型可以实现输入任意单视角图像进行三维生成。来源：腾讯 4.腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型腾讯推出Hunyuan-Large大模型，这是业界已开源的基于Transformer的最大MoE模型，总参数达3890亿（389B），激活参数520亿（52B）。该模型在Hugging Face开源，包括Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8，并发布了技术报告和训练推理操作手册。来源：腾讯 5.超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字 Google Research展示了一种名为InkSight的新方法，使用人工智能直接从手写文字的图片中提取数字文本，无需中间设备。传统OCR技术在处理复杂背景、模糊或低光照条件下的手写文字时表现不佳，而InkSight通过模仿人类学习阅读的过程，即通过不断重写文本，来学习整个单词的外观和含义。 InkSight在处理复杂场景时表现更出色，人类阅读其生成的文本描摹的准确率高达87%。该技术对手写笔记的数字化、保护手写遗产及为数字化程度较低的语言提供资源具有重要意义。亚马逊Kindle Scribe和Goodnotes等应用也具备类似的手写识别功能。来源：IT之家 6.AI 赋能好莱坞：《此心安处》通过实时 AI 换脸技术让演员“逆生长” 索尼影业出品的《此心安处》利用实时生成式AI面部变换技术，让汤姆ⷦ𑉥…‹斯和罗宾ⷦ€€特两位演员跨越60年的年龄跨度，成为好莱坞首部围绕人工智能视觉特效打造的长篇电影之一。制作团队利用AI技术对汉克斯和怀特的容貌进行修改，去衰老技术来自Metaphysic，该公司擅长实时换脸和衰老特效。 Metaphysic通过训练定制的机器学习模型，开发了面部变换系统，实时生成变脸效果，无需传统的CGI后期制作。来源：IT之家 7.昆仑万维发布天工 AI 高级搜索功能，升级分析推理、金融 / 科研能力昆仑万维天工AI发布最新版本的AI高级搜索功能，全面升级多层次分析推理能力、金融投资专业AI搜索、科研学术专业AI搜索和文档AI阅读分析。天工AI推理能力支持难题拆解、自动规划、主动扩展、深度回答和图文交织，智能搜索Agent模拟人的思考和推理过程，自动生成任务规划并逐步完成预设任务路径。金融投资专业AI搜索包含金融政策查询、指标查询、财务数据对比、财报分析等，科研学术专业AI搜索建立“国内科研学术AI搜索方向最全的学术元数据库”，收录英文论文量两亿多篇。文档AI阅读分析支持处理超过500K字的超长文本，新增PDF引用信源、PDF浮窗、引用原文展示、深度解析、专业信源展示等功能。来源：IT之家 #AI探索计划#德里克文ai日报#AI创造营# 微博科技

2023年LLM大模型应用开发全攻略 𐟌Ÿ 课程介绍这个课程是由Full Stack Deep Learning团队推出的，专门针对大模型领域的发展。所有视频都是免费的，旨在帮助没有任何机器学习经验的初学者快速掌握最先进的技术，并能够构建和部署LLM应用程序。 𐟚€ 快速入门课程导论：介绍AI浪潮的背景和一些基础知识。 LLM基础：讲解机器学习、深度学习的基础，包括transformer、embedding等原理，以及model hub等。 𐟔 大语言模型 BERT、T5、GPT/GPT-2、GPT-3、Chinchilla、LLaMA等大语言模型的介绍。当前应用LLM的热点主要在prompting，而训练LLM最重要的可能就是高质量数据集的构建。 𐟧 提示工程课程重点：Frye将prompt魔法分为三类，并使用一些比喻来帮助大家理解。当应用于pre-train模型时，prompt像是《瞬息全宇宙》中的传送器，能让模型瞬间拥有某个平行宇宙中的特殊能力。当应用于instruction-tuned模型时，prompt就像对着阿拉丁神灯许愿，许愿的内容越精确清晰越好。在时下火热的LLM agent方向上，prompt就像是能够创建一个有生命的机器人。 𐟓š 增强语言模型 LLM擅长于一般的语言理解与推理，而不是某个具体的知识点。 𐟛 ️ 项目实战带着大家过了一下askFSDL这个项目。 𐟖寸用户界面 UX for Language User Interface：介绍如何设计更好的语言用户界面。 𐟛 ️ 模型选择 LLMOps：从几个维度来考虑选择哪个模型，包括模型的效果、推理速度、价格开销、能否微调、数据安全、许可协议等。 𐟔œꦝ奱•望 What's Next：大模型的下一步发展方向，大模型如何继续scale，AGI是否已经到来，以及安全问题。这个课程不仅涵盖了LLM的基础知识，还通过丰富的案例和实践指导，帮助大家快速上手并掌握大模型的应用开发。无论你是机器学习的新手还是有一定经验的开发者，这个课程都值得一看！

RAG市场分析：AI与数据结合的未来？ 𐟓š RAG是什么？ RAG是一种将LLM模型与大量数据连接的架构，通过这种方式，模型可以更准确地回答问题。简单来说，RAG给LLM模型增加了一层从外部数据库获取答案的能力。 𐟔 应用潜力目前市场上有四种应用LLM的方式：Prompt、RAG、Fine-tune和Pre-train。RAG在性能、成本和实施难度之间取得了平衡。它解决了以下痛点：提供最新且专业的信息，降低hallucination，使用私有数据但保证安全性，增加信息源以提高可追溯性。 𐟛 ️ 技术链条 RAG的技术链条包括： Chunk：将文本数据切分成文本段存储。 Embed：将数据块转换为vector的数学表达，便于后续检索。 Index：为vector增加索引，方便从数据库中高效提取。 Retrieval/Generation：接到用户查询后，对查询进行embedding，然后检索并召回相关数据，一起喂给LLM生成答案。 𐟏… 竞争格局在toC市场，搜索引擎是主要玩家，如Perplexity。而在toB市场，企业有更多私有数据，通过RAG可以建立企业级知识库、问答机器人和Agent。 SaaS/数据库巨头：如Databricks、Snowflake、Pinecone和Salesforce都在积极推出自己的解决方案。面向企业解决方案：许多初创企业如Vectara和Glean也在提供相关服务。面向开发者的模块：许多初创企业如LangChain、Unstructured和Cohere也在开发相关模块。 𐟓ˆ 趋势判断 RAG的开发链路较长，应用场景复杂，更偏向于工程问题，难以单点突破，需要系统优化和整体效果。目前市场上各种方案还没有明显差距，每个环节都有难点需要继续突破，评测体系也还不完善。竞争格局混乱，各玩家都在向上下环节延伸，但还没明显赢家。企业方案的价值最为清晰，最早开始商业化，但集中度提升很难。未来是否能通过模块化方式提升集中度，关键在于哪个环节最能抓住客户形成壁垒？能在链条中拿下最大的价值份额？关注RAG的小伙伴们欢迎一起交流！

专栏内容推荐

1200 x 648 · png
Pretrain - a Hugging Face Space by Deepak107
素材来自:huggingface.co

1660 x 1188 · jpeg
Self-supervised Learning 再次入门 - 知乎
素材来自:zhuanlan.zhihu.com
474 x 258 · jpeg
Empowering Language Models: Pre-training, Fine-Tuning, and In-Context ...
素材来自:medium.com

2441 x 800 · png
gnn-pretrain
素材来自:snap.stanford.edu

1783 x 920 · png
Pre-train Model_pretrain model-CSDN博客
素材来自:blog.csdn.net

1134 x 475 · jpeg
使用Pre-training的方法與時機 | by Jia-Yau Shiau | 軟體之心 | Medium | AI Blog TW
素材来自:medium.com

850 x 390 · png
Difference between the custom and the pre-trained model using the ...
素材来自:researchgate.net

600 x 600 · jpeg
PreTrain Complex | 180g Powder | HPH
素材来自:humanperformancehub.co.uk
850 x 1100 · png
(PDF) To Pretrain or Not to Pretrain? A Case Study of Domain-Specific ...
素材来自:researchgate.net

850 x 434 · png
Pretrained models from the Keras repository were leveraged for the ...
素材来自:researchgate.net

512 x 512 · png
Pretrain Ds - Apps on Google Play
素材来自:play.google.com
1920 x 915 · png
创建Post-pretrain任务 - 千帆大模型平台 | 百度智能云文档
素材来自:cloud.baidu.com

1354 x 457 · png
查看与管理Post-pretrain - 千帆大模型平台 | 百度智能云文档
素材来自:cloud.baidu.com

474 x 270 · jpeg
Pre-trained Models Explained with Examples
素材来自:vitalflux.com
1200 x 600 · png
GitHub - TsinghuaAI/CPM-1-Pretrain: Pretrain CPM-1
素材来自:github.com

1200 x 600 · png
GitHub - pretrain/pretrain
素材来自:github.com

1396 x 873 · png
Pre-train Model_pretrain model-CSDN博客
素材来自:blog.csdn.net
850 x 365 · png
Using Pre Trained Models With Pytorch Learnopencv Mechanism Of Transfer ...
素材来自:aiophotoz.com

1200 x 600 · png
pretrain的peft问题 · Issue #211 · shibing624/MedicalGPT · GitHub
素材来自:github.com

1144 x 758 · png
Google AI Introduces Unified Language Learner (UL2 20B): A Breakthrough ...
素材来自:marktechpost.com
1200 x 600 · png
chinese_speech_pretrain/dict.km.txt at master · TencentGameMate/chinese ...
素材来自:github.com

1167 x 482 · png
seems pretrain model is not used · Issue #18 · williamyang1991/VToonify ...
素材来自:github.com

600 x 97 · png
Large-scale weakly-supervised pretrain笔记 - 知乎
素材来自:zhuanlan.zhihu.com

916 x 418 · png
如何微调一个大语言模型 - (power up)
素材来自:kevinjiang.info

1200 x 600 · png
How download pretrain model thanks · Issue #70 · WongKinYiu/yolov7 · GitHub
素材来自:github.com

770 x 670 · png
To Pretrain or not to Pretrain: Examining the Benefits of Pretraining ...
素材来自:wandb.ai
1124 x 353 · png
Pretrained Networks
素材来自:mathworks.com

1200 x 600 · png
关于函数preprocess_pretrain_dataset对预训练样本的拼接 · Issue #637 · hiyouga/LLaMA ...
素材来自:github.com

1200 x 600 · png
关于 pretrain 阶段的 loss · Issue #2 · chaoyi-wu/PMC-LLaMA · GitHub
素材来自:github.com

1200 x 600 · png
用生成数据pretrain的网络在test时 scale和translation误差很大 · Issue #2 · yueyang130/3D ...
素材来自:github.com

1000 x 1431 · jpeg
"Shin shirayuki hime densetsu Prétear" Mekumori wo mô ichido (TV ...
素材来自:imdb.com
522 x 248 · jpeg
14. 自然语言处理：预训练 — 《动手学深度学习》 0.1.0 documentation
素材来自:d2l-zh.djl.ai

1000 x 1458 · jpeg
Customized Costume From Anime Pretear HIMEMO Princess Dress In ...
素材来自:lupon.gov.ph
1200 x 799 · jpeg
Pretrial services – Free Creative Commons Images from Picserver
素材来自:picserver.org

480 x 720 · jpeg
Watch Pretear - Crunchyroll
素材来自:crunchyroll.com

素材来自:查看更多內容

当前用户设备UA：Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)