2026年是第十五个五年规划启航之年(以下简称十五五规划),十五五规划重点发展的行业里,人工智能相比具身智能、生物制药、新一代通信等前沿技术领域而言,对普通用户更加友好,上手难度也低,得到许多自媒体博主的青睐。
ChatGPT的横空出世
2020年之前的AI更多聚焦于TSAI(专业任务AI)行业细分领域,比如自动化排班、叫车业务….记忆棋谱上深蓝、阿尔法狗实力强大如斯,大家围观下柯洁b站账号就能知道,AI记忆棋谱时间很快,理论上它看的棋谱越多,它就能预测对手的落子。柯洁刚开始下还正常,无非是既往先贤、名家名谱嘛,可下看下看他发现对面的套路好像自己的,坏了我成替身了,越下越迷,最终输了比赛。这个时期的ai更像是快捷指令,思实执行细致命令。
转机发生在2020年,这一年后人称为Al元年。奥尔特曼(altman,刚开始翻译为奥特曼)初创公司Open Al推出ChatGPT。
ChatGPT是一个大型语言模型,由OpenAl训l练。它基于GPT-4架构,能够理解和生成文本,像人类一样与人进行交谈。虽然它的表现可能看起来很类似于人的思考,但实际上它并不理解它正在说什么,也没有情绪、观点或意识。 它仅仅是根据它所被训练的大量文本进行模式匹配和文本生成。
预测模型
GPI在预测下一个词时,实际上是计算出一个概率分布。模型会根据输入的问题和上下文信息,遂个生成单词,直到生成一个完整的回答
神经网络
神经网络的结构模仿了人类大脑的神经元连接方式。人类大脑中的神经元通过突触相互连接,而神经网络中的节点通过权重(即媒体常说的“参数”,我的描述就是”职业病”)相互连接。
大脑在学习过程中会调整神经元之间的连接强度(突触权重),而神经网络在训练过程中也会调整节点之间的连接权重。
增强学习和人类反馈方法
提高生成内容的质量和减少生成内容的偏差。比方通过对话式沟通,理解用户的需求,逐步修正错误结果
生成式AI的崛起
从被动对话到主动思考
生成式ai是指令根据用户输入的描述词、提示词内容自动给出相应的回答。2025年春节,Deep Seek R1算法开源、训练方式公开,降低了大语言模型训练成本。此后许多搭载Deepseek的平台陆续出现。
Deepseek最大特点是深度思考,结合联网搜索、上下文分析、记忆调取 (2026年新增)、OCR识别等技术,精准高效地理解用户需求。
场景化应用突破文字聊天
AI在对话式聊天取得突破后,功能架构横向上就支持文案写作、情感助手、说文解字、八卦风水等多种用途场景。
海量数据训练后,AI接入图片分析、深度理解就能根据用户输出的提示词绘制图像。Ai绘图的原理特别简单:AI不是直接画,而是从一片“噪点”(像电视雪花)开始,一步步擦掉多余的噪点,慢慢细化成清晰图。这过程叫“扩散模型”——听着高大上,其实就像你用橡皮擦改草稿,改几十次就变成品了。 早期的AI绘画主体一致性、风格一致性随机性太强,就有了用户炼丹抽卡一说。即通过大量的提交,获取想要的图片。
AI制作音乐是把音乐拆成“音符积木”,先定节奏骨架,再填旋律,用“Transformer模型”预测下一个“积木”长啥样,最后加上和声。换句话说AI不会“创作情感”,只是算概率。
AI视频基于AI绘画、AI音乐,把视频拆成“图片帧+时间轴”。它先搞定单帧画面(像AI绘画),再让画面动起来,生成时,AI先出首帧图,再预测下一帧该变啥样
从embed到copilot
过去AI工具术业有专攻,内嵌于某一个环节。比方说文案撰写,根据用户给的提示词,从语料库里寻章摘句。非常擅长写假大空的汇报文章。现在成为用户的copilot(副手)后,可以帮助用户选题、资料收集、特定风格写作、转写扩写,再结合工作流、自建知识库,写出的文案带点烟火味。
更精炼的提示词
AI模型迭代更新的速度越来越快,现在每隔一段时间,XXX AI模型分数就霸榜AI前几名,再加上各大平台免费喝奶茶抢用户,基本上人手1-3个ai平台。
AI绘图的质量越来越好,现在用户只需输入更少的提示词就能获得更棒的绘图效果。AI文案这块儿,豆包写公文、策划能力太强了,只需告诉他主题,它就能“信口雌黄”帮你写出来。
AI应用的新形态
工作流
你提前设定好一顿操作步骤(比如先查资料、再整理、最后发通知),AI就乖乖按顺序执行,全程不用你动手。
电商最初使用工作流帮助改写商品标题、电商详情,比如使用stable diffusion一键改图、换服装;后面演变为商品发布、上架、客服、发货一条龙,将传统的ERP(企业资源规划)系统接入ai。
自媒体最初使用工作流生成一篇公众号文章,比如仿写、扩写、改写;后期同样实现自动上号、自动内容、自动发布、留言回复
智能体
基于工作流的智能体在智能分析、智能判断上更胜一筹。比方说科大讯飞的星辰智能体,用户加上智能判断模块,智能分析用户输入的指令,看是要文案还是语音、生图,自动提炼关键词,按照不同方案执行。
数字人
视觉交互的学习成本最低,也最容易让人接受。用户通过对话形式,仿佛现实环境下的沟通交流。数字人的形象可以是动漫、历史人物、动物、虚拟角色、真人美女、明星、或者干脆本人上阵。最早的AI对话比方说character.ai平台就是拿着网红、虚拟角色吸引人们的目光,早期各种虚拟角色对话平台炒作AI伴侣概念,后期考虑到巨大的伦理争议和法律风险,逐渐过渡到个人助理、娱乐化的互动平台,就像移动互联网崛起时的汤姆猫系列。
自媒体领域,数字人是个人形象的数字分身,直播间早期支持数字人;企业领域,数字人更多扮演智能客服、主播、代言人,给人亲近感,拉近彼此关系。数字媒体领域,像新华社的AI合成主播新小浩、3D版AI主播新小微早早就上岗了。
知识库
知识库是AI的“私人记忆本”,你把公司文件、产品手册或聊天记录喂给它,AI就能秒变“百事通”,随时精准调出你需要的信息,还懂用大白话说给你听。
知识库按照是否联网可分为私人知识库(不联网,本地运行大模型)和联网知识库(信息要脱敏)
特效
AI分析完照片/视频画面,自动加特效(比如换背景、变风格),比较常见的是剪映做同款特效效果
Skill
skil并不是什么新奇的东西,windows系统自动产生的.thumb文件夹、Mac系统的.DS_Store存储项目文件夹的排列、属性等信息。一些文件存储系统喜欢在项目根目录建立隐藏文件夹,存储磁盘信息
过去的AI写代码往往看不到项目架构,有时侯变动一个文件会导致其他地方受到影响。
Claude Code skill 是Claude推出的不是简单的“问代码、贴代码”,而是让 Claude 理解整个代码仓库结构、上下文和你的意图,然后帮你做真实的软件工程工作:读代码、改代码、补测试、重构、解释复杂逻辑,甚至按项目规范来写。
Obsidian-skills 是 Obsidian 团队开发的一组开源工具,帮助用户更好地将 AI 工具(如 Claude Code)与 Obsidian 笔记系统结合使用。包含三大核心技能:obsidian-markdown、obsidian-bases 和 json-canvas。
国内的Trae 等AI编程工具,也会在项目里生存.trae文件夹,存放项目基本信息。
幻觉与机遇
AI 幻觉,是指生成式人工智能在缺乏真实依据或超出其知识与证据边界的情况下,生成了语法正确、结构完整、语义自洽,但在事实层面错误或不可验证的信息。简而言之是“一本正经地胡说八道”
大模型的运作原理是**在给定上下文条件下,预测下一个 token 的概率分布,而不是以事实为依据进行判断。AI 幻觉是统计语言生成系统在事实约束不足时的自然输出,而非认知层面的错误判断。所以它并不是故意骗你
AI时代,万物互联。许多服务都支持AI扩展。比如说大家都在用的美团,宣传文案都在提可用AI搜索。雷军在年度演讲《勇气》提到,你遇到的许多问题,其实大家也会遇到,虚心向他人求教,能帮助你少走些弯路。现在有了AI加持,遇到难搞的事情交给AI,分分钟提供解决方案、思考路径。
警惕盲目跟风
现在AI带货、AI营销已经成为卖课常用话术,什么每天只花一小时,轻松月入过万。在2020年AI刚开始大火的时候,那时候确实可以月入过万,赚取信息差。可现在都2026年了。许多AI平台都起来了,AI绘画、AI写作、AI宣传大家都有。换句话说,想要短期化债、迅速暴富的可以撤场了。
AI能力越来越强,但也没强大到替带某个职业的地步。Ai本质是生产工具,和设计师用的Adobe全家桶并无二致区别。生产对象使用生产工具,结合生产资料才能完成生产过程。
跑通一条赛道再扩大生产
就是先把一个方向从头到尾试成功、流程和方法都稳定了,再把同样的做法复制到更多方向或加大投入。好多人看到AI视频火学AI特效,接着AI漫剧火,学剪辑。拜托,人的经历毕竟是有限的,投入的资源也是有限的,什么都碰一点,等于什么都碰个皮毛。