人工智能工作流、代码编辑器与平台颠覆 | 原创,AI翻译
目录
- AI思考
- AI缺乏真正的智能或深度
- 机器学习是进阶的应用微积分
- 大语言模型难以处理结构化文件格式
- 开源消除了技术保密性
- 基于文本的工具将首先受到AI冲击
- AI工作流驱动的平台新形态
- AI工作流实现多语言内容自动生成
- 用户提交指令完成格式转换
- 平台支持内容精炼与摘要生成
- 通过关键词设置自定义AI工作流
- AI端到端处理内容形态转换
- AI代码编辑器的未来方向
- 云集成对CI/CD工作流至关重要
- A/B测试优化AI生成内容
- RLHF将延伸至真实部署反馈
- 人类反馈修正AI的不完美输出
- 提示词优化优于输出修正
AI思考
最后更新于2025年8月
- Satya Nadella提到杰文斯悖论,值得研究。
- 王垠:人工智能没有”智能”,神经网络没有”神经”,机器学习没有”学习”,深度学习没有”深度”。真正起作用的叫”微积分”。因此我更愿称这个领域为”可微分计算”,构建模型的过程叫”可微分编程”。
- 王垠:机器学习理论实用又优美,本质是改头换面的微积分!它是牛顿、莱布尼茨伟大理论的简洁优雅呈现。机器学习就是用微积分推导拟合函数,深度学习则是拟合更复杂的函数。
- 当前大语言模型无法按YAML/Python等文件语言筛选。但现实世界大量信息以此类形式组织,这意味着可以用文件训练大语言模型。
- 可开发精确匹配系统训练大语言模型,或许能将KMP搜索算法与Transformer架构结合来增强搜索能力。
- 技术没有秘密,开源会揭开所有被严防死守的机密。
- AI将影响众多工具(包括间接工具)。人们说不再需要Figma画原型,而是直接生成代码。Postman同理,人们会直接用Python等脚本调用或测试API。
- Figma和Postman在AI时代的劣势在于其功能无法通过文本生成,且缺少触发组件替换的快捷键(如cmd+K)。
- 用户界面正成为AI时代的障碍。既然能用Python的requests库等编程语言(未来将AI化)测试代码,何必升级AI版Postman?既然代码化UI生成(AI增强)更直接高效,何必升级AI版Figma?
- 大语言模型将首先变革文本相关应用:谷歌/搜索引擎/文本编辑器/写作工具/Quizlet/Zendesk/DeepL/Medium/WordPress/Trello/Asana/Gmail/GitHub/Goodreads/Duolingo/Feedly。
- 但Git/Linux/ffmpeg/手机硬件/浏览器/操作系统/音视频通话等技术不会被颠覆,它们以代码为核心,而AI难以生成这类代码。
- 代码量大的技术(如OpenOffice/MySQL/Firefox/Chromium/VLC/Qt/LLVM/GNOME)难被AI革新。若AI能辅助开发这些技术,它们反而不会被取代。AI需要更强算力来生成同等规模的代码。
- AI音频工具的变革路径:1)改变平台内容(如为Audible生成有声书);2)直接替代软件(如AI让唱歌应用可被 hobbyist 轻松使用)。
- 评估AI影响力的维度:1)内容生成/改进程度;2)代码编写/优化程度;3)发明新软件的可能性。
- 产品分三类:生成式AI产品、调用生成式AI API的产品、其他产品。
- 产品创意:用AI聚合Reddit/GitHub Trending/推特热榜/知乎热榜等实时信息,用户通过指令自定义订阅流甚至添加特定账号。
- 五类核心数据:文本/图像/音频/视频/代码。其他重要数据类型包括数值/地理空间/生物特征/传感器/交易/元数据/时间序列/结构化与非结构化数据/健康/环境/日志/网络/行为数据等。
- 谷歌仍擅长网站索引(尤其是特定站点软件/文档下载),其域名搜索功能不可替代。大语言模型未必有最新下载链接。
- 图像搜索仍是谷歌优势,但大语言模型擅长文本生成。人们仍倾向用真实图片核实硬件细节/尺寸/物体形状/人物样貌。
- AI聊天机器人流行是因为文本处理比图像更难。但AI图像生成潜力巨大:用户可要求展示不同角度/面部特写/电路板细节等。由于人们主要处理文本,AI图像工具仍有很大发展空间。
- AI擅长概念解释与深度答疑,这可能是其最大价值。我曾用AI理解大语言模型的K/Q/V机制,茅塞顿开的感觉很棒。
- 大语言模型时代我更倾向Ubuntu,因为macOS花哨的应用不再吸引我,更喜欢通过终端和文本完成所有工作。
- AI可评估性案例:能否将pom.xml或requirements.txt升级到最新版?这类工作可能相当复杂。
- AI时代,编程语言的性能与健壮性比语法更重要。只要程序运行良好,大语言模型能减轻编码负担。
- 人们倾向阅读AI聊天机器人的内容:学习门槛低、可随时追问、格式统一,且质量常属网络最佳。
- 但信息不仅是文本。通过AI获取内容时,你会丢失原网站的版面设计、说明图像等元素。
- 高互动性网站(如网页游戏/Google文档/协作工具Zoom/Slack)不会被AI颠覆,它们以代码为核心而非纯文本。
- 全AI驱动的数字银行/交易APP/社交平台常不实用,因为输入指令易出错。传统移动应用的点击按钮/页面导航更便捷。
- 如何在AI与区块链时代好好生活
AI工作流驱动的平台新形态
2025.01.08
- 工作流是通过预定义代码路径编排大语言模型与工具的系统1。
- 想象一个由AI翻译驱动的新平台(类似TikTok/Quora/推特/Instagram等),用户发布的每篇内容都将以单一语言存储,并自动翻译成20种语言。
- 除翻译外,摘要生成/音频合成/视频生成等AI功能也至关重要。用户只需提交指令上下文,平台处理余下流程。
- 用户上传文本/图像/音频/视频后,平台可自动转换为其他格式,并按需交付内容形态。
- 平台支持多语言多风格的自动摘要生成。
- 任何内容(文本/图像/音频/视频)都可通过AI进行生成/精修/增强/修复/摘要/扩展/格式转换/重新构想。
- 用户可通过关键词(如”英语”或”搞笑”)自定义TikTok等平台的AI工作流风格,AI将依此调整内容。
AI代码编辑器的未来方向
2025.01.08
近期在为GitHub Actions配置xelatex流程时遇到fontawesome5包问题。4o-mini建议安装TeX Live 2021并使用tlmgr的方案无效,但升级到2023版后有所改善(详见ChatGPT O1能做而4o-mini不能的事)。
此时我未使用Cursor/Windsurf等编辑器,尽管在其他项目中尝试过。这类编辑器的局限在于仅能捕获本地测试输出,在云环境中功能受限。
代码编辑器需要深度集成云服务与CI/CD流程(如GitHub Actions/Jenkins)。同理,内容创作工具(文本/图像/音视频)应集成A/B测试系统——AI生成内容,测试工具提供反馈。这类似RLHF(人类反馈强化学习)的延伸:将模型优化扩展到真实部署环境中。
测试可以是即时或长期的,自动或人工辅助的。自动测试(如AI工具的A/B测试)虽含人类反馈但流程自动化,例如定期根据测试结果优化创作过程。若需人工协助,反馈常难以被机器完全理解(如”内容不够有趣”的模糊评价)。
理论上所有人类定义的规则都可写成提示词(分用户提示与系统提示)。我们应专注优化提示词,而非每次都修正输出。