人工智能工作流、代码编辑器与平台颠覆

人工智能工作流、代码编辑器与平台颠覆 | 原创，AI翻译

Home 2025.01

AI思考
- AI缺乏真正的智能或深度
- 机器学习是进阶的应用微积分
- 大语言模型难以处理结构化文件格式
- 开源消除了技术保密性
- 基于文本的工具将首先受到AI冲击
AI工作流驱动的平台新形态
- AI工作流实现多语言内容自动生成
- 用户提交指令完成格式转换
- 平台支持内容精炼与摘要生成
- 通过关键词设置自定义AI工作流
- AI端到端处理内容形态转换
AI代码编辑器的未来方向
- 云集成对CI/CD工作流至关重要
- A/B测试优化AI生成内容
- RLHF将延伸至真实部署反馈
- 人类反馈修正AI的不完美输出
- 提示词优化优于输出修正

AI思考

最后更新于2025年8月

Satya Nadella提到杰文斯悖论，值得研究。
王垠：人工智能没有”智能”，神经网络没有”神经”，机器学习没有”学习”，深度学习没有”深度”。真正起作用的叫”微积分”。因此我更愿称这个领域为”可微分计算”，构建模型的过程叫”可微分编程”。
王垠：机器学习理论实用又优美，本质是改头换面的微积分！它是牛顿、莱布尼茨伟大理论的简洁优雅呈现。机器学习就是用微积分推导拟合函数，深度学习则是拟合更复杂的函数。
当前大语言模型无法按YAML/Python等文件语言筛选。但现实世界大量信息以此类形式组织，这意味着可以用文件训练大语言模型。
可开发精确匹配系统训练大语言模型，或许能将KMP搜索算法与Transformer架构结合来增强搜索能力。
技术没有秘密，开源会揭开所有被严防死守的机密。
AI将影响众多工具（包括间接工具）。人们说不再需要Figma画原型，而是直接生成代码。Postman同理，人们会直接用Python等脚本调用或测试API。
Figma和Postman在AI时代的劣势在于其功能无法通过文本生成，且缺少触发组件替换的快捷键（如cmd+K）。
用户界面正成为AI时代的障碍。既然能用Python的requests库等编程语言（未来将AI化）测试代码，何必升级AI版Postman？既然代码化UI生成（AI增强）更直接高效，何必升级AI版Figma？
大语言模型将首先变革文本相关应用：谷歌/搜索引擎/文本编辑器/写作工具/Quizlet/Zendesk/DeepL/Medium/WordPress/Trello/Asana/Gmail/GitHub/Goodreads/Duolingo/Feedly。
但Git/Linux/ffmpeg/手机硬件/浏览器/操作系统/音视频通话等技术不会被颠覆，它们以代码为核心，而AI难以生成这类代码。
代码量大的技术（如OpenOffice/MySQL/Firefox/Chromium/VLC/Qt/LLVM/GNOME）难被AI革新。若AI能辅助开发这些技术，它们反而不会被取代。AI需要更强算力来生成同等规模的代码。
AI音频工具的变革路径：1）改变平台内容（如为Audible生成有声书）；2）直接替代软件（如AI让唱歌应用可被 hobbyist 轻松使用）。
评估AI影响力的维度：1）内容生成/改进程度；2）代码编写/优化程度；3）发明新软件的可能性。
产品分三类：生成式AI产品、调用生成式AI API的产品、其他产品。
产品创意：用AI聚合Reddit/GitHub Trending/推特热榜/知乎热榜等实时信息，用户通过指令自定义订阅流甚至添加特定账号。
五类核心数据：文本/图像/音频/视频/代码。其他重要数据类型包括数值/地理空间/生物特征/传感器/交易/元数据/时间序列/结构化与非结构化数据/健康/环境/日志/网络/行为数据等。
谷歌仍擅长网站索引（尤其是特定站点软件/文档下载），其域名搜索功能不可替代。大语言模型未必有最新下载链接。
图像搜索仍是谷歌优势，但大语言模型擅长文本生成。人们仍倾向用真实图片核实硬件细节/尺寸/物体形状/人物样貌。
AI聊天机器人流行是因为文本处理比图像更难。但AI图像生成潜力巨大：用户可要求展示不同角度/面部特写/电路板细节等。由于人们主要处理文本，AI图像工具仍有很大发展空间。
AI擅长概念解释与深度答疑，这可能是其最大价值。我曾用AI理解大语言模型的K/Q/V机制，茅塞顿开的感觉很棒。
大语言模型时代我更倾向Ubuntu，因为macOS花哨的应用不再吸引我，更喜欢通过终端和文本完成所有工作。
AI可评估性案例：能否将pom.xml或requirements.txt升级到最新版？这类工作可能相当复杂。
AI时代，编程语言的性能与健壮性比语法更重要。只要程序运行良好，大语言模型能减轻编码负担。
人们倾向阅读AI聊天机器人的内容：学习门槛低、可随时追问、格式统一，且质量常属网络最佳。
但信息不仅是文本。通过AI获取内容时，你会丢失原网站的版面设计、说明图像等元素。
高互动性网站（如网页游戏/Google文档/协作工具Zoom/Slack）不会被AI颠覆，它们以代码为核心而非纯文本。
全AI驱动的数字银行/交易APP/社交平台常不实用，因为输入指令易出错。传统移动应用的点击按钮/页面导航更便捷。
如何在AI与区块链时代好好生活

AI工作流驱动的平台新形态

2025.01.08

工作流是通过预定义代码路径编排大语言模型与工具的系统¹。
想象一个由AI翻译驱动的新平台（类似TikTok/Quora/推特/Instagram等），用户发布的每篇内容都将以单一语言存储，并自动翻译成20种语言。
除翻译外，摘要生成/音频合成/视频生成等AI功能也至关重要。用户只需提交指令上下文，平台处理余下流程。
用户上传文本/图像/音频/视频后，平台可自动转换为其他格式，并按需交付内容形态。
平台支持多语言多风格的自动摘要生成。
任何内容（文本/图像/音频/视频）都可通过AI进行生成/精修/增强/修复/摘要/扩展/格式转换/重新构想。
用户可通过关键词（如”英语”或”搞笑”）自定义TikTok等平台的AI工作流风格，AI将依此调整内容。

AI代码编辑器的未来方向

2025.01.08

近期在为GitHub Actions配置xelatex流程时遇到fontawesome5包问题。4o-mini建议安装TeX Live 2021并使用tlmgr的方案无效，但升级到2023版后有所改善（详见ChatGPT O1能做而4o-mini不能的事）。

此时我未使用Cursor/Windsurf等编辑器，尽管在其他项目中尝试过。这类编辑器的局限在于仅能捕获本地测试输出，在云环境中功能受限。

代码编辑器需要深度集成云服务与CI/CD流程（如GitHub Actions/Jenkins）。同理，内容创作工具（文本/图像/音视频）应集成A/B测试系统——AI生成内容，测试工具提供反馈。这类似RLHF（人类反馈强化学习）的延伸：将模型优化扩展到真实部署环境中。

测试可以是即时或长期的，自动或人工辅助的。自动测试（如AI工具的A/B测试）虽含人类反馈但流程自动化，例如定期根据测试结果优化创作过程。若需人工协助，反馈常难以被机器完全理解（如”内容不够有趣”的模糊评价）。

理论上所有人类定义的规则都可写成提示词（分用户提示与系统提示）。我们应专注优化提示词，而非每次都修正输出。

构建高效智能体，Anthropic ↩

Back Donate