Zed Agentic Editinga year agohttps://zed.dev/ai/agent全新升级的助手面板,具备智能编辑能力Zed将自主搜索并编辑代码库,所有改动可在可编辑的多重缓冲区中查看审核支持在助手对话中回滚到特定检查点增强了对模型上下文协议(MCP)、智能体配置文件和.rules文件的支持计划推出Beta版本,将在几周内逐步增加测试用户
Why MCP Is Mostly Bullshita year agohttps://www.lycee.ai/blog/why-mcp-is-mostly-bullshitMCP(模型上下文协议)是Anthropic公司于2024年11月推出的标准,旨在为AI助手构建提供额外上下文的工具。该协议通过允许AI助手通过API访问自定义集成工具,试图取代LangChain和LlamaIndex等库。MCP将工具使用通用化,使大语言模型能够将向量数据库、文件系统等各种服务作为工具进行查询。Qdrant向量数据库的MCP服务器示例展示了如何将工具与LLM应用解耦。MCP并非工具解耦的唯一方案(替代方案包括LangChain、LangGraph、SmolAgents、LlamaIndex),但因行业炒作和架构吸引力突然走红。批评声音指出其存在炒作驱动现象,反映了软件工程师偏爱架构设计而非实际问题解决的倾向('架构宇航员'现象)。尽管对趋势驱动开发存在普遍质疑,MCP仍被视为增强AI助手上下文的有用但非必需方案。
Show HN: Wasp – the first full-stack framework powered by an LLMa year agohttps://wasp.sh/blog/2025/04/01/wasp-first-full-stack-framework-powered-by-llmWasp是一个全栈、功能完备的Web框架,常被比作基于现代JavaScript的Laravel、Django或Ruby on Rails版本。Wasp在GitHub上已获得超过16,000颗星,被数千名初创企业和大型公司的开发者采用。该框架最初依赖支持React、Node.js和Prisma的自定义编译器,现正转向基于LLM的代码生成技术。AI将自主决定UI设计、状态管理及其他库的选择,终结关于最佳实践的争论。新方案采用'流体'UI和架构,每次应用部署时,功能模块和实现方式都可能存在细微或显著差异。流体架构的优势包括保持界面新鲜感,并通过持续变更实现方式增强安全性。Wasp正在转型为AI优先、基于提示词的开发系统,减少对版本控制、专业知识和繁琐代码审查的依赖。通过提示词机制,新团队成员无需阅读代码即可通过探索应用功能快速投入开发。Wasp团队邀请开发者通过Discord社区,就这次向AI和LLM驱动开发的重大转型提供反馈。
Runway Gen-4a year agohttps://runwayml.com/research/introducing-runway-gen-4Runway Gen-4是新一代用于媒体生成与世界一致性的AI模型它能精确生成跨场景中保持统一的人物、地点和物体Gen-4可通过视觉参考和指令创建风格统一的新图像与视频无需微调或额外训练即可使用核心功能包括:仅需单张参考图即可实现无限角色一致性支持将任意物体或主题置于不同场景与条件下Gen-4擅长生成具有真实动态与风格一致性的高动态视频标志着生成式模型在模拟真实物理世界能力上的里程碑为多种媒体类型提供快速、可控且灵活的视频生成方案
Amazon introduces Nova Chata year agohttps://www.aboutamazon.com/news/innovation-at-amazon/amazon-nova-website-sdk亚马逊致力于提供能为客户带来实际价值的生成式AI解决方案核心AI应用包括Alexa+、Amazon Q、Rufus、Amazon Bedrock和Amazon NovaAmazon Nova是新一代前沿基础模型,提供尖端智能与领先的性价比亚马逊已上线nova.amazon.com网站,供开发者探索Nova基础模型Amazon Nova Act是训练用于在网页浏览器中执行操作的新AI模型,并提供开发者SDKRohit Prasad强调Amazon Nova对开发者和技术爱好者的易用性Amazon Nova包含文本生成模型(Nova Micro/Lite/Pro)、图像生成模型(Nova Canvas)和视频生成模型(Nova Reel)Nova Act SDK支持开发者构建能在网页浏览器中完成任务的智能体智能体可将工作流拆解为原子命令,并通过API集成确保可靠性美国用户可通过nova.amazon.com体验Nova模型、生成图像和创建视频
ByteDance Releases MegaTTS3a year agohttps://github.com/bytedance/MegaTTS3仅0.45B参数的轻量化高效TTS扩散Transformer模型支持中英双语超高质量语音克隆,包括语码转换功能提供口音强度、细粒度发音调节等可控特征项目于2025-03-22发布,含Linux/Windows/Docker详细配置说明预训练模型可从Google Drive和Huggingface获取(出于安全考虑未包含WaveVAE编码器参数)提供命令行和Web UI使用示例(标准TTS及带口音TTS)包含语音-文本对齐、字形-音素转换、波形VAE等子模块安全漏洞请通过字节跳动安全平台报告,项目采用Apache-2.0许可证基于研究论文《稀疏对齐增强的潜在扩散Transformer》和《Wavtokenizer》
DeepMind slows down research releases in battle to keep competitive edgea year agohttps://www.ft.com/content/2ee1ffde-008e-4ea4-861b-24f15b25cf54DeepMind正放缓研究成果发布频率,以维持在人工智能竞赛中的竞争优势。《金融时报》提供多种订阅方案,涵盖人工智能、网络安全、科技政策等深度科技报道领域。订阅用户可获取吉迪恩·拉赫曼、穆拉德·艾哈迈德等思想领袖的专业评论。该报还推出探讨新技术机遇与风险的专题节目。数字订阅分为基础版和完整版套餐,年度预付可享折扣优惠。
RLHF Is Cr*P, It's a Paint Job on a Rusty Car: Geoffrey Hintona year agohttps://officechai.com/ai/rlhf-is-crp-its-a-paint-job-on-a-rusty-car-geoffrey-hi...AI先驱杰弗里·辛顿批评基于人类反馈的强化学习(RLHF),称其是'一堆垃圾',并将其比作对有缺陷系统进行的表面'粉刷'。RLHF是一种通过整合人类反馈来优化AI行为的机器学习技术,在自然语言处理等复杂任务中尤为有效。辛顿认为RLHF只是掩盖了(如偏见、错误等)底层问题,并未解决AI设计的根本性缺陷。辛顿的批评反映了AI界对当前技术发展路径根基不稳的普遍忧虑。包括Meta的杨立昆等专家也质疑现有AI技术能否实现类人智能或保持持续进步。
There's too much content, so I built an AI knowledge assistanta year agohttps://faraazahmad.github.io/blog/blog/knowledge-assistant-ai/人们经常保存文章和视频留待稍后观看,却因时间限制始终无法真正阅读海量资源(研究论文/视频/文章)使得筛选和保留有用信息变得困难SEO文章和AI生成内容充斥搜索结果,导致优质资源难以被发现AI可用于内容摘要和分类,帮助用户快速决策该消费哪些内容团队利用Mistral大语言模型开发了视频与学术论文摘要工具,为用户节省时间系统架构包含处理用户交互的Rails应用,以及运行Mistral模型的FastAPI内容处理服务器未来改进方向包括普通文章处理、速率限制优化,以及RAG流程实验AI应通过自动化琐碎任务来增强人类智能,使人能专注于关键事务拥抱AI能极大提升生产力,忽视它则可能使个人处于竞争劣势
DeepSeek surpasses ChatGPT in new monthly visitsa year agohttps://economictimes.indiatimes.com/tech/artificial-intelligence/deepseek-surpa...DeepSeek在2025年2月录得5.247亿次新增访问量,超越ChatGPT的5亿次。DeepSeek是第三大AI工具,仅次于ChatGPT和Canva,但其市场份额在2月从2.34%增长至6.58%。DeepSeek的聊天机器人总访问量达7.926亿次,独立用户数达1.365亿。印度是DeepSeek的第四大流量来源国,每月贡献4336万次访问。2月AI行业总访问量达120.5亿次,独立访客数达30.6亿。DeepSeek占据聊天机器人市场12.12%的份额,仅次于ChatGPT。
There is no Vibe Engineeringa year agohttps://serce.me/posts/2025-31-03-there-is-no-vibe-engineering安德烈·卡帕西创造了'氛围编程'概念,指工程师通过与AI代理交互而非直接编写代码的工作方式软件工程被定义为'随时间累积的编程',其核心在于系统长期可维护性,而非单纯编写代码氛围编程无法解决可扩展性、安全性和未来适应性等工程级问题即便提出'氛围工程'概念,其本质仍将依赖传统工程实践,只是组件由AI生成氛围编程适用于原型开发,但尚未达到生产级软件的要求未来软件工程可能包含AI生成组件,但核心工程原则将保持不变
Alibaba Qwen2.5-Omni-7B: Open Source End-to-End Multimodal AI Modela year agohttps://www.alizila.com/alibaba-cloud-releases-qwen2-5-omni-7b-an-end-to-end-mul...阿里云推出Qwen2.5-Omni-7B多模态模型,可处理文本、图像、音频和视频该模型针对手机、笔记本等边缘设备优化,能提供实时响应虽仅70亿参数紧凑设计,仍具备高性能与强大多模态能力潜在应用包括视障用户辅助、烹饪指导、智能客服等场景模型已在Hugging Face、GitHub、通义千问平台和ModelScope开源创新架构包含Thinker-Talker机制、TMRoPE位置编码和分块流式处理技术基于多样化数据集预训练,在语音指令任务和多模态融合方面表现突出在OmniBench等跨模态推理基准测试中达到最先进水平通过强化学习优化显著提升语音生成稳定性并降低错误率阿里云此前已发布Qwen2.5-Max、Qwen2.5-VL和Qwen2.5-1M等系列AI模型
How Google built its Gemini robotics modelsa year agohttps://blog.google/products/gemini/how-we-built-gemini-robotics/谷歌DeepMind开发了新一代Gemini机器人模型家族,专为机器人设计打造这些多模态模型基于Gemini 2.0架构,通过机器人专用数据微调,可实现物理动作与文本、视频、音频输出的协同控制双机械臂ALOHA机器人成功完成了将笔放入鞋子、玩具篮球扣篮等新颖任务,展现了模型的强适应性Gemini机器人模型具备高度灵巧性、交互性和通用性,使机器人能即时应对新物体、新环境和新指令而无需额外训练机器人两大核心功能——理解决策(由Gemini Robotics-ER负责)与执行动作(由Gemini Robotics负责)得到专门优化Gemini Robotics-ER擅长具身推理、物体检测和动作代码生成,而Gemini Robotics则在精细操作和多步骤任务完成方面取得突破该模型可适配多种机器人形态,从学术研究用的ALOHA到类人机器人Apollo,展现出广泛的应用潜力未来可能应用于复杂工业场景和家居等人类生活空间,但大规模普及仍需数年时间发展
Type (YC W23) is hiring a senior software engineera year agohttps://www.ycombinator.com/companies/type/jobs/m3GcN1t-senior-software-engineerType是一款专注于提升沟通效率和清晰思维的AI原生文档编辑器作为Y Combinator支持的项目,Type已拥有数千名满意客户现诚聘具备产品直觉与技术专长的高级软件工程师核心职责包括构建富文本编辑功能、实时同步特性及AI驱动的工作流理想候选人需拥有4年以上Web应用开发经验,精通JavaScript/React技术栈,且谦逊务实技术要求:JavaScript/React/TypeScript全栈开发能力加分项:富文本编辑器框架(Slate.js/ProseMirror)、CRDTs技术、大语言模型经验福利含竞争力薪资、股票期权、全额医疗保险及布鲁克林办公空间我们鼓励多元背景申请者,致力于打造包容性工作环境
When Jorge Luis Borges met one of the founders of AIa year agohttps://resobscura.substack.com/p/when-jorge-luis-borges-met-one-of作者思索着那些既陌生又熟悉的历史时刻所带来的喜悦。文章表达了对美国学术界当前遭受攻击的担忧,包括经费削减和驱逐学者等现象。特别强调了1970年豪尔赫·路易斯·博尔赫斯与赫伯特·A·西蒙的著名对话,这一对话架起了科学与人文的桥梁。对话探讨了自由意志、决定论等主题,并比较了人类行为与计算机的机械性质。作者思考了通过结合历史数据与语言模型,利用人工智能模拟历史人物或时刻的可能性。对母亲日记的个人反思,以及未来创建能模拟其思想记忆的AI替身的设想。提及文化与语言研究案例,包括贾海人抽象的嗅觉词汇体系,以及《拉帕姆季刊》的复兴。记录了航空先驱桑托斯·杜蒙与莱特兄弟之间的历史争议。
Mirrors: The Blind Spot of Image and Video Generation Modelsa year agohttps://medium.com/@aliborji/mirrors-the-blind-spot-of-image-and-video-generatio...图像生成模型的最新进展难以准确呈现镜面反射效果评估了五款图像生成模型(Gemini、Adobe Firefly、Bing、Ideogram、Freepik)和四款视频生成模型(veed.io、pollo.ai、ltx.studio、vidnoz.com)常见问题包括反射扭曲、不一致或缺失,在人物和物体场景中尤为明显Gemini和Ideogram存在重复性反射错误,Adobe Firefly与Bing则出现严重错位视频模型在动态反射处理上也存在缺陷,削弱真实感提出改进方案:优化架构、增强训练数据、基于物理的渲染技术、显式反射建模反射处理难题暴露了3D场景理解的不足,影响医学影像和自动驾驶等应用领域
Training AI Using 'Pirated' Content Can Be Fair Use, Law Professors Arguea year agohttps://torrentfreak.com/training-ai-using-pirated-content-can-be-fair-use-law-p...包括Meta在内的科技公司正因未经许可使用受版权保护内容作为大语言模型训练数据而被起诉。Meta因涉嫌通过BitTorrent下载盗版书籍作为训练材料,遭到作家群体提起集体诉讼。Meta主张合理使用原则,而作家们声称使用盗版内容自动丧失合理使用资格。知识产权法学教授提交法庭之友意见书支持Meta的合理使用抗辩,强调AI模型开发具有转化性使用特征。该意见书引用Perfect 10诉亚马逊等判例,论证非表达性的转化性使用符合合理使用原则。教授们将Meta案例与直接消费性使用区分,聚焦AI开发过程中的内部复制行为。意见书指出版权制度不应阻碍技术创新,将AI与录像机等历史技术进步相类比。本案凸显国际差异,日本等国在版权例外条款下允许使用受版权材料进行AI训练。该法庭之友意见书已获法院批准并公开存档。
Ace: Realtime Computer Autopilota year agohttps://generalagents.com/ace/Ace是一款通过鼠标键盘操作实现桌面任务自动化的计算机自动驾驶系统。Ace在计算机操作任务上表现优于其他模型,并已开源相关组件套件。Ace-control模型正通过开发者平台向选定合作伙伴逐步开放。Ace具有超高速执行能力,可在超越人类的速度下完成任务。Ace通过识别屏幕内容和指令进行鼠标点击与键盘输入,其训练数据来自专家标注的百万级任务样本。Ace仍处于学习阶段可能出现错误,官方提供了典型失败案例参考。随着训练资源的增加,Ace将展现出更强的智能水平和任务处理能力。Ace研究预览版已启动早期测试,诚邀用户体验并提供反馈。
'I Want to Make You Immortal' – How one woman confronted her deepfakes stalkera year agohttps://www.404media.co/email/2933ae7f-3e4c-4b4c-ac97-992e68ee5956/乔安妮·周发现自己被AI换脸生成的色情内容出现在网上,这些内容是由一个名为'罗恩'的骚扰者制作并传播的。骚扰行为逐渐升级,罗恩制作了数千条相关内容,在多个平台发布,并直接向周发送带有种族歧视的骚扰信息。周向网络调查员查尔斯·德巴伯寻求帮助,后者指出AI技术在骚扰行为中的使用日益增多,而有效监管却严重缺失。尽管多次尝试举报和删除相关内容,骚扰仍在持续,新的账号和内容不断出现。周因此遭受严重精神困扰,产生自残念头,她的职业和个人生活都受到严重影响。骚扰者罗恩表现出偏执和控制欲行为,在威胁与乞求原谅之间反复切换,同时持续制作传播侮辱性内容。周的案例凸显了AI换脸骚扰这一普遍问题,这种现象对女性影响尤为严重,且缺乏有效的法律和技术解决方案。现行法律如《2022年反暴力侵害妇女法重新授权法案》未能有效规制AI生成的换脸内容。制作换脸视频的便捷性加上施害者无需承担后果,使问题更加恶化,像周这样的受害者几乎求助无门。周的遭遇表明,我们需要更全面、更具包容性的解决方案来打击AI换脸骚扰,保护受害者权益。
The Nvidia DGX Spark Is a Tiny 128GB AI Mini PC Made for Scale-Out Clusteringa year agohttps://www.servethehome.com/the-nvidia-dgx-spark-is-a-tiny-128gb-ai-mini-pc-mad...NVIDIA DGX Spark是一款专为横向扩展集群设计的紧凑型AI迷你PC售价3999美元,配备20核Arm处理器、128GB LPDDR5X内存和200GbE网络机身小巧(1.1升/1.2公斤),功耗170W,支持USB Type-C供电内置NVIDIA GB10(Arm CPU + Blackwell GPU),通过C2C互连架构连接支持200GbE RDMA网络集群,初期仅限双机配置预装NVIDIA DGX OS(基于Ubuntu),开箱即用支持扩展预售提供单机或双机+QSFP线缆的套装选项未来可能支持更大规模集群(NVIDIA初期不提供该功能)定位高端AI工作站,可与M3 Ultra Studio等设备竞争