Open-source 3B param model better than Mistral OCRa year agohttps://huggingface.co/nanonets/Nanonets-OCR-sNanonets-OCR-s 是一款先进的图像转Markdown OCR模型,具备多项高级功能。功能包括LaTeX公式识别、智能图像描述、签名检测、水印提取、智能复选框处理以及复杂表格提取。提供了transformers、vLLM和docext的使用示例。包含BibTex引用格式供学术参考。该模型上月下载量达7,961次。
Amazon is reportedly training humanoid robots to deliver packagesa year agohttps://www.theverge.com/news/680258/amazon-training-package-delivery-humanoid-r...亚马逊正在为仿人机器人开发AI软件,用于包裹配送机器人将通过Rivian电动货车运输进行现实场景测试亚马逊正在旧金山建设'仿人机器人训练基地'该训练设施包含障碍赛道和用于训练的Rivian货车亚马逊计划实现机器人自主搭车完成包裹投递新成立的自主AI团队正研发多功能灵活机器人助手亚马逊正在测试Agility Robotics的'Digit'和Unitree价值1.6万美元的仿人机器人2020年收购Zoox彰显亚马逊推进配送全自动化的决心
Sincerity Wins the Wara year agohttps://www.wheresyoured.at/sic/作者推出了每月7美元或每年70美元的高级版订阅服务,同时继续保持免费内容的更新。强调新闻业中真诚与问责的重要性,批评报道中缺乏批判性思维的现象。抨击媒体对Meta与Anduril合作及元宇宙概念不加批判的报道,称其是失败的概念。指出Llama等AI模型的不可靠性,质疑其是否适合军事应用场景。揭露『AI将取代白领工作』主张缺乏证据,批评媒体未核实此类论断。点名批评Kevin Roose等记者在无实质证据的情况下宣扬AI取代工作岗位的叙事。痛斥媒体在回归办公室辩论、通胀解释等议题上为企业叙事推波助澜的行为。倡导新闻业坚守真诚原则,呼吁记者提供背景信息并挑战权威叙事。分析生成式AI的能力缺陷,论证其尚不具备大规模取代人类工作的变革性影响。强调媒体应当通过真实、批判性的报道服务公众,而非充当企业利益的传声筒。
NH jury acquits consultant behind AI robocalls mimicking Biden on all chargesa year agohttps://apnews.com/article/ai-robocalls-new-hampshire-biden-kramer-e87ef8848a2a6...政治顾问史蒂文·克莱默(Steven Kramer)被宣告无罪,他此前因涉及使用AI生成模仿拜登的自动语音电话而被控选民压制和冒充候选人罪名。这些自动电话在2024年新罕布什尔州初选前发送给民主党选民,使用类似拜登的AI生成语音,劝阻选民参与初选投票。克莱默在法庭作证称,他的目的是警示AI对选举的潜在危害,为此支付150美元雇佣一名魔术师制作录音。检方认为这些电话破坏了初选公正性,而辩护律师辩称该初选未经官方批准,且选民压制法条不适用此案。陪审团裁定克莱默22项罪名均不成立,这些罪名原本可能使他面临数十年监禁。克莱默还面临600万美元FCC罚款但拒绝支付;传输这些电话的Lingo电信公司已同意支付100万美元达成和解。此案凸显了监管选举中AI应用的持续挑战,目前部分州已立法规范,而联邦层面的监管仍不明朗。
Apple Retreatsa year agohttps://stratechery.com/2025/apple-retreats/苹果WWDC开场视频用高管出演F1电影 parody,营造超现实基调克雷格·费德里吉承认苹果未兑现去年WWDC承诺的AI功能苹果AI承诺(特别是Siri)仍未兑现,引发对其AI能力的质疑约翰·格鲁伯批评苹果在AI功能上过度承诺而交付不足苹果自2015年来首次拒绝参与格鲁伯直播节目,引发猜测马可·阿蒙认为苹果正退回安全区,回避即兴访谈WWDC主打功能Liquid Glass是苹果操作系统全新统一设计语言Liquid Glass凸显苹果软硬件整合优势,是其核心竞争力的回归苹果宣布Continuity功能增强设备协同,如Mac端实时活动苹果推出Foundation Models框架,支持第三方应用设备端AI苹果深化与OpenAI合作,将ChatGPT整合至更多服务苹果暗示可能拆分游戏与其他应用,或将调整App Store第九巡回法院驳回苹果维持应用反导流限制的请求苹果回归核心优势与其在AI和云服务领域的困境形成反差文章将苹果AI失误比作微软Windows 8败局及后续复兴
Blaze (YC S24) Is Hiringa year agohttps://www.ycombinator.com/companies/blaze-2/jobs/dzNmNuw-junior-software-engin...Blaze是一家由YC支持的初创企业,通过基于USDC的跨境支付应用革新全球支付体系。初级软件工程师职位需运用Cursor等AI工具开发并优化支付平台。核心职责包括利用AI进行功能开发、调试,并持续跟进AI技术前沿。任职要求包含AI工具使用经验、掌握JavaScript和React框架,兼具对金融科技的热忱与问题解决能力。福利涵盖具有竞争力的薪酬、股权激励、导师培养计划及墨西哥城充满活力的工作环境。申请者需提交简历、作品集及阐述个人兴趣与相关项目的求职信。
Think of a Numbera year agohttps://xenaproject.wordpress.com/2025/01/20/think-of-a-number/Sam Altman关于AGI即将到来的说法被批评为不负责任的炒作。当前AI能处理本科数学题,但在博士水平任务上失败,表明尚无真正的AGI。作者提议建立一个秘密的数论难题数据库来测试AI的数学理解能力。问题需满足:答案为非负整数、难度超越本科水平、无法轻易猜测或在线搜索到。该实验旨在区分AI的模式匹配能力与真正的数学思维。作者寻求博士级数论学者合作贡献高难度问题。将邀请AI公司用其模型测试该数据库,结果会公开。与FrontierMath不同,本项目确保问题未被AI模型预先接触。示例问题类似FrontierMath,但难度更高且分布更均匀。最终目标是评估AI能否真正进行数学思考,而非随机鹦鹉学舌。
The drawbridges come up: the dream of a interconnected context ecosystem is overa year agohttps://www.dbreunig.com/2025/06/16/drawbridges-go-up.htmlAI时代正在重演Web 2.0的故事,平台对集成生态的管控日趋严格。多云平台(MCP)被视为未来图景——大语言模型(LLM)将联通所有必要数据与应用。Web 2.0初期倡导服务互联与开放API,但最终各大平台为掌控生态纷纷设限。近期案例显示,Slack、X(原Twitter)、Google等平台相继切断第三方对其数据和AI模型的访问权限。随着平台将控制权与商业竞争置于开放原则之上,数据自由交换的梦想正在幻灭。多云平台终将演变为受严格管控的协议标准,而非技术解放运动。
Extracting memorized pieces of books from open-weight language modelsa year agohttps://arxiv.org/abs/2505.12546该研究探讨了开源权重语言模型(LLMs)对受版权保护书籍的记忆程度。研究人员采用概率提取技术,从13个LLMs中提取了Books3数据集的部分内容。结果显示记忆程度因模型和书籍而异,某些模型几乎完整记忆了《哈利·波特》和《1984》等书籍。较大规模的LLMs并未整体或部分记忆大多数书籍内容。这一发现对版权诉讼具有重大意义,但研究结果并未明确支持原告或被告任何一方。
Why Claude Code feels like magic?a year agohttps://omarabid.com/claude-magic史蒂夫·乔布斯将高速运行(每秒百万次)的计算机操作比作魔法克劳德代码的智能被描述为迭代式,通过启发式方法探索可能性空间来寻找解决方案大语言模型(LLM)借助启发式方法缩减搜索空间,从而更高效地找到解决方案克劳德代码通过自主进行多次尝试来提升用户体验,这种机制增强了其智能感知作者分享个人经历:克劳德代码曾用30-40分钟自主完成项目依赖项的更新通过并行计算扩展克劳德代码的潜力,可将任务完成时间大幅缩短(如从40分钟降至1分钟)对当前大语言模型自动化任务所带来广泛影响的思考
Please add an option to block or disable "AI" · Issue #740 · codecov/feedbacka year agohttps://github.com/codecov/feedback/issues/740请求永久禁用所有组织中的'Codecov AI'功能担心代码可能被未经同意用于AI训练希望提供明确的第一方开关来退出AI功能倾向于AI功能采用选择加入(opt-in)而非选择退出(opt-out)机制对AI在提高代码覆盖率方面的价值持怀疑态度
O3 Turns Proa year agohttps://thezvi.substack.com/p/o3-turns-proo3-pro提供了显著更强的计算能力用于解决问题,但订阅成本高昂。用户对o3-pro的评价褒贬不一:部分人认为它优于o3,另一些人则认为改进有限。该模型响应缓慢,通常需要15分钟以上才能回复,严重影响许多用户的工作流程。尽管Confabulations等基准测试未显示改进,但o3-pro的幻觉现象比o3更少。它在分析任务、创意写作和结构化思考方面表现优异,但在自主编码场景中效果较差。高昂成本和低速响应使o3-pro难以作为日常工具,但适合处理特定复杂查询。OpenAI宣称o3-pro在专家评估中(尤其是科学、教育和编码领域)表现优于o3。该模型的简洁性受到好评,能直接提供要点式回答而不赘述。o3的大幅降价使其更易普及,对AI市场的影响甚至超过o3-pro的发布。OpenAI未更新o3-pro系统卡片引发担忧,可能存在安全性和透明度隐患。
Mastodon updates its terms to prohibit AI model traininga year agohttps://techcrunch.com/2025/06/17/mastodon-updates-its-terms-to-prohibit-ai-mode...Mastodon等社交网络正更新服务条款,明确禁止AI模型训练及数据爬取行为Mastodon新条款自7月1日起生效,明文禁止为LLM训练目的爬取用户数据更新后的条款包含针对爬虫和数据挖掘工具等自动化系统的法律约束条款目前这些规则仅适用于Mastodon.social主实例,其他联邦宇宙服务器仍存在数据爬取风险包括OpenAI和Reddit在内的其他平台也陆续推出了类似反爬取条款Mastodon同时将全球用户年龄限制从13岁上调至16岁
Andrej Karpathy – Software 2.0a year agohttps://karpathy.medium.com/software-2-0-a64152b37c35神经网络代表了软件开发的根本性转变,被称为软件2.0,不同于依赖人工编写明确代码的传统软件1.0模式软件2.0通过神经网络在大规模数据集上的训练等优化过程开发,而非直接的人工编码正在向软件2.0转型的行业包括:视觉识别、语音识别、语音合成、机器翻译、游戏开发和数据库管理软件2.0的优势包括:计算同质性、硬件实现简便性、恒定的运行时内存占用、高可移植性、敏捷性以及模块间最优融合能力软件2.0的局限性体现在:决策过程难以解释、可能出现反直觉的故障、易受训练数据偏见影响软件开发的未来需要构建适配软件2.0的工具生态,包括数据集管理的IDE、数据集版本控制系统、神经网络包管理器等软件2.0将在评估成本低而算法设计复杂的领域占据主导地位,为通向通用人工智能(AGI)铺平道路
MiniMax-M1 open-weight, large-scale hybrid-attention reasoning modela year agohttps://github.com/MiniMax-AI/MiniMax-M1MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型采用混合专家架构(MoE)与闪电注意力机制支持100万token的上下文长度,是DeepSeek R1的8倍生成10万token时计算量仅为DeepSeek R1的25%通过大规模强化学习在多领域任务上训练创新性提出高效强化学习扩展算法CISPO提供两个版本:MiniMax-M1-40K和MiniMax-M1-80K在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型测试涵盖数学、编程、软件工程等多领域支持函数调用,可通过vLLM或Transformers框架部署
Modular 25.4: One Container, AMD and Nvidia GPUs, No Lock-Ina year agohttps://www.modular.com/blog/modular-25-4-one-container-amd-and-nvidia-gpus-no-l...Modular Platform 25.4版本正式支持AMD GPU(包括MI300X和MI325X),实现无缝移植与性能优化性能提升方面:在AMD MI300X上,BF16工作负载的前填充阶段吞吐量较vLLM提升最高达53%,解码密集型BF16工作负载吞吐量提升最高达32%扩展的模型支持涵盖GGUF量化版Llama、Qwen3、OLMo2和Gemma3模型,显著增强平台的多功能性通过统一导航系统和新Python-Mojo绑定工具优化文档体系与开发者体验,实现更便捷的集成开源超过45万行Mojo内核及服务代码,诚邀社区为MAX AI内核库贡献力量社区活动包括Modular黑客周末和漫画《GPU驯兽师》发布,旨在活跃开发者生态
The Brute Squada year agohttps://sourcegraph.com/blog/the-brute-squad文章探讨了编码实践的快速演变,尤其是从传统集成开发环境(IDE)向Claude Code、Codex、Amp等自主智能体主导的代理式编程的转变。代理式编程被描述为具有成瘾性,能带来多巴胺与肾上腺素的奖励快感,但也需要谨慎监督以避免潜在陷阱。作者分享了与Anthropic公司CEO达里奥·阿莫戴会面等个人经历,并讨论了AI更广泛的社会影响,预测到2026年将出现重大变革。文章重点分析了'氛围编程'的兴起,这一变革性趋势将对软件开发效率、团队协作模式和岗位职责产生深远影响。文末以乐观视角展望AI编程的未来,鼓励读者拥抱变革,学习与编程智能体协作。
GeneralistAI – Research Preview of Dextrous Bimanual Robotic Manipulationa year agohttps://generalistai.com/blog.html通用机器人公司正在使用端到端AI模型开发通用型机器人。这些模型经过训练,可在不同机器人和环境中执行灵巧的传感器运动策略。机器人由神经网络实时控制,传感器数据处理频率达100Hz。任务能力包括精细运动控制、空间定位精度和抗干扰稳定性。双机械臂协调可完成复杂动作,如拆解乐高积木结构。高频控制实现了动态行为,如空中抓取时的微调摆动。模型能在未见过的机械臂和新环境中实现策略迁移,无需预先数据。已展示的能力包括紧固件分类、纸盒折叠和螺丝装卸等任务。关闭纸盒等精密操作需要毫米级精度控制。该系统展现了在现实应用中实现自主灵巧操作的潜力。
Show HN: I built an app to organize fragmented learninga year agohttps://apps.apple.com/us/app/curio-save-learn-retain/id6745309852Curio通过将被动消费转化为主动学习,帮助用户保留从文章和视频中获得的知识。用户只需轻点一下即可保存来自YouTube、Medium等多种来源的内容。AI提取关键见解、生成摘要并创建互动测验以提高记忆保留率。功能包括长期记忆的间隔重复、追溯见解到原始来源,以及整理最喜欢的要点。该应用还提供社区功能,用于分享和发现新想法。隐私措施包括收集与用户身份相关的数据,如标识符和使用数据。兼容iOS 16.0或更高版本以及visionOS 1.0或更高版本,年龄适用性评级为9岁以上。
Six-month-old, solo-owned vibe coder Base44 sells to Wix for $80M casha year agohttps://techcrunch.com/2025/06/18/6-month-old-solo-owned-vibe-coder-base44-sells...以色列开发者Maor Shlomo将自己创立仅6个月的初创公司Base44以8000万美元出售给Wix公司。这家主打氛围编程的初创企业Base44在半年内用户数突破25万并实现盈利,5月份单月利润达18.9万美元。该公司完全自主运营且依靠口碑传播,创始人Shlomo通过在LinkedIn和Twitter分享创业历程获得关注。Base44允许非程序员通过文本指令构建软件,支持数据库、身份验证和分析等功能模块的创建。Shlomo表示尽管公司保持有机增长和盈利能力,但出于规模扩张需求决定出售。Wix此次收购旨在扩展其无代码产品矩阵,将这款基于大语言模型且已盈利的产品纳入旗下。