双语

FurtherAI (YC W24) Is Hiring Software and AI Engineers
a year ago
- FurtherAI正在研发AI同事以实现保险工作流程自动化
- AI同事能够处理非结构化文档、数据录入及电话沟通
- 公司使命是让人工智能像人类员工一样可靠且具备适应能力
- 已成功获得Y Combinator、South Park Commons和Converge VC的种子前融资
- 创始团队包括连续创业者及拥有12年合作经验的苹果语言建模科学家
Show HN: Dia, an open-weights TTS model for generating realistic dialogue
a year ago
- Dia是由Nari Labs研发的16亿参数文本转语音模型，可将文本转录转换为拟真对话
- 核心功能包含情感/语调控制、非语言声音生成（笑声、咳嗽声）及音频条件调节
- 预训练模型检查点与推理代码已发布于Hugging Face平台
- 演示页面提供Dia与ElevenLabs Studio、Sesame CSM-1B的对比试听
- 通过Discord提供社区支持，更大规模模型的访问需加入等候名单
- 安装指南：克隆GitHub仓库后配置环境，运行Gradio交互界面
- 附Python代码示例展示如何使用Dia生成对话音频
- 当前支持GPU（PyTorch 2.0+、CUDA 12.6），CPU支持即将推出
- 企业级GPU可实现实时音频生成，旧款GPU速度较慢
- 完整版需约10GB显存，量化版本正在开发中
- 严格使用限制：禁止身份冒用、欺骗性内容及非法用途
- 未来规划：增加Docker支持、推理优化与量化方案
- 开发团队含1名全职与1名兼职工程师，欢迎社区贡献
- 特别鸣谢：Google TPU研究云计划、SoundStorm、Parakeet及Descript音频编解码器
Spark AI (YC W24) is hiring a full-stack engineer in San Francisco
a year ago
- Spark公司开发人工智能研究工具，帮助能源开发者应对监管要求并建设太阳能电站与电池工厂
- 客户包括科利尔工程设计公司、标准太阳能公司、赛普拉斯溪可再生能源公司等行业领军企业
- 客户能源项目年产能达60吉瓦，可为数千万家庭提供全年电力
- 获AI Grant（纳特·弗里德曼与丹尼尔·格罗斯）、Brex创始人等顶级投资机构支持
- 团队拥有特斯拉、Brex、谷歌前工程师，工作模式为旧金山办公室每周5天坐班
- 技术栈包含Typescript、NextJS、NodeJS和Postgres数据库
- 招聘3年以上经验工程师，青睐重视实际影响而非完美主义，并愿学习商业逻辑的人才
- 由特斯拉、Brex、苹果前高管Tae和Julia联合创立
From 'catch up' to 'catch us': How Google took the lead in enterprise AI
a year ago
- 谷歌在企业级AI竞赛中实现重大逆转，在2025年谷歌云Next大会上展示了基准测试领先的模型和具有凝聚力的战略。
- 谷歌Gemini 2.5 Pro目前被视为性能最佳的大语言模型，在推理、编码方面表现卓越，并提供100万token的上下文窗口。
- 谷歌基础设施（包括新型Ironwood TPU）提供了无与伦比的效率和性能，有力支撑其AI模型和企业解决方案。
- 谷歌集成的全栈方案结合了模型、基础设施及Vertex AI和BigQuery等企业工具，形成显著竞争优势。
- 谷歌对AI智能体和企业价值的专注获得市场共鸣，已有500多家生产环境客户，并与温迪餐饮、Salesforce等企业建立重要合作。
Cekura (Formerly Vocera) (YC F24) Is Hiring
a year ago
- Cekura是一家由Y Combinator支持的初创公司，专注于提升AI语音代理的可靠性。
- 该公司通过模拟真实对话场景，实现AI语音代理的自动化测试与可观测性。
- Cekura平台运用AI生成数据集、动态角色模拟和实时监控来优化性能表现。
- 这家初创企业致力于缩短语音代理产品的上市时间，并最大限度减少生产环境中的错误。
- Cekura正在寻找创始工程师来主导开发工作，并与创始人及客户开展协作。
'Immediate red flags': questions raised over 'expert' much quoted in UK press
a year ago
- 牛津大学心理学家芭芭拉·桑蒂尼(Barbara Santini)曾被多家媒体广泛引用为各领域专家
- 因其资质和身份真实性引发质疑，主流媒体已删除其评论内容
- 调查发现桑蒂尼主要在网络情趣用品店Peaches and Screams担任两性关系顾问
- 英国心理学会(BPS)确认其非注册会员，且社交媒体踪迹寥寥
- 《新闻公报》率先提出质疑，但无法核实其真实身份
- 部分记者通过专家中介平台获取其评论，相关平台已启动调查
- Qwoted等专家对接平台因资质存疑已下架桑蒂尼资料
- 包括Reach集团和BBC在内的多家媒体已撤稿
- 该事件凸显人工智能时代记者核实信源的挑战
- 查理·贝克特等专家呼吁完善核验流程和专业资质审查机制
Columbia student suspended over interview cheating tool raises $5.3M
a year ago
- 21岁的钟仁·'罗伊'·李为其初创公司Cluely筹集了530万美元种子资金，该AI工具旨在用于考试、销售电话和工作面试中'作弊'
- Cluely起源于一则病毒式推文——李因开发用于软件工程面试作弊的AI工具被哥伦比亚大学停学
- 该工具最初名为Interview Coder，通过隐藏的浏览器窗口运行，面试官或考官无法检测
- Cluely将其AI工具类比计算器和拼写检查等曾被视为'作弊'的发明
- 争议性宣传视频显示李用Cluely的AI在约会中说谎，被比作《黑镜》情节
- Cluely年度经常性收入(ARR)已突破300万美元，联合创始人尼尔·尚穆甘同为21岁的前哥大学生
- 两位创始人因AI工具引发纪律处分后均从哥大退学
- Cluely最初是用于LeetCode编程平台作弊的工具，创始人认为该平台已过时
- 李自称用Cluely获得亚马逊实习机会，但亚马逊禁止面试使用未授权工具
- Cluely是近期多个争议性AI初创公司之一，其中包括声称要取代所有人类员工的项目
AI hallucinations lead to a new cyber threat: Slopsquatting
a year ago
- 研究人员警告'Slopsquatting'攻击——一种利用AI生成虚假软件包推荐的新型供应链攻击
- GPT-4、CodeLlama和DeepSeek等AI模型会虚构不存在的软件包，19.7%的推荐内容为虚假
- 开源AI模型虚构包频率(21.7%)显著高于商业模型(5.2%)
- 攻击者可注册这些虚构包名分发恶意代码，造成广泛安全风险
- 虚构包具有持续性(43%在测试中重复出现)和语义欺骗性(38%与真实包名称相似)
- 专家建议开发者使用依赖项扫描工具，并避免仓促进行安全测试以降低风险
Is SaaS a good business model for drug‑discovery companies?
a year ago
- 2024年诺贝尔化学奖表彰了计算蛋白质设计领域的突破，引发了对生物学基础模型的广泛关注
- 蛋白质对药物疗效具有决定性作用，AlphaFold2证明了深度学习在预测蛋白质结构方面的巨大潜力
- EvolutionaryScale、Profluent等公司正在开发面向蛋白质科学的强大生成模型
- 将AI模型以SaaS形式授权给药企被认为是弱势商业模式，因其未能契合制药行业的核心需求
- 制药业面临的主要挑战是分子发现与临床成功之间的'死亡之谷'，当前模型尚无法跨越这一鸿沟
- 药物开发者更关注ADME（吸收分布代谢排泄）、PK/PD（药代动力学/药效学）和CMC（化学制造控制），这些领域恰是基础模型目前缺乏可靠性的环节
- 默克公司verubecestat的失败案例揭示了计算机预测与临床结果之间的巨大落差
- Recursion、Insitro等AI优先的初创公司正转向自主持有分子专利，以掌控更多价值链环节
- AlphaFold3等开源模型的复现威胁着SaaS授权模式的定价能力
- 制药企业将临床成功率置于分子发现成本之上，这使得无法降低下游风险的SaaS模式吸引力不足
I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API
a year ago
- 由OpenAI实时API、ESP32、安全WebSocket和Deno边缘函数驱动的实时AI语音，支持超过10分钟无中断的全球对话。
- 安装Supabase CLI并设置本地Supabase后端。
- 设置NextJS前端环境变量并运行开发服务器。
- 在NextJS前端的设置页面添加您的ESP32-S3设备MAC地址。
- 在server-deno/.env和frontend-nextjs/.env.local文件中添加您的OpenAI API密钥。
- 使用环境变量启动Deno服务器。
- 设置ESP32 Arduino客户端并配置设备WiFi。
- ElatoAI包含三大核心组件：前端客户端、边缘服务器函数和ESP32物联网客户端。
- 功能包括：实时语音转语音、自定义AI代理、可定制语音、安全WebSocket、服务器VAD话轮检测、Opus音频压缩、全球边缘性能、ESP32 Arduino框架、对话历史记录、设备管理、用户认证、基于WebRTC和WebSocket的对话、音量控制和实时转录。
- 使用的技术：前端（Next.js、Vercel）、后端（Supabase DB）、边缘函数（Deno/Supabase上的Deno边缘函数）、物联网客户端（PlatformIO、Arduino框架、ESP32-S3）、音频编解码（Opus）、通信（安全WebSocket）、库（ArduinoJson、WebSockets、AsyncWebServer、ESP32_Button、Arduino音频工具、ArduinoLibOpus）。
- 性能指标：延迟（全球往返<1秒）、音频质量（24kbps Opus编解码器）、无中断对话（最长10分钟）、全球可用性（通过Deno边缘计算优化）。
- 安全特性：安全WebSocket（WSS）加密数据传输、可选的256位AES API密钥加密、Supabase DB安全认证、所有表启用Supabase RLS。
- 限制：连接边缘服务器时有3-4秒冷启动时间、无中断对话限时10分钟、超过挂钟时间边缘服务器停止、ESP32无语音打断检测功能。
- 未来改进方向：实现ESP32语音打断检测、增加Arduino IDE支持、在Deno边缘添加工具调用支持。
- 贡献指南：Fork仓库、创建特性分支、提交更改、推送到分支、发起PR。
- 项目采用MIT许可证授权。
π0.5: A VLA with open-world generalization
a year ago
- 机器人技术已取得重大进展，能够完成叠衣服、清洁桌面等复杂任务。
- 机器人学最大挑战在于泛化能力——适应新场景与新物体的能力。
- 泛化需要强大的物理操作技能和对环境常识性理解。
- 由于泛化能力有限，多数商用机器人只能在工厂等受控环境运行。
- π0.5等机器人基础模型致力于适应杂乱的真实世界环境。
- π0.5能在全新家庭环境中完成任务，展现出灵活性与应变能力。
- 通过异构数据协同训练，π0.5能理解语义语境并实现技能迁移。
- π0.5将高层语义决策与底层运动控制结合，完成复杂任务。
- 实验显示π0.5能在陌生环境中清洁厨房与卧室。
- 未来改进方向包括自主学习能力提升与知识迁移优化。
More than 20 robots race alongside humans at half marathon in Beijing
a year ago
- 超过20台机器人与人类跑者一同参加了在北京举办的半程马拉松赛事。
- 参赛机器人尺寸各异，最矮仅120厘米，最高达1.8米。
- 冠军机器人'天工超跑'凭借长腿和专用算法，以2小时40分钟完赛。
- 部分机器人在比赛中出现起跑摔倒、撞栏杆等状况。
- 这是全球首次人形机器人与人类共同完成21公里马拉松赛事。
- 中国将机器人产业视为推动未来经济增长的前沿领域。
- 专家质疑马拉松参赛表现是否能可靠反映机器人的工业应用潜力。
Onyx (YC W24) Is Hiring for ML Engineer
a year ago
- Onyx是一个开源AI助手和企业搜索平台，拥有庞大的用户群体。
- 该项目在Slack和Discord上拥有超过1万颗星标和3000多名社区成员。
- Onyx作为大语言模型之上的知识层，提升了智能体和知识检索能力。
- 它能同步Google Drive、Slack、GitHub等多种来源的数据，提供集中化的知识访问。
- Onyx计划在未来5年内为所有团队带来知识增强型生成式AI。
- 该公司获得了由Khosla Ventures和First Round Capital支持的1000万美元种子轮融资。
- 客户包括Netflix、Ramp、Applied Intuition等企业用户，以及Roku、Zendesk等开源用户。
Washington Post Inks OpenAI Licensing Deal for Search
a year ago
- 《华盛顿邮报》与OpenAI合作，使其内容可通过ChatGPT访问
- ChatGPT将展示《邮报》文章的摘要、引用和链接，并明确标注来源
- 该合作旨在为复杂或快速变化的话题提供可靠的事实信息
- OpenAI已与包括新闻集团和《金融时报》在内的20多家新闻出版商达成类似协议
- 部分出版商如《纽约时报》已起诉OpenAI侵犯版权
- 《华盛顿邮报》全球合作负责人强调要'在用户所在之处触达受众'
- 每周有超过5亿人使用ChatGPT进行搜索
- 《华盛顿邮报》已推出'询问邮报AI'和'气候问答'等人工智能实验项目
- 该报在保持大语言模型中立性的同时，运用AI技术生成摘要、音频等多种解决方案
A Review of the Personal Humanoid Robots
a year ago
- 人形机器人预计将于2025年进入家庭，通过处理家务、辅导学习和老年护理等任务改变日常生活。
- 世界是为人类设计的，因此在以人为中心的空间里，人形机器人是实现自动化的最有效形态。
- 人形机器人具有多重优势：能使用现有工具、适应人类环境，并通过拟人化设计建立信任感。
- 其经济效益体现在可扩展性和多角色重编程能力，减少了对专用机器人的需求。
- 从心理学角度看，人形机器人更易获得客服场景和家庭环境的接纳。
- 当前面临复杂性、成本和'恐怖谷效应'等挑战，但预计这些将随技术进步逐渐缓解。
- 历史发展脉络显示，机器人已从工业领域演进至Roomba扫地机器人和特斯拉Optimus等个人产品。
- 人形机器人发展被比作'斯普特尼克时刻'，正引发国家与企业间的全球竞赛。
- 安全隐患在于联网机器人可能被劫持用于恶意目的。
- 中国正大力投资机器人产业，计划2027年前主导市场，而美国侧重创新突破。
- 全球人形机器人估值高达24万亿美元，在家庭和制造业应用方面潜力巨大。
- 技术进步正在降低成本，预计2026年售价将跌破1万美元，使机器人更普及。
- 特斯拉、Figure AI和1X Technologies等领军企业正开发涵盖厨房协助到情感陪伴的多场景机器人。
- 机器人普及可缓解劳动力短缺，降低商品服务成本，增加休闲时间。
- 新兴趋势包括针对机器人的有组织攻击行为，以及欧盟推行的'机器人税'。
- 本文为会员提供独家洞察，探讨人形机器人对文化、哲学和实践层面的深远影响。
Exploring on-device AI link previews in Firefox
a year ago
- Firefox Labs 138 引入链接预览实验性功能，通过悬停触发增强浏览体验
- 激活方式：悬停链接后按 Shift+Alt（Mac 用 Option），卡片将显示标题/描述/图片/阅读时长及3个关键点
- 预览卡片以独立面板形式出现在光标附近，明确标识为 Firefox 功能而非网页内容
- 技术实现：通过无凭证 HTTPS 请求获取页面 HTML（不执行脚本），附带 x-firefox-ai 自定义请求头
- 利用 Open Graph 元标签和 Firefox 阅读模式技术提取标题/描述/图片/阅读时长等元数据
- 关键点生成：设备端运行 wllama（WebAssembly 版 llama.cpp），采用 HuggingFace 的 SmolLM2-360M 模型保障隐私
- 性能表现：首关键点 4 秒内生成，后续关键点间隔不超过 1 秒
- 优化措施：预下载 AI 模型（369MB）并限制输入模型的内容长度
- 未来计划：支持多语言、提升关键点质量、适配 Android 平台
- 反馈渠道：欢迎通过 Mozilla AI Discord 的 #firefox-ai 频道提交建议
Why Open Models Matter
a year ago
- 开源AI模型相比专有模型速度更快、可定制性更强、隐私性更好且成本效益更高
- Meta的Llama系列等开源模型发展迅猛，已能媲美GPT-4等闭源系统
- 开源模型正在将AI从产品转变为基础设施，就像Linux成为系统基石的过程
- 开源模型的优势包括成本效益、完全所有权、微调能力及通用任务性能
- 开源模型支持边缘计算和本地AI，既增强隐私又降低对云服务的依赖
- 开源模型的透明度提升了安全性和可信度，而闭源模型可能存在不可预测的行为偏差
- 闭源模型在算力规模和生态整合上仍有优势，但开源模型正在快速追赶
- 开源模型实现了AI民主化，让没有巨额预算的群体也能获得创新机会
- 伦理考量凸显了开放访问的重要性，可防止AI技术被垄断
- AI未来明显趋向开源模型，因其具备灵活性、透明度和社区驱动的创新优势
Hugging Face to sell open-source robots thanks to Pollen Robotics acquisition
a year ago
- Hugging Face收购Pollen Robotics，进军开源机器人领域
- 开源人形机器人Reachy 2现以7万美元价格发售
- 2024年推出的LeRobot库GitHub星标数已突破1.2万
- Pollen Robotics的Reachy 2具备先进硬件、VR兼容性和开源软件
- Hugging Face第五次收购包含Gradio和XetHub等知名项目
- 英伟达与Hugging Face合作加速LeRobot的AI工作流
- 康奈尔大学、卡内基梅隆等机构正使用Reachy 2进行AI研究
- Pollen Robotics的机器人已部署至全球20多个国家
- Hugging Face致力于通过平价开源方案推动机器人技术民主化
I won't be vibe coding anymore: a noob's perspective
a year ago
- 作者回顾了自己早期的编程经历，承认当时代码质量不佳且进展缓慢，但珍视其中付出的个人努力与学习过程。
- 他们表达了对使用AI构建应用程序的不满，认为这削弱了编程中的学习体验和个人成长价值。
- 作者逐渐意识到编程与写作相似，其核心在于处理过程、解决问题和批判性思维，而不仅仅是最终成品。
- 尽管存在不完美之处，作者决定回归手动编程，拥抱这种缓慢而审慎的学习与创造过程。
Teaching LLMs how to solid model
a year ago
- 大语言模型（LLM）能够为简单的3D机械零件创建CAD模型，预计将快速提升能力。
- AI机械工程师可处理材料选择、制造设计和CAD模型优化等任务。
- 基于现有CAD文件训练生成模型是极具前景的方向，当前研究集中在扩散模型和Transformer架构。
- 大语言模型可通过OpenSCAD等程序化接口生成实体模型，充分发挥其代码生成优势。
- OpenSCAD允许用户编写渲染成实体CAD模型的脚本，特别适合LLM驱动的建模方式。
- 大语言模型能运用机械工程通用知识，例如正确确定螺栓孔的尺寸。
- 研究团队开发了评估流程，通过OpenSCAD测试LLM生成CAD模型的能力，将生成的STL文件与参考模型对比。
- 几何评估指标包括体积差异、边界框对齐、倒角距离和豪斯多夫距离。
- Sonnet 3.5和Sonnet 3.7等前沿模型在CAD建模任务中展现出显著性能提升。
- AdamCad和Zoo.dev等初创公司正在开发文本转CAD产品，但初期评估显示LLM生成的OpenSCAD代码优于Zoo.dev的API。
- LLM驱动CAD建模的未来改进方向包括：增强空间推理能力、迭代调试工具和参数调整界面。
- 预计GenCAD将在6-24个月内成为机械工程师的常用工具，长期来看可能彻底革新CAD软件生态。

Hasty Briefsbeta

#ai

FurtherAI (YC W24) Is Hiring Software and AI Engineers

Show HN: Dia, an open-weights TTS model for generating realistic dialogue

Spark AI (YC W24) is hiring a full-stack engineer in San Francisco

From 'catch up' to 'catch us': How Google took the lead in enterprise AI

Cekura (Formerly Vocera) (YC F24) Is Hiring

'Immediate red flags': questions raised over 'expert' much quoted in UK press

Columbia student suspended over interview cheating tool raises $5.3M

AI hallucinations lead to a new cyber threat: Slopsquatting

Is SaaS a good business model for drug‑discovery companies?

I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API

π0.5: A VLA with open-world generalization

More than 20 robots race alongside humans at half marathon in Beijing

Onyx (YC W24) Is Hiring for ML Engineer

Washington Post Inks OpenAI Licensing Deal for Search

A Review of the Personal Humanoid Robots

Exploring on-device AI link previews in Firefox

Why Open Models Matter

Hugging Face to sell open-source robots thanks to Pollen Robotics acquisition

I won't be vibe coding anymore: a noob's perspective

Teaching LLMs how to solid model