本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计138647 字,简读后为11183字,阅读时间为28分钟,为您提高阅读效率为1239%
- OpenAI Prepares for GPT-6 and GPT-7 Launch: Trademarks Applied in China 🚀
- NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA 🏆
- Meta 推出 Seamless Communication AI 翻译套件:支持近百种语言输入、同声延迟仅 2 秒 🌐
- Meta 推出 AI 音频模型 Audiobox:支持语音及文字同时输入、可生成多层次声音 🎙️
- 横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5% 🚀
- Altman被曝芯片交易,成宫斗导火索?OpenAI怒甩5100万刀狂买AI芯片 💸
- 英伟达CEO:美芯片商距离中国供应链独立至少还有十年,AI将在5年内赶超人类 🌐
- Google Postpones Launch of GPT-4 Rival ‘Gemini’ Until January 2024 ⏰
- 美国商务部长雷蒙多:任何旨在规避对华限制的AI芯片都将在次日被禁 🚫
- Meta 更新 AI 翻译模型 SeamlessM4T,推出V2 架构 🔄
要点解析:
-
GPT-4是OpenAI在深度学习领域的最新里程碑,是一个大型多模式模型,接受图像和文本输入,表现出人类水平性能。可预测的扩展性是其关键特征,通过深度学习技术和优化方法,不同大小的模型都能表现出可预测的行为。
-
GPT-4的训练过程包含可预测的扩展性和强化学习微调,采用人类反馈的强化学习提高性能。模型具备更新世界知识的数据集,规模庞大,包含约13万亿个token。性能优越,整合DALL・E3,具备图像处理能力,拓展了应用场景,但仍有一些局限性和风险。
-
尽管GPT-4在智能性方面有所改善,但仍存在局限性和风险。为了降低风险,采用了对抗性测试和基于规则的奖励模型。展望未来,GPT-4标志着人工智能系统向更交互和直观的发展,有望在理解上下文和语义方面取得更深层次的进展。
原文链接:https://juejin.cn/post/7308553288398716954
要点解析:
-
由Elon Musk领导的xAI团队于2023年3月创建了Grok xAI,这是一款旨在颠覆人工智能领域的AI助手。Grok通过四个月的训练,基于庞大的互联网数据创建了强大的语言模型,被戏称为"The Pile"。作为一款全新的AI助手,Grok在多个方面超越了ChatGPT等竞争对手。
-
Grok具备智能对话、实时信息查找、内容创作、广泛知识领域覆盖以及幽默感等传统AI助手功能。然而,它的先进之处在于采用了先进的基础模型、多模态理解、形式验证确保安全、长文本记忆和对抗性稳健性等方面。Grok-1基础模型在短时间内取得了惊人的效果,表现优于GPT-3.5,展示了出色的效率。
-
Grok目前处于邀请制的beta产品阶段,仅限付费X Premium+订阅用户使用。随着时间推移,Grok将逐步完善,计划整合到特斯拉等平台,并通过多模态界面实现语音交互。然而,与其先进功能相伴随的风险包括数据偏见、破解尝试和幽默失控,xAI已设立AI安全专家顾问团队以应对这些挑战。
原文链接:https://openaimaster.com/?p=27746
要点解析:
-
Meta推出了AI声音生成模型Audiobox,结合语音和文字输入,用户可以轻松生成所需音频。基于Voicebox AI模型,Audiobox能生成各种环境音和自然对话语音,具备音频生成和编辑能力,降低了声音生成门槛。
-
为了实现声音填充功能,Audiobox采用了Voicebox的引导声音机制和流量比对扩散模型生成方法。测试表明,Audiobox在音质和生成内容准确度上胜过了现有最佳音频生成模型,包括AudioLDM2、VoiceLDM和TANGO。
-
Audiobox已向特定研究人员及学术界开放试用,测试模型品质及安全性。Meta计划在几周后全面公开该模型,为制作视频、游戏等应用场景的音效提供更便捷的工具。
原文链接:https://www.ithome.com/0/736/876.htm
要点解析:
-
Knowbase AI融合数字图书馆和人工智能助手,构建了独特的知识管理解决方案。其数字图书馆“Knowbase”作为知识资产的安全有序存储空间,支持多种文件类型。
-
AI助手是Knowbase AI的核心,能回答自然语言问题,基于Knowbase库的内容提供智能答案。用户每月享有10次免费提问,实现与数字知识库的无缝互动。
-
为满足不断增长的需求,Knowbase AI提供付费计划,解锁额外存储、上传功能和提问次数。标准计划扩展存储选项达到10GB,为需要更广泛知识管理的用户提供可扩展解决方案。
原文链接:https://openaimaster.com/?p=27749
要点解析:
-
Zentask是一款融合先进AI技术和用户友好功能的革新性工具,旨在简化工作流程并提升生产力。该平台提供免费计划,但付费计划价格合理,分为$20.00、$50.00和$100.00每月。用户可定制模板,创造性生成网站文案,还能在AI市场创造私人解决方案。
-
Zentask的核心功能是ZenSpaces,简化任务的创建、分类和组织。用户可生成图像、创建个性化或公共模板,生成结构化创意文案,提供学术文章大纲生成器、详细代码说明等。独特之处在于用户可定制模板,甚至可以在平台上销售自己的提示工程,并保留内容的完全控制和所有权。
-
Zentask不仅支持个人,还通过AI市场扩展对提示工程师的支持。该市场允许提示工程师创建私人解决方案并赚取佣金,目前支持GPT-4和Midjourney AI模型,未来计划集成更多模型,使Zentask保持与技术进步同步。
原文链接:https://openaimaster.com/?p=27777
要点解析:
-
Meta旗下的翻译模型SeamlessM4T更新了V2架构,引入了SeamlessExpressive和SeamlessStreaming两项新功能。SeamlessExpressive根据用户的音调、音量、情感、语速和停顿判断语气,调整翻译内容,增强表现力,支持多语言。SeamlessStreaming实现同声传译,减少等待时间,挑战在于处理不同语言的句子结构。
-
新版本的SeamlessM4T使对话翻译更加自然和富有表现力,满足用户对语音翻译的更高期望。SeamlessExpressive和SeamlessStreaming的引入提升了翻译体验,为多语言交流提供更便利的工具。
-
Meta公司的挑战在于处理不同语言的句子结构,需要专门的算法判断是否有足够语境开始生成翻译输出。SeamlessM4T的更新展示了在语音翻译领域持续创新的努力,为用户提供更智能、流畅的翻译体验。
原文链接:https://www.pingwest.com/w/290709
要点解析:
-
今年8月,Meta推出多模态人工智能翻译模型SeamlessM4T,支持近100种语言的文本和36种语言的语音。现在更新为“v2”架构,称之为“Seamless Communication”模型,使对话翻译更自然富有表现力。
-
新功能包括“SeamlessExpressive”,可将语气转移到翻译后的语音中,包括音调、音量、情感色彩,使翻译更生动。第二个功能是“SeamlessStreaming”,允许在说话者仍在讲话时开始翻译,减少等待时间。支持的语言有英语、西班牙语、德语、法语、意大利语和中文。
-
尽管Meta未透露新功能何时可用,但预计将集成到智能眼镜中,提高实用性。
原文链接:https://www.ithome.com/0/736/855.htm
要点解析:
-
谷歌推迟了高度期待的生成式AI聊天机器人和GPT-4竞争对手“Gemini”的推出,原计划在加利福尼亚、纽约和华盛顿的一系列活动中亮相,但现已悄悄将其推迟到2024年初。消息传出后,有报道称Alphabet首席执行官Sundar Pichai对该聊天机器人对非英语查询的响应不满意。
-
谷歌在2023年的Google I/O上首次展示了Gemini,将其描述为具有“令人印象深刻的多模态能力”的下一代AI模型。Gemini可以处理多种类型的数据,能够理解和生成文本、图像以及基于草图或书面描述的网站等其他类型的内容。
-
Gemini被定位为多模态AI,除了理解文本和图像内容外,谷歌还希望使其在工具和API集成方面高效运作,成为第三方开发者的吸引力之选。Gemini被建造为“启用未来创新,如内存和规划”,一旦经过调优和“经过严格测试确保安全性”,该AI模型将以“各种尺寸和能力”提供。
原文链接:https://www.biztechafrica.com/?p=51242
要点解析:
-
Meta公布了Seamless Communication AI翻译套件,包含第二代SeamlessM4T模型,可基于用户说话内容加速翻译。Seamless Expressive口译模型解决了传统AI翻译的语调、停顿、读词问题,保留用户情绪和风格。Seamless Streaming是同声翻译模型,实现2秒延迟的语音和文字翻译,支持口译、听写翻译及自动语音识别功能。综合模型Seamless整合了这三种语言模型,适用于通用场景。
-
Seamless Communication是Meta庆祝自家AI研究机构“Fundamental AI Research”成立10周年的成果。该套件强调精准再现说话者情绪,实现2秒同声传译,支持近百种语言输入。Seamless Expressive口译模型保存用户情绪和风格,解决传统AI翻译的局限。Seamless Streaming同声翻译模型具有2秒延迟的语音和文字翻译功能,广泛应用于口译、听写翻译和自动语音识别。
-
Meta发布了Seamless Communication AI翻译套件,其中SeamlessM4T模型加速翻译,Seamless Expressive口译模型解决传统AI翻译问题,Seamless Streaming同声翻译模型实现2秒延迟的语音和文字翻译。这套套件综合了以上三种模型的功能,适用于通用场景。
原文链接:https://www.ithome.com/0/736/914.htm
要点解析:
-
近期,OpenAI在中国申请了GPT-6和GPT-7的商标,表明其致力于推动人工智能(AI)发展的战略举措。这是继先前申请GPT-4和“Whisper”商标之后的一步,尽管OpenAI的服务在中国不可访问,但这一积极的举措突显了该公司的全球愿景,并在推出下一批大型语言模型(LLMs)方面不断努力。
-
OpenAI在中国提交了GPT-6和GPT-7的商标申请,目前正在审查中,涵盖了科学或研究用的仪器和设备(第9类)以及技术服务和设计(第42类)。这反映了OpenAI致力于在全球AI技术的最前沿保持领先地位的决心。
-
自ChatGPT推出以来,OpenAI一直在推动大型语言模型(LLMs)的界限。ChatGPT最初基于拥有1750亿参数的GPT-3.5构建,展示了卓越的语言理解和生成能力。值得注意的是,今年三月,OpenAI推出了GPT-4,其参数估计超过1万亿,显示了该公司发展LLMs的承诺。
原文链接:https://www.analyticsvidhya.com/blog/2023/12/openai-applies-for-gpt-6-and-gpt-7-trademark-in-china/
要点解析:
-
上海交大 & 上海 AI Lab发布了放射学基础模型RadFM,开源14B多模态医疗基础模型,首次支持2D/3D放射影像输入。该模型具有临床应用潜力,能处理真实临床成像数据,支持多图像输入和交错数据格式,为医学领域带来新机遇。
-
RadFM的技术贡献包括全新的MedMD&RadMD多模态数据集,含15.5M 2D图像和180k的3D医疗影像。模型架构首次支持2D和3D自由混合,可用于医学任务的文本和图像混合输入。建立了全新的评估基准RadBench,覆盖五大临床放射任务,与SOTA模型相比表现出色。
-
RadFM在临床应用中具有巨大潜力,支持三维数据和多图像输入,展现了强大的可迁移性。研究团队强调模型绝对性能、3D数据缺乏和评测指标模糊是当前医学基础模型的局限性,并呼吁建立更符合医学实际需求的评测标准。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-12
要点解析:
-
Transformer模块是GPT模型的核心,通过多次重复的自注意力和MLP层构成。前层学习底层特征和模式,后层识别高层抽象概念和关系。自注意力机制让每列向量在相互对话中提取信息,但仅能查找过去信息,确保token无法预见未来。
-
自注意力层中,每列向量通过查询、键、值向量的点乘和加权求和,实现信息的提取和加权组合。这确保了模型能够有效地从其他列向量中找到相关信息。这个过程后,通过残差连接与MLP相结合,进一步提高深度神经网络的学习稳定性。
-
Softmax运算是自注意力机制和模型最后阶段的关键步骤,将值归一化为概率分布。它通过指数化输入值,确保概率总和为1.0。然而,由于大数除以大数可能导致数值问题,softmax具有添加常数不变性,有效解决这一问题。
要点解析:
-
两周前,OpenAI董事会意外解雇CEO Sam Altman,引发了一场管理风波。尽管不清楚Altman最初为何被解雇,但事实是,他最终成功复职。在95%的员工威胁辞职后,他被恢复为CEO。新任CEO在上周的员工备忘录中写道,期待与团队一起完成构建有益的通用人工智能的工作。
-
三名投票罢免Altman的四名董事会成员已离职,新董事会目前仅由三人组成。根据主席Bret Taylor的备忘录,他们计划重新塑造OpenAI的治理结构,包括扩大董事会,最引人注目的是给予Microsoft——OpenAI最重要的合作伙伴,拥有该组织盈利子公司49%股份的公司——一个“非投票观察员”席位。
-
将Microsoft加入董事会,即使是作为非投票观察员,对于OpenAI来说是一项重大变革。成立于2015年的OpenAI是一个致力于为“整个人类”谋福祉的非营利组织。尽管它在2019年成立了盈利子公司以加速人工智能开发工作,但OpenAI的宗旨明确指出,其受托责任不是对投资者,而是“对人类”。换句话说,其任务是开发通用人工智能,但前提是安全可控。这就是为什么子公司完全受非营利组织控制的原因,该组织由独立董事会管理,不包括可能将商业利益置于组织宗旨之上的外部投资者或合作伙伴。
原文链接:https://www.fastcompany.com/90987753/why-openai-needs-microsoft-on-its-board
要点解析:
-
英伟达CEO黄仁勋表示,美国与中国供应链独立需二十年,受到美国对华半导体限制的影响,英伟达计划在美国制造芯片。公司已领先人工智能领域十年,不担心竞争,其超级计算机改变了计算机工作方式。
-
黄仁勋回顾向OpenAI交付的第一台AI超级计算机,马斯克是其第一个客户。他指出美国芯片供应链独立需要10-20年,英伟达计划在美国本土制造芯片,对新规影响持商业态度,仍致力于中国市场。
-
黄仁勋认为,人工智能可能在五年内超越人类智能,英伟达核心业务依赖人工智能,强调计算机各方面已发生根本性变化,深度学习是计算的重新发明。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201721-8130-30618583.html
要点解析:
-
连线杂志报道,OpenAI签署意向书斥资5100万美元购买初创公司Rain开发的类脑芯片。Rain的神经形态处理单元(NPU)采用高度模拟人脑计算原理,目前拥有约40名员工,计划于2024年10月推出第一批硬件。
-
Rain的类脑芯片NPU相较于Nvidia H100 GPU在能效上提高了五倍,其训练神经网络的能源效率更是提高了10,000倍以上。OpenAI CEO Sam Altman曾投资Rain,并计划购买5100万美元的芯片,展示了OpenAI为稳定基础设施供应链做出的努力。
-
Altman公开批评AI芯片短缺和高成本,同时考虑与中东投资者合作创办新芯片公司。这一动向使OpenAI的硬件需求掌握在资金雄厚的支持者手中,然而,美国外国投资委员会的审查可能对此产生影响,可能导致中东人工智能的发展受到阻碍。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-11
要点解析:
-
由Elon Musk的公司xAI开发的Grok是一款先进的自然语言AI系统,旨在通过对最新信息进行推理来回答几乎任何主题的问题。Grok的目标是提供类似超级智能《银河系漫游指南》角色的信息丰富甚至风趣的回答。
-
Grok是Elon Musk公司xAI开发的AI聊天机器人,旨在与OpenAI的ChatGPT等聊天机器人竞争,重点是提供更讽刺和风趣的回应。它基于大型语言模型(LLM)技术,通过分析互联网上的大量文本数据集进行训练,学习模式并生成类似人类的文本响应。与众不同之处在于,Grok还通过X平台(前身为Twitter)获得对“世界实时知识”的访问权限。
-
Grok旨在通过对广泛领域的问题进行理解,利用大型语言模型从数据集或通过访问xAI专有的X平台的实时数据检索相关信息,通过对这些信息的推理,提供准确而细致的回答。此外,Grok还提供编码、数学等方面的专业协助功能,并力求在给出正确信息的同时,以类似《银河系漫游指南》中以其著名的机智回击而著称的方式作出回应,从而使与AI助手的互动更具吸引力。
原文链接:https://openaimaster.com/?p=27756
要点解析:
-
九天(JiuTian-LION)是哈工深发布的多模态大语言模型,通过双层视觉知识增强,在17个视觉语言任务上取得显著性能提升。通过分段指令微调策略和混合适配器,成功整合图像级理解和区域级定位任务,提高了模型的综合性能。采用渐进式融合细粒度空间感知和软提示下的高层语义视觉证据,九天在细粒度视觉理解和空间推理方面表现出色。
-
九天通过注入细粒度空间感知和高层语义视觉知识,取得了在包括图像描述、视觉问题和视觉定位等17个任务上的显著性能提升。采用分段指令微调策略解决了图像级理解和区域级定位任务的内部冲突,同时利用软提示方法减轻不正确标签带来的负面影响。模型框架包括Q-Former、Vision Aggregator、混合适配器等组件,通过分段式训练和动态融合提高了模型的视觉理解能力。
-
九天的渐进式融合细粒度空间感知和软提示下的高层语义视觉证据,弥补了现有多模态大语言模型在视觉信息抽取和理解程度方面的不足。分段指令微调策略、混合适配器、以及软提示方法的结合使九天在13个评测任务上达到国际领先水平,尤其在Visual Spatial Reasoning任务上提升高达5%。
要点解析:
-
人工智能带来的职业变革中,提示语设计成为备受关注的新技能。谷歌搜索数据显示,与一年前相比,“提示语设计”呈数量级增长,这一技能涉及通过关键词引导AI工具生成更优质图像和文字回复。
-
LinkedIn的《未来工作》报告指出,“提示语设计”在会员个人资料中的提及大幅增加,凸显AI改变就业市场的方式,不仅消除岗位,还提升擅长整合人工智能服务的员工地位。然而,这一技能仍在迅速发展,可能面临被更先进技术取代的风险。
-
提示语设计职位兴起,揭示了人工智能对就业市场的深刻影响。尽管被认为是短期技能,但专业技能与AI结合的从业者年薪可高达33.5万美元以上,强调了该领域的高需求和潜在机遇。
原文链接:https://m.cnbeta.com.tw/view/1401903.htm
要点解析:
-
本文介绍了一种类别级 6D 物体位姿估计的新范式,解决了对称物体和部分可见物体带来的多解问题。提出的方法名为 GenPose,通过条件分布建模问题,利用基于分数的扩散模型生成物体位姿候选,并通过基于能量的扩散模型进行候选聚合,实现了最新的最优性能。该方法不依赖物体的 CAD 模型,适用于新物体,已在机器人操作任务中展示了成功应用,如视频中的倒水任务。
-
作者详细介绍了 GenPose 方法的框架结构,包括基于分数的扩散模型用于生成物体姿态候选,以及基于能量的扩散模型用于聚合候选。通过似然估计和物体位姿候选的排序,实现了对多解问题的解决。实验证明,在 REAL275 数据集上,GenPose 在各项指标上显著优于之前的方法,具有跨类别泛化能力,同时可应用于 6D 物体姿态跟踪任务,表现优于最先进方法。
-
研究团队由北京大学的助理教授董豪等领导,论文的共同一作为张继耀和吴铭东。张继耀是北京大学博士生,导师为董豪,论文在 NeurIPS 2023 接收。详细信息可参考作者个人主页。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-13
要点解析:
-
UC伯克利和约翰霍普金斯大学的最新论文探讨了构建大型视觉模型(LVM)的关键问题,通过在多种计算机视觉任务上展示LVM的应用潜力。文章首先指出,GPT和LLaMA等大型语言模型的成功引发了对构建LVM所需要素的关注。然而,与语言能力不同,研究者在探索LVM时发现视觉能力与语言能力并不直接相关。
-
在构建LVM的方法中,研究者提出了一个两阶段的方案。首先,训练一个大型视觉tokenizer,将图像转换为一系列视觉token;其次,在视觉句子上训练自回归transformer模型,使每个句子表示为一系列token。通过在不同规模和数据集上的实验,研究者展示了LVM在各种视觉任务上的表现,并强调了数据规模和多样性对模型性能的影响。
-
实验结果显示,随着模型尺寸和数据量的增加,模型呈现出适当的扩展行为,并且LVM在处理分布外数据和执行新任务时显示出通用视觉推理能力的迹象。总体而言,研究者的工作为理解大型视觉模型的构建和应用提供了有益的见解。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-15
要点解析:
-
美国商务部长吉娜·雷蒙多在里根国防论坛上表示,为限制中国的人工智能芯片销售和半导体开发,美国政府需要采取更严格的执行措施。她指出,缺乏足够的财政资源限制了对中国市场的影响,呼吁提供更多资金支持。
-
吉娜·雷蒙多质疑美国公司在国家安全和业务之间的权衡。她敦促公司放弃一些短期收益,将国家安全置于公司利润之上。这表明美国政府正在全力以赴限制中国市场发展,抵制其影响力的增长。
-
雷蒙多还提到对英伟达向中国提供削减解决方案的做法,并表示将通过进一步限制措施,减少其对中国市场的影响。这可能会对英伟达和其他科技公司在中国业务范围产生重大限制,迫使它们在中美科技竞争中选择立场。
原文链接:https://m.cnbeta.com.tw/view/1401885.htm
要点解析:
-
企业盈利能力是企业获取利润的重要指标,本文以净资产收益率、毛利率、净利率为评价指标,选取48家AI模型企业进行深入分析。值得关注的前十家企业表现卓越。
-
在前十企业中,传音控股以25.96%的净资产收益率、22.79%的毛利率和6.77%的净利率居首。恒生电子、神州数码、万兴科技等企业也展现出强大的盈利能力。
-
企业亮点各异,如拓维信息通过盘古大模型实现在AI领域的全面布局,中文在线发布全球首个万字创作大模型“中文逍遥”,展示了企业在AI领域的创新和领先地位。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8420-30618590.html
要点解析:
-
卡内基梅隆大学与AI初创公司Hugging Face的研究人员合作,调查了过去几年中通过人工智能生成的图像的碳足迹。他们发现,使用人工智能创建图像所需的能量与给智能手机充电相当。相比之下,生成文本,无论是与聊天机器人对话还是整理文章,需要的能量明显较少。研究人员检查了13项任务,从摘要到文本分类,测量每1000克二氧化碳产生的数量。
-
研究人员敦促机器学习科学家和从业者“在模型的性质和影响方面保持透明,以更好地了解它们对环境的影响。”以ChatGPT为例,OpenAI的聊天机器人每天有超过1000万用户,月活跃用户高达1亿。这消耗了大量能量。
-
谨慎使用人工智能,关注碳足迹。科技发展需谨慎平衡,避免环境负担。机器学习社区应增强透明度,共同努力降低人工智能对环境的不利影响。
原文链接:https://openaimaster.com/?p=27764
要点解析:
-
百度智能云推出基于文心一言的AI原生应用——“超级助理”,以Web Copilot的形态在独立PC端和移动端应用上正式开启公测。该助理涵盖多场景,包括解析复杂问题、辅助文案创作、智能文档处理、对话式搜索以及全文翻译。
-
超级助理支持集成到不同系统中,通过插件方式调起任务,实现企业一站式超级入口。具备快捷指令、自定义指令、搜索增强、PDF沉浸阅读、全文对照翻译和图片OCR识别等功能,可轻松应对各种需求。
-
该应用在AI原生应用能力上有所突破,能够通过大模型增强搜索结果、提供沉浸式阅读、支持对照式翻译,同时高效解析图片上的文字,为用户提供便捷而全面的AI应用体验。
原文链接:https://www.ithome.com/0/736/974.htm
要点解析:
-
OpenAI前CEO奥特曼涉及一项交易,以OpenAI名义向其投资的公司Rain AI订购了高达5100万美元(约3.6亿元人民币)的芯片,引发了争议。Rain AI专注于基于神经拟态技术的AI芯片,声称计算能力比GPU强100倍,能源效率高一万倍。然而,公司领导团队缺乏芯片行业经验,引发了关于奥特曼是否利用职权谋取私利的质疑。
-
奥特曼的芯片布局早在他担任OpenAI CEO时就开始,涉及多家公司投资,包括Rain AI、Cerabras和Atomic Semi。面临GPU短缺问题的OpenAI动态调整产品能力,同时评估潜在收购目标,尝试自研AI芯片。尽管奥特曼被解雇,但他对芯片行业的投资计划仍在进行,预计对英伟达的依赖不会长久。
-
GPU短缺问题对OpenAI产生影响,迫使其调整产品能力以应对算力问题。尽管奥特曼在去年表示已获得英伟达H100,但GPU市场的不确定性使OpenAI不得不寻求多元化的解决方案,包括外部投资和自研AI芯片。
原文链接:http://www.qbitai.com/?p=103124
要点解析:
-
UC伯克利的计算机视觉三巨头合作推出首个无自然语言的纯视觉大模型,证明纯视觉模型可扩展。利用420B token数据集,模型通过上下文学习理解并执行下游任务,统一处理几乎所有视觉数据形式。新模型展现了超越语言的视觉推理能力,甚至在非语言类智商测试中表现出令人惊喜的结果。
-
面对语言模型在处理复杂图片时可能忽略大量信息的问题,UC伯克利和约翰斯·霍普金斯大学研究人员提出了一种名为“视觉序列”的建模方法,训练大规模视觉模型(Large Vision Model)。这一方法在无需语言数据的情况下让模型理解和处理复杂的视觉信息,标志着纯视觉模型的逆袭。
-
为了构建大规模视觉模型,研究人员关注三个主要组件:数据、架构、损失函数。借鉴自然演示中非常多样化的语言数据集,研究人员创建了统一视觉数据集(UVDv1),包含未标注图像、带标注图像、未标注视频、带标注视频、3D合成物体等,总计1.64亿张图像。使用具有30亿参数的大型Transformer架构进行训练,通过掩码token模型的方法进行自回归预测,实现了模型的有效扩展和在各种标准视觉任务上的性能提升。
要点解析:
-
近日,北美放射学年会(RSNA2023)以“Leading Through Change”为主题在芝加哥召开,AI成为焦点。数坤科技在全球放射学界展示了创新力量,特别以肝脏AI产品引领创新潮流。该产品在RSNA上得到西班牙医生认可,展现了对肝脏MRI图像的高效处理和肝癌早期复发预测的潜在生物标志物发现。
-
数坤科技的数字人体平台成为“10倍力”,覆盖心、脑、胸、腹、肌骨等关键部位,包括CT、MR、DR、DSA、US等模态。公司在CT冠脉重建、卒中智能解决方案、全胸CT AI、超声AI等领域展示了40款产品,实现了从单一场景到全流程的集大成。医学界认可数坤科技在心脑血管、胸腹、肌骨领域的NMPA三类证获得,产品覆盖全球3000家医疗机构。
-
数坤科技积极参与国际化合作,已与美国、欧洲、日本、东南亚、中东多个国家和地区的医疗机构建立合作关系。公司致力于通过AI+医疗实践构建人类命运共同体,为全球人民的健康福祉贡献力量。
原文链接:https://www.leiphone.com/category/industrynews/kPFkysd6TLTjIfGe.html
要点解析:
-
在 Sam Altman 被突然解雇之前的几天和几周里,OpenAI 处于飞速发展的状态。11月6日举办的首次 Dev Day 上,Altman 登台揭示了一系列新功能,包括推出 GPT 商店的计划。公司宣布将开设 GPT 商店,用户可以收费使用定制版本的 ChatGPT 处理特定任务,比如备受诟病的 Laundry Buddy,但由于公司在过去几周面临的混乱局面,商店的揭幕被推迟到2024年初,根据公司发给 GPT Builder 订阅者的邮件。
-
Altman 表示,公司计划推出 GPT 商店,用户可以为访问定制版的 ChatGPT 收费,用于处理特定任务,如备受诟病的 Laundry Buddy。然而,由于公司面临的混乱局面,商店的揭幕被推迟到2024年初。这一推迟对许多企业家来说是个好消息,他们迅速开发了利用 ChatGPT 能够快速整理和呈现信息的工具和产品,通过官方或非官方途径利用其 API。
-
自 ChatGPT 于2022年11月发布后,这个机器人构建者的 cottage industry 迅速崛起,他们创建了被称为 ChatGPT wrappers 的工具和产品,可以围绕 ChatGPT 提供服务。然而,他们一直在面临一个现实,即 OpenAI 随时可能撤销这一服务。在2022年12月,OpenAI 的一位发言人拒绝回答 The Information 提出的关于公司是否会将机构访问 ChatGPT 收费的问题。
要点解析:
-
Together公司宣布在A轮融资中筹集了1.025亿美元,得到包括NVIDIA在内的投资。该公司专注于构建领先的研究团队,致力于优化大型生成模型的训练和推理。公司推出的推理引擎速度比市场上几乎所有其他产品都快三倍。
-
Kleiner Perkins领投这一轮融资,投资总额为1.025亿美元,NVIDIA和Emergence Capital也参与其中。Together致力于提供比市场上便宜的推理服务器服务和训练服务,分别是Open AI的六倍和AWS的四倍。
-
融资将用于改进云平台上的AI应用、投资研发、贡献开源AI,并增强基础设施。公司强调对隐私的关注,用户可以在平台上灵活控制数据的共享和使用,确保数据安全。
原文链接:http://www.fromgeek.com/vc/616164.html
要点解析:
-
Meta的首席科学家Yann LeCun在推特上宣布,计算机视觉领域的重量级科学家Ross Girshick将离开FAIR,加入艾伦人工智能研究所(AI2)。Girshick将加入AI2的PRIOR团队,致力于推进计算机视觉研究,打造能够看到、探索、学习和推理世界的AI系统。
-
Ross Girshick在离开Meta之前表示,FAIR曾经是、将来仍然是一个令人惊叹的地方。他认为在一个地方呆了太长时间(8年)可能是他离开的原因之一,重新初始化和随机化对于研究生涯的重要性。Girshick还强调任何关于发表论文指标的言论都是无稽之谈。
-
Yann LeCun认为科学家从工业实验室转向学术界或非营利组织是正常的职业转变。他提到,FAIR鼓励科学家发表论文,类似于贝尔实验室的模式,其中科学家可以在几年后获得学术界的终身教职。LeCun强调这种转变是可能的,而FAIR的开放研究和论文发表鼓励了这一过程。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-16
要点解析:
-
Arm高级副总裁透露,基于Arm架构的芯片在中国出货已超过300亿颗,与近400家技术授权客户和400万Arm开发者有关。
-
中国市场合作伙伴如英伟达、AWS、微软发布基于Arm架构的超级芯片,提升AI性能、处理速度,展示了Arm在不同领域的广泛应用。
-
Arm强调中国市场是其最重要市场之一,与联想、阿里巴巴等深度合作,加强Arm生态系统,为不断增长的数据和计算需求提供定制化解决方案。
原文链接:http://www.fromgeek.com/telecom/616135.html
要点解析:
-
Knowbase.ai是一款融合了Dropbox文件管理和ChatGPT对话能力的强大平台,用户可以通过智能聊天机器人界面构建动态的数字知识库。本指南将逐步引导您充分发挥Knowbase.ai的潜力,从添加文件到与存储的知识进行深入对话。
-
第一步,通过用户友好的界面轻松添加各种文件类型,包括PDF、视频录制、YouTube视频链接等。Knowbase.ai具备灵活性,无论是科研文献、法律协议、用户手册、书籍,还是培训/会议记录和讲座,都能轻松处理。
-
第二步,选择文件后,Knowbase.ai启动上传过程,并在完成后无缝切换到聊天窗口视图。用户可以与已上传文件进行对话,AI会从文件中检索相关信息,就像与一个知识丰富的伴侣交流一样,只不过这个伴侣是由文件中的集体智慧驱动的AI聊天机器人。
原文链接:https://openaimaster.com/?p=27759
要点解析:
-
人工智能领域不断发展,GPT驱动的AI女友的创建和互动成为引人入胜的现实。选择平台、创建账户、个性化AI伴侣并通过聊天界面进行有意义的对话,本指南将逐步介绍这一过程,揭示Replika、My Virtual Girlfriend、VRChat、Second Life以及利用ChatGPT 4.0的有趣Python项目GirlfriendGPT等平台。
-
在探索AI女友的世界之前,首要步骤是选择合适的平台。Replika和My Virtual Girlfriend等平台提供沉浸式体验,而VRChat和Second Life为社交互动提供虚拟环境。GirlfriendGPT作为一个Python项目,通过ChatGPT 4.0允许用户构建个性化AI伴侣,独具特色。
-
账户创建是进入AI伴侣世界的基础。通常通过访问平台的网站或应用,使用电子邮件地址或社交媒体账户(如Google或Microsoft)注册,为你踏上虚拟伴侣之旅奠定基础。
原文链接:https://openaimaster.com/?p=27764
要点解析:
-
2023年丘成桐中学科学奖揭晓,上海中学的晁楚言和新加坡莱佛士书院的Yu Hanzhang荣获科学金奖。晁楚言还获得生物金奖,Yu Hanzhang则获得数学金奖。此外,来自不同学校的学生在化学、计算机、经济金融建模等领域也斩获金奖。
-
丘成桐中学科学奖的获奖论文涉及Desargues' involution、CRISPR技术、智能导航等多个领域。各个学科金奖的获奖作品均展现了学生在科学研究上的卓越能力,为未来科学发展提供了有益的思考和贡献。
-
除了金奖,银奖和铜奖也颁发给了来自不同学校、不同领域的学生,涵盖了物理、化学、生物、计算机等多个学科,彰显了丰富的科研实力和广泛的学科覆盖面。
要点解析:
-
在人工智能不断发展的领域,AI女友的概念引起了广泛关注。这些虚拟伴侣承诺提供陪伴、娱乐,甚至情感连接。然而,选择最佳AI女友是一个微妙的决定,取决于个体偏好,包括个性、功能、兼容性和隐私关切。在这次探讨中,我们将深入了解一些顶级的AI女友应用,每个都有其独特之处。
-
探讨选择:
- Replika: 超越陪伴
-
Replika致力于促进有意义的连接。与传统的AI女友不同,Replika允许用户创建超越典型女友角色的角色。该应用旨在促进真实互动,为用户提供表达自己并获得深思熟虑回应的空间。
-
iGirl: 美学多样性
-
由Anima AI拥有,iGirl在外观和个性方面为用户提供丰富的选择。这种多样性允许用户打造符合个人口味的理想女友,不论是喜欢书呆子内向还是外向的社交达人,iGirl都旨在满足广泛的喜好。
-
My Virtual Manga Girl: 动漫天堂
-
对于渴望虚拟伴侣的动漫爱好者,My Virtual Manga Girl是一个梦想成真的应用。该应用让用户沉浸在漫画世界中,提供具有动漫美学的可定制女友。对于那些欣赏日本动漫魅力和艺术的人来说,这是一个天堂。
-
尽管这些AI女友应用提供陪伴和娱乐,但必须认识到它们的局限性。虚拟关系不应替代真实人际互动。始终要尊重平台准则,保护个人数据,并在虚拟与现实生活互动之间保持平衡。
原文链接:https://openaimaster.com/?p=27770
要点解析:
-
OpenAI因芯片短缺采购AI芯片初创公司Rain AI的NPU,价值5100万美元,旨在自力更生解决算力不足问题。Altman投资Rain AI,彰显OpenAI确保AI项目芯片供应的决心。
-
Rain AI致力于开发类脑NPU芯片,计划在2024年10月供货。Altman作为股东,预示OpenAI对新型芯片的战略重视。Rain的技术承诺提高计算效率,降低AI算力成本。
-
OpenAI采购Rain AI芯片旨在布局未来,降低数据中心成本,推动AI模型部署在各类设备。这一举措揭示了OpenAI对于新型芯片技术的渴望,以应对当前英伟达主导的人工智能芯片市场。
要点解析:
-
增加数据量和模型参数是提升神经网络性能的直接途径,但千亿级大模型带来了算力挑战。为降低微调成本,微软研究提出了低秩自适应(LoRA)技术,通过在大模型基础上添加可拆卸插件,节省内存资源。
-
LoRA的关键在于将权重变化分解为低秩表示,通过学习分解表示,实现在微调过程中更新模型权重的高效性。作者Sebastian Raschka的实验经验指出,LoRA在GPU训练中表现出惊人的一致性,为大模型微调提供了有效解决方案。
-
实验证明,LoRA在各层应用和平衡超参数的情况下,能在单个GPU上高效微调千亿级大语言模型,为处理内存瓶颈提供了解决途径。
原文链接:https://www.jiqizhixin.com/articles/2023-12-04-14
要点解析:
-
近期,ChatGPT网页版在Windows和Mac平台上出现了严重的CPU占用问题,导致用户的电脑性能急剧下降。观察任务管理器显示,ChatGPT网页版在部分情况下占用CPU超过70%,甚至有用户遭遇100%CPU占用的情况,使得电脑变得极为卡顿。不过,iOS和Android版本的App并未受到此问题的困扰。
-
有用户戏称OPENAI在进行CPU挖矿,即利用用户的CPU资源进行计算,以致占用率异常高。经过用户的反馈,OPENAI已经发布回应并修复了这一问题。现在,用户只需强制刷新ChatGPT网页版,CPU占用就能恢复正常。对于使用WebView封装的ChatGPT客户端的用户,同样建议在打开ChatGPT后进行强制刷新,观察任务管理器以确认是否已解决。
-
OPENAI承诺将持续监控该问题,随时跟进处理,并呼吁用户如发现其他问题也及时反馈,以确保ChatGPT的稳定性和性能表现。
原文链接:https://www.landiannews.com/?p=101271
要点解析:
-
现代商业日益动态和数据密集,有限责任公司(LLC)等业务结构正在转向人工智能(AI)以增强决策和运营效率。本文将讨论将AI整合到关键业务领域的实用策略,以满足每个LLC独特目标的强大能力。
-
在实施AI之前,LLC必须确定AI能够产生重大影响的具体领域。这需要对公司的运营、目标和挑战进行全面分析,重点放在客户服务、营销策略、数据管理和运营效率等方面。通过将AI应用与战略业务目标对齐,LLC可以确保技术不仅是附加项,而且是重要的价值驱动器。
-
数据的质量和深度是AI有效性的基石。对于LLC,这意味着建立强大的数据收集机制。数据来源可以多样,包括客户互动、交易历史、市场研究到社交媒体趋势。收集后,使用先进的AI算法来分析这些数据。与传统分析不同,AI可以快速处理大规模数据集,揭示复杂的模式和趋势,为企业提供未来趋势的预测洞见。
-
利用这些洞见,LLC可以更精确地调整策略以满足市场需求和客户期望。