layout
default

嵌入式AI简报 (2019-07-30)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

阿里平头哥第一颗产品——玄铁910首次交货 | 量子位
摘要：7月25日，玄铁910正式亮相发布。这并非一款C端常见的完整集成芯片。玄铁910，基于RISC-V开源架构开发，核心针对高性能计算，是一款IP core，是一款处理器，也可以理解为就是SoC里的CPU。或许以英特尔和ARM为参照，更容易理解玄铁910定位。它不是英特尔一样完全整合的CPU，而是ARM类似的CPU IP形态，华为麒麟需要用，高通骁龙需要用，三星苹果的手机芯片也离不开。只是平头哥玄铁，面向AIoT，面向更丰富的万物互联场景，性能更高，适用性更广，开发和进一步流片量产的门槛更低。
单位性能7.1 Coremark/MHz，主频在12nm工艺下达到了2.5GHz。性能比公开的RISC-V最好处理器还要提升40%，主频功耗仅为0.2瓦。而且玄铁910采用3发射8执行的复杂乱序执行架构，是公开的RISC-V处理器中——首个实现每周期2条内存访问的处理器。并进一步实现了对RISC-V指令的系统性增强，扩展到50+条指令，系统性增强了RISC-V的算术运算、内存访问和多核同步。
若进一步横向比较，玄铁910与ARM v8的高性能处理器A72，处于同一水平。更直接来说，拿玄铁910打造旗舰手机芯片，完全OK。
高通入门级移动平台骁龙215发布：性能增50% | 安兔兔
摘要：高通宣布推出旗下的入门级移动平台骁龙215，这是一款面向低端手机的全功能SoC芯片。规格方面，骁龙215采用28nm工艺打造，四核心Cortex-A53架构，主频1.3GHz，GPU为Adreno 308。
首发联发科12nm芯！vivo Y7s上架：1798元 | 安兔兔
摘要：vivo在印度尼西亚推出了新机S1，搭载了联发科P65芯片，上架一款Y7s，目前开启预约，售价1798元，同样搭载P65，外观配置基本与印尼版S1相同。
P65是联发科上个月发布的一颗新U，采用12nm制程工艺八核心，集成两颗ARM Cortex-A75 CPU，频率为2GHz，以及六颗Cortex-A55处理器，频率为1.7GHz，八核丛集系统共享一个大型L3缓存。
华为 Mate 20 X 5G 版发布 | 雷锋网
摘要：5G 版 Mate 20 X 搭载麒麟 980 芯片，外挂巴龙 5000 基带芯片，两颗芯片均为 7nm 制程。
除了发布 5G 版 Mate 20 X，华为智慧屏战略也正式公布——华为智慧屏将成为家庭场景中的智慧交互中心、跨屏体验中心、IoT 控制中心和影音娱乐中心。华为智慧屏还将搭载自研的麒麟 AI 芯片，鸿鹄智慧显示芯片，凌霄 WIFI 芯片；搭载的 HiAI 引擎涵盖智能终端语音、自然语言处理、人脸、人体、图像、视频、OCR 与用户画像 8 大业务领域。
不止麒麟985 华为还将全球首发集成5G基带的7nm芯片 | CNMO手机中国
摘要：近日，日媒报道称，华为今年准备一口气推出两款旗舰级麒麟芯片，第一款是用于Mate 30系列的麒麟985，采用台积电第二代7nm EUV工艺打造。这款芯片也承载着华为Mate 30系列大规模出货。第二款芯片是全球首款集成5G基带SoC，也就是单颗芯片整合AP（应用处理器）+BP（基带处理器），同样采用7nm EUV工艺，并且最快年底前就可以和用户见面。猜测其命名可能会是麒麟990。
谷歌预热Pixel 4两大全新功能：真·人脸解锁+隔空体感操作 | 新智元
摘要：今年秋天谷歌即将推出Pixel 4，两大亮点着实吸引人的眼球：
人脸识别：Pixel 4 将具备人脸识别解锁的功能，将成为第一款支持真立体识别的 Android 手机。基于运动感应雷达Soli的技术开发。雷达技术在近几十年来就一直用于探测飞机和其他大型目标。Pixel4顶部安装了一台微型雷达，可以感知手机周围的目标的微小动作，这一技术结合了独特的软件算法与先进的硬件传感器，可以识别手势，并在用户靠近时检测出来；
体感识别：用户可以隔空用手势控制手机，可以用来换歌、让电话铃声静音，以及关闭闹铃！

论文

Facebook新压缩算法Bit Goes Down:5MB的神经网络也高效 | 量子位
摘要：为啥是5MB，因为1MB的精度不如HAQ方法。Facebook提出了一种适用于ResNet类架构的压缩方法，利用了结构化量化算法PQ（Product Quantization）中卷积的高相关性，关注activations的重建，非权重本身。换句话说，该方法只关注域内输入的重建质量。
让未经压缩的神经网络充当“老师”，利用蒸馏提炼（distillation）技术来指导“学生”网络的压缩。该过程是无监督的，即不需要标注数据。ResNet-18经过该方法压缩29倍，模型大小1.54MB，top-1准确率比原模型降低不到4%。此外，ResNet-50、MobileNetv1/v2也有类似表现。见：https://github.com/facebookresearch/kill-the-bits
Benchmarking TPU, GPU, and CPU Platforms for Deep Learning | 机器之心
摘要：为了系统地对深度学习平台进行基准测试，研究者提出了 ParaDnn，这是一个用于深度学习的参数化基准测试套件，它能够为全连接（FC）、卷积（CNN）和循环（RNN）神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2/v3、NVIDIA 的 V100 GPU，以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构，揭示了它的瓶颈，并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比，发现每个平台对某些类型的模型都有自己独特的优势。最后，他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。
有关深度学习算法的基准测试论文已是汗牛充栋，但对硬件平台进行测试的论文很少见。通过本论文，读者可系统了解各种机器学习训练的平台特性，并针对自身的需求选择：https://arxiv.org/pdf/1907.10701.pdf 。

开源项目

复现FastDVDNet：实时视频去噪算法 | 张斌 CVer
摘要：FastDVDNet是一种比其他SOTA方法速度更快的视频去噪方法。计算机视觉中的视频去噪方法，大多基于传统算法，如VBM4D等non-local，还有一些是常见图像去噪方法的简单扩展。由于视频有着较强的时间相关性，那么一个好的视频去噪算法必将要充分利用这一特点。利用时间相关性主要体现为两个方面：
1. 对于给定的patch，不仅要在同一帧的相邻区域搜索像素的patch，也要在时间相近的frame上进行搜索；
2. 使用相邻时间的frame还可以有效减少flockering，因为每一帧之间的残余就会是相关的。
  为了解决motion带来的对齐困难问题，DVDNet中使用光流进行了显式的估计，但是光流的计算是比较耗时的，即便是快速算法也是如此。对于encoder-decoder结构的U-Net，其本身具有在感受也范围内对齐的功能，因此，在FastDVDNet中采用了这种做法，也就提高了性能。
OpenCV 4.1.1 发布 | OpenCV中文网
摘要：更新东西挺多的，重点有：
1. DNN方面。支持3D卷积的Convolution、BatchNorm、Pooling、Eltwise，Deconvolution3D也实现了，但仅在使用 DNN_BACKEND_INFERENCE_ENGINE时支持。英特尔推理引擎（Intel Inference Engine），其中支持异步推理；使用dot文件实现深度学习网络的可视化；对ONNX 与 TenforFlow importers 模型转换进行了改进；
2. 性能方面。大量广泛通用的内部函数，支持 AVX512 SIMD加速等；
3. 安卓支持方面。添加了CameraActivity实用程序类，以自动化Android上的Camera权限处理；默认的C ++运行时库，因体积等考虑，由默认静态改成默认动态；统一了JavaCamera2View/JavaCameraView之间选择帧大小的编码。
联邦学习开源框架FATE | 机器之心
摘要：FATE的特别之处在于，它源自微众银行进行大数据风控建模的实际场景，因此 FATE 是一个生产系统，它的可扩展性非常优秀。FATE 自带一个分布式计算框架，它的稳定性比一般的研究型项目好很多，而且预测和训练也都集成在了一起。
FATE 并不只有一个框架，它还带了一些经典算法，包括线性回归、提升树和其它分类模型等。这些都得到了大量实践证明，是工业上很常见的方法，所以如果开发者不愿意从头构建，那么就可以直接使用这些方法，或者在这些方法上做修改。
随着手机芯片越来越强和5G，联邦学习落地到广大移动端设备并不会太远。
Stanford CS217: Hardware Accelerators for Machine Learning
摘要：课程讲义（Lecture Notes）可以在https://cs217.stanford.edu下载。

博文

华为鸿蒙系统会用在哪？首发设备曝光 | 安兔兔
摘要：鸿蒙操作系统的最大特点是低时延，它与安卓、iOS是不一样的操作系统。开发设计的初衷是用于物联网，比如工业控制、无人驾驶等场景的支撑使用，现在首先将落地在手表、智能8K大屏上、车联网上。
主流的手机散热技术有哪些，哪个更好 | 电子产品世界
摘要：有一份研究表明，手机内部电子元器件因热量集中引起的材料失效，占据总失效的65%-80%，换句话说，手机内部电子元器件因热量堆叠，导致温度过高，进而影响处理器正常工作，轻则导致系统卡顿，重则导致元器件损坏。因此，散热技术成为目前影响手机性能发挥的关键点之一，那现在主流手机散热技术，都有哪些呢？一起来看看吧。
轻量级网络/检测/分割 | 陀飞轮知乎
摘要：由于深度学习的关系，计算机视觉领域发展迅速，各大榜单精度刷的很高，但是这些性能强大的模型却没有用武之地，在现实场景下，更加需要的是轻量级的模型。本文将从轻量级网络(MobileNetV2、ShuffleNetV2)、轻量级检测(Light-Head R-CNN、ThunderNet)、轻量级分割(BiSeNet、DFANet)3个方面进行介绍。
知识蒸馏（Knowledge Distillation）最新进展（一） | 孟让知乎
摘要：知识蒸馏是一种模型压缩常见方法，用于模型压缩指的是在teacher-student框架中，将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来，传递给参数量小、学习能力弱的网络。蒸馏可以提供student在one-shot label上学不到的soft label信息，这些里面包含了类别间信息，以及student小网络学不到而teacher网络可以学到的特征表示‘知识’，所以一般可以提高student网络的精度。
用了这么多年的 CPU 利用率，其实是错的 | 王强陈善佩 Linux阅码场
摘要：CPU 利用率已经开始成为一个容易误导的指标：它包含访存导致的等待周期，这样会影响一些新应用。也许 “%CPU” 应该重命名为 “%CYC”（cycles的缩写）。要清楚知道 “%CPU” 的含义，需要使用其他指标进行辅助，其中就包括每周期指令数(IPC)。IPC < 1.0 多半意味着访存密集型，IPC > 1.0 多半意味着计算密集型。作者之前的文章中涵盖有 IPC 说明，以及用于测量 IPC 的 Performance Monitoring Counters（PMCs）的介绍。
所有的性能监控产品如果展示 “%CPU”，都应该同时展示 PMC 指标用于解释其真实意义，不要误导用户。比如，可以把 “%CPU” 和 “IPC” 一起放，或者说指令执行消耗周期和 stalled 周期。有这些指标之后，开发者和操作者就能够知道该如何更好地对应用和系统进行调优。
嵌入式中是否应该使用动态内存 | RTThread物联网操作系统
摘要：
1. 没有使用RTOS的项目：不建议使用动态内存，这种项目一般很简单，不必使用动态内存增大系统开销和复杂度。
2. 使用RTOS的消费级项目：建议使用动态内存，一般这种项目代码复杂度比裸机高，合理使用动态内存会有效降低内存的开销。同时很多Github项目的linux程序都是会使用内存管理，有这套机制能更加方便的移植代码。
3. 使用RTOS的军工、航天、医疗等高稳定性和高安全性项目：建议尽量降低对动态内存的使用与依赖以确保系统的稳定性。当然也不代表动态内存就无法在这些项目上使用，只是要求系统开发者对系统内存的把控要求更高。
深度学习框架的来龙去脉——史上最全面最新的深度学习框架对比分析 | 知乎
能耗换取灵活性，今天的 FPGA 走错路了? | 机器之心
摘要：在 FPGA 广泛应用的今天，康奈尔大学计算机科学助理教授 Adrian Sampson 思考它是否走在正确的路上，如何能够实现通用 FPGA 等问题。

往期回顾

2019-07-15
2019-06-29
2019-06-17
2019-05-30
2019-05-15
2019-04-27
2019-04-13
2019-03-31

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-07-30.md

2019-07-30.md

嵌入式AI简报 (2019-07-30)

业界新闻

论文

开源项目

博文

往期回顾

Files

2019-07-30.md

Latest commit

History

2019-07-30.md

File metadata and controls

嵌入式AI简报 (2019-07-30)

业界新闻

论文

开源项目

博文

往期回顾