专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 阿里通义实验室开源MAI-UI,从2B到235B全尺寸模型破解真实世界部署难题。 MAI-UI通过引入端云协同架构 ...
将豆包大模型深度植入手机操作系统底层,获得 Android 系统级高危权限INJECT_EVENTS(注入事件) 实现 "视觉识别 + 模拟触控" 的 GUI Agent(图形用户界面Agent)技术,无需 App 配合即可跨应用操作。(结构化UI用XML解析,非结构化UI用像素级VLM定位,精准识别复杂界面 ...
近日,阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3和 GUI-Owl,这些工具旨在解决图形用户界面(GUI)自动化中的一系列挑战。 现代计算设备普遍采用图形用户界面,然而,以往的自动化方法往往依赖于复杂的脚本和手工规则,效果并不理想。
本文第一作者唐飞,浙江大学硕士生,研究方向是 GUI Agent、多模态推理等。该工作为唐飞在蚂蚁大安全实习期间完成,蚂蚁大安全致力于打造通用GUI操作智能体,本文为蚂蚁UI-Agent(后续发布)的部分内容。本文通讯作者沈永亮,浙江大学百人计划研究员,博士 ...
近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出 ...
LittlevGL是一个免费的开源图形库,提供了创建嵌入式GUI所需的一切,具有易于使用的图形元素、漂亮的视觉效果和低内存占用 ...
最新版本的LVGL带来了更多功能和性能优化,GUI Guider现已全面支持LVGL v9.2.1,助你打造更流畅、更美观的用户界面。 02 VIT语音驱动HMI支持(LVGL v8) 语音交互正成为人机交互的重要趋势。GUI Guider 新增VIT(Voice Interaction Technology)支持,结合LVGL v8,让你轻松实现语音 ...
IT之家10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。 项目背景 传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。
创建并激活 Conda 环境: pip install -r requirements-noversion.txt conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia 备注 ...
在这个充满创新与挑战的时代,我们深知高效、灵活的GUI设计工具对人机交互应用的重要性。经过几个月的精心打磨与测试,GUI Guider V1.8.0全新版本正式上线了!本次更新不仅带来了前所未有的设计自由度,更在功能优化与用户体验上实现了质的飞跃。 下载GUI ...
作为恩智浦着力打造的一款嵌入式人机交互应用开发工具,GUIGuider又迎来了一个新版本!最新发布的GUIGuider v1.7.1增加了视频转换功能,可以帮助用户灵活地转换原视频,包括长度裁剪、大小转换和帧率转换。 本文引用地址: Guider是恩智浦研发的一款用户友好 ...