本文分类:news发布日期:2026/1/16 1:50:19
相关文章
从零构建高精度ASR系统|FunASR与speech_ngram_lm深度结合实践
从零构建高精度ASR系统|FunASR与speech_ngram_lm深度结合实践
1. 引言:提升语音识别准确率的工程挑战
在实际语音识别(ASR)应用中,即使使用最先进的端到端模型如Paraformer或SenseVoice,仍常面临诸如专业…
建站知识
2026/1/16 1:50:18
Fun-ASR-Nano-2512全面解读:云端按需体验,告别高额投入
Fun-ASR-Nano-2512全面解读:云端按需体验,告别高额投入
你是不是也遇到过这样的问题:公司会议一开就是两小时,会后整理纪要要花上半天?员工录音记笔记效率低,关键信息还容易遗漏?作为中小企业C…
建站知识
2026/1/16 1:50:06
FunASR长音频处理技巧:云端GPU省时80%方案
FunASR长音频处理技巧:云端GPU省时80%方案
你是不是也遇到过这样的情况?刚录完一场2小时的深度访谈播客,满怀期待地想把录音转成文字稿,结果一打开本地的语音识别工具——FunASR,进度条慢得像在爬。等了整整6个小时&a…
建站知识
2026/1/16 1:49:54
MGeo模型输入预处理技巧:文本清洗与标准化前置步骤详解
MGeo模型输入预处理技巧:文本清洗与标准化前置步骤详解
在地址相似度匹配与实体对齐任务中,尤其是中文地址场景下,原始数据往往存在格式混乱、表述多样、错别字频发等问题。阿里开源的MGeo模型专为中文地址语义理解设计,在地址相…
建站知识
2026/1/16 1:49:53
AWPortrait-Z闪电入门:30分钟掌握云端部署技巧
AWPortrait-Z闪电入门:30分钟掌握云端部署技巧
你是否也遇到过这样的情况:想带学员快速上手一个AI图像生成工具,结果光是环境配置就花了半天?安装依赖出错、CUDA版本不匹配、模型加载失败……这些问题不仅浪费时间,还…
建站知识
2026/1/16 1:49:23
DeepSeek-OCR-WEBUI 部署教程|GPU加速高精度文本识别
DeepSeek-OCR-WEBUI 部署教程|GPU加速高精度文本识别
1. 简介与核心价值
DeepSeek-OCR 是由深度求索(DeepSeek)开源的一款高性能光学字符识别大模型,专为复杂场景下的文本提取任务设计。其在中文识别准确率、多语言支持、低质量…
建站知识
2026/1/16 1:49:16
通义千问3-Embedding-4B性能测评:鲁棒性测试
通义千问3-Embedding-4B性能测评:鲁棒性测试
1. 引言
随着大模型在检索增强生成(RAG)、跨语言语义匹配、长文档理解等场景中的广泛应用,高质量的文本向量化模型成为构建智能系统的核心基础设施。阿里云于2025年8月开源的 Qwen3-…
建站知识
2026/1/16 1:49:11
FSMN VAD移动端适配:手机浏览器操作体验优化建议
FSMN VAD移动端适配:手机浏览器操作体验优化建议
1. 背景与挑战
随着语音交互技术的普及,语音活动检测(Voice Activity Detection, VAD)在会议记录、电话分析、音频质检等场景中发挥着关键作用。阿里达摩院开源的 FSMN VAD 模型…
建站知识
2026/1/16 1:49:07

