V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  JackalZhao  ›  全部回复第 1 页 / 共 5 页
回复总数  88
1  2  3  4  5  
你的网站里面的作品都只有一个标题,没有一句话简介。
11 天前
回复了 darluc 创建的主题 分享创造 利用 iPhone + Mac 的本地语音输入法
https://github.com/HaujetZhao/Bluetooth-Input 做了个蓝牙遥控输入的 demo ,希望对你有帮助。
5 月 23 日
回复了 AlangHa 创建的主题 分享创造 AI 音频降噪在线工具
本来预期是很低的,但用了一下,非常 amazing 呀,用的是这个模型吗: [Rikorose/DeepFilterNet]( https://github.com/Rikorose/DeepFilterNet)
5 月 21 日
回复了 darluc 创建的主题 分享创造 利用 iPhone + Mac 的本地语音输入法
能不能用蓝牙,而不强制需要同一网络?
我又找到了元老级软件「百变遥控」,2012 年就有了,我刚下载了,还能用,手机能蓝牙连接到电脑远程摇控,还能传输电脑画面,可以用作参考。之前我就想为何它不加个剪贴板同步功能。可惜后来没再更新。其实如果能做蓝牙连接共享的话,跨网络设备通信的问题就很好解决了。
蓝牙通信是可行的,Unified Remote Control 多端支持,可以蓝牙控制电脑,甚至能传输屏幕画面。它能验证可行性,只是它没有开源
一个想法,能不能蓝牙共享?

有的时候,手机连着流量,在电脑旁边,没有开 wifi ,而笔记本连着局域网,这时物理上相近,但网络上直连不到,打开手机等待连接 wifi 要浪费好几秒。
我现在用的是联想的「超级互联」,很好用,但他的问题是 windows 端在后台无缘无故占用 cpu
同质化,供大于求,买盘枯竭了
@MuyuQ 写 GUI 的天才们太多了,我比不过他们。Typeless 、千问、豆包,写界面都是一把好手,但输入体验没一个比得上 CapsWriter-Offline 的。不是赚钱项目,不期待电脑水平是幼儿园的用户能都会用,我的核心追求「把输入体验做到极致」已经达成了,写个 GUI 反而是累缀。

语音输入这件事,从第一性原理讲,本身也没有 GUI 的客观需求。

如果有大佬能把 CapsWriter-Offline 的所有功能都拿了去,再写出一个漂亮的界面,我必当竭诚欢迎。
@lifeOsDeveloper 离线版最好的模型精度会高很多
@yukminnie 想描述得心应手的输入状态,让 Gemini 推荐的词
@MuyuQ 实际用了下,2s 以上的转录延迟,根本无法接受。Typeless 也用了,延迟也是一言难尽。

你要是体验一下最新的 CapsWriter-Offline ,就能体会到真正的得心应手了,我就是作者,在 Windows 上的语音输入体验是无敌的程度。

@AIXAPI 正符合你所说的工程细节拉满。启用 LLM 润色功能后,延迟也比 Typeless 更低。
@peteretep InputTip 用过,是一个做的很完善的项目,但是我觉得他的提示效果有点过于明显,显得喧宾夺主,过度剥夺我的注意力,我希望提示的时候能够更含蓄一些,所以才写了这个项目。

@Paradoxos 如你所愿,刚刚增加了这样一个配置项,你把旧的配置项删除,然后下载更新后的 EXE 运行,就可以修改配置,隐藏托盘图标了。不过那样的话,你就只能通过任务管理器来结束它了。

@craftsmanship 目前,windows 上的 api 好像只能检测到输入法的模式有没有打开,但无法知道到底是什么语言的输入法,其实就是区别了英文状态和非英文状态。
@seven777 可以改配置的


@815979670 试过,没能实现
使用了,真的效果非常好,我用的是 sensevoice 。

反馈点问题:

1. 鼠标按键的监听是正常的,但是键盘上的 ctrl win shift alt 这些单个的按键没有办法监听到。CapsLock 可以监听到,但长按时并不能如愿工作,无法做到长按录音,刚按下去 0 点几秒就结束了。
2. 快捷键的可选按键太少了,鼠标按键映射的 F13 - F24 也检测不到,可不可以通过输入字符串解析快捷键?


提一些建议:

1. 加入基于拼音匹配的本地热词,对于几千个人名、股票名字、公司名字可以很好的快速的匹配。
2. 对于长按功能,在按键按下的时候就开始录音,只有当松开之后计算的时间小于 0.3 秒时就抛弃录音,当超过 0.3 秒阈值的时候就进行转录,这样可以避免按键按下之后等待触发的时间,用户可以按下按键之后就直接说话。
3. 阿里巴巴的 Fun-ASR-Nano 最近刚刚发布了,希望可以加入,不过它的时间戳功能还需要一段时间才能发布。
4. Fun-ASR-Nano 和 whisper 对性能要求高,如果有独显的话,希望能独显加速。
我主要用语音输入法,72M 的模型很难让我信服它的准确率,如果能加上 sensevoice 8bit 量化( 200M ),我再来支持
1. 快捷键不能设为包含 PrtSc 按键,我在 Snipaste 里可以设 PrtSc 为截图键、Ctrl + PrtSc 为贴图键,所以暂时还是得用回 Snipaste
2. QQ 的序号标注,可以输入文本,希望在 PixPin 里也能实现
用 iPad Pro 下载了,看着不错。不过在此之前,我也找到了一个功能类似的应用,是个英文 App ,叫「 Night Vision 」,它不光可以调用后置摄像头作为夜视仪,还能调用前置 FaceID 作为夜视仪使用。https://apps.apple.com/cn/app/lidar-infrared-night-vision/id1544262327


另外还有一个软件 「 Heges 」也可以调用后置 LiDAR 和前置 face id 夜视,不过可以调整距离和精度。https://apps.apple.com/cn/app/heges-3d-scanner/id1382310112
2023 年 6 月 9 日
回复了 soso23471234 创建的主题 程序员 汇报一下最近微信对接 ai 的效果
沙漠里种树?
1  2  3  4  5  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1008 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 19:14 · PVG 03:14 · LAX 12:14 · JFK 15:14
♥ Do have faith in what you're doing.