一种基于文本辅助的视频到音频生成方法