百度云長文本語音合成服務:提升新聞播報 AI 智能體的專業感
我們研發了各式各樣的工具,這些工具悄然無聲地影響著我們的生活,既帶來了喜悅,也帶來了遺憾。以之前為例,我們運用了智譜開源模型GLM-4-Voice進行語音生成,卻發現語音質量存在瑕疵,長文本刪減成了難題。這促使我們不斷尋求改進,最終轉向了百度云的長文本語音合成服務。
獲取百度云服務的必要性
在現今社會,高質量的語音合成顯得尤為關鍵。這種技術廣泛應用于多個領域,新聞行業便是其中之一。過去,智譜模型存在缺陷,導致其在實際應用中受到諸多限制。在眾多辦公場所,人們迫切需要高質量的語音轉換服務,尤其是對于新聞播報這類對語音準確性和流暢性要求極高的領域。眾多從業者都曾因語音工具的不足而感到困擾。如今,百度云服務有望為解決這些問題提供有效途徑。
另一方面,用戶對工具的需求也在不斷提升。以日常使用語音功能的人群為例,他們普遍期待聽到自然流暢、仿佛真人發出的語音。哪怕是微小的瑕疵,都可能影響使用感受,這也驅使他們尋求更優質的服務。
獲取Token的流程與意義
def?fetch_access_token():
????url?=?"https://aip.baidubce.com/oauth/2.0/token"
????params?=?{
????????"grant_type":?"client_credentials",
????????"client_id":?API_KEY,
????????"client_secret":?SECRET_KEY
????}
????response?=?requests.post(url,?params=params)
????response.raise_for_status()??#?檢查請求錯誤
????return?response.json().get("access_token")
獲取Token至關重要,是使用百度云API的必備憑證。這一步驟非常嚴格。程序員必須精確編寫特定代碼。這些代碼會向百度云認證服務器發送POST請求。在請求過程中,會攜帶必要參數以獲取Token。無論開發者身處何地,只要使用百度云語音合成功能,都必須完成這一步驟。
這個環節看似繁雜,實則影響深遠。若缺少這個Token,便如同門外漢,無法觸及門內的服務。眾多開發者實踐證明,一旦這一步出錯,后續工作便難以進行。
創建文本轉語音任務
成功獲取Token后,便進入創建文本轉語音任務的環節。這一階段需要編寫代碼來構建請求URL和請求體。其中涉及許多關鍵參數。例如,文本內容決定了語音轉化的來源;音頻格式會影響到最終語音文件的類型,比如MP3等;而音庫的選擇則關系到語音的風格。
def?initiate_text_to_speech_task(text_list):
????access_token?=?fetch_access_token()
????url?=?f"https://aip.baidubce.com/rpc/2.0/tts/v1/create?access_token={access_token}"
????payload?=?{
????????"text":?text_list,
????????"format":?"mp3-16k",
????????"voice":?5118,
????????"lang":?"zh",
????????"speed":?5,
????????"pitch":?5,
????????"volume":?5,
????????"enable_subtitle":?0
????}
????headers?=?{
????????'Content-Type':?'application/json',
????????'Accept':?'application/json'
????}
????response?=?requests.post(url,?headers=headers,?json=payload)
????response.raise_for_status()
????return?response.json()
這一過程首先是將冰冷的文字變為有聲內容的關鍵轉換。新聞編輯者輸入新聞稿件后,期望通過這一任務生成適合播報的語音。同時,程序員在編寫這一環節的代碼時,必須依據實際需求,精確設置相關參數。
查詢任務狀態的重要性
任務創建后,必須及時查詢其狀態。這通常是通過向百度云的查詢接口發送POST請求,并附上任務ID來實現的。目的是為了知曉何時能夠獲取到合成的語音。這個過程就如同等待面包烤熟一般。
任務完成后,您將獲得合成語音文件的鏈接。然而,若在實際操作中未能及時查看任務狀態,語音文件可能早已生成,而您卻渾然不覺,仍在等待。這種情況下,不僅浪費了資源,還耗費了寶貴時間。這種現象在眾多企業流程中,往往會對工作效率造成嚴重影響。
程序主函數的集成意義
def?query_task_status(task_id):
????access_token?=?fetch_access_token()
????url?=?f"https://aip.baidubce.com/rpc/2.0/tts/v1/query?access_token={access_token}"
????payload?=?{"task_ids":?[task_id]}
????headers?=?{
????????'Content-Type':?'application/json',
????????'Accept':?'application/json'
????}
????response?=?requests.post(url,?headers=headers,?json=payload)
????response.raise_for_status()
????return?response.json()
主函數負責整合前述各項功能。它首先創建任務,然后持續查詢狀態,直至任務完成。這一過程對于構建新聞播報AI智能體的完整流程至關重要。以大型傳媒公司為例,開發者必須將這一流程串聯起來,才能實現新聞播報的自動化。
若這一環節處理不當,便會發生脫節。盡管前項任務已完成,卻無法有效整合,導致最終無法為用戶提供從新聞文字到語音播報的連貫體驗。
最終成果體現出的意義
完成了前面的所有步驟,新聞文本已被迅速轉換成了語音。這樣的轉換讓用戶享受到了便捷的聽新聞體驗。就像在公交車上,想要聽新聞,現在也能輕松做到。
def?main():
??????text_list?=?[
????????"歡迎收聽今日財經快訊:",
????????"1 華為正式發布首個國產移動操作系統:華為正式發布了首個國產移動操作系統HarmonyOS 5,這是鴻蒙系統第五個大版本,也是第一個實現完全自主的版本,沒有摻雜其他操作系統,僅支持鴻蒙內核和鴻蒙系統的應用。HarmonyOS 5在設計和UI上有了很大的變化,特別是在系統的流暢度和各層級界面、各種不同App之間的切換動畫和動效,都有了更加細節和真實的考量。HarmonyOS 5通過算法,用“光·形·色·力·時空”模擬出了真實世界的物理規律和光影效果。",
????????"2 8點1氪|微信內測“查刪單向好友”功能;肯德基被曝用轉基因大豆油;許家印香港豪宅6折急尋買家:微信正在進行一項新功能內測,可以查看已刪除自己的聯系人/好友,并可以選擇性篩選與刪除。肯德基被曝使用轉基因大豆油,天津多家門店被立案調查。許家印兩座香港豪宅滯銷,繼續大幅降價求出售。",
????????"3 Claude 3.5深夜覺醒,學會模仿人類用電腦,編程干翻o1,Agent一夜變天:Anthropic AI發布了Claude 3.5 Haiku和Claude 3.5 Sonnet,全新升級版Claude 3.5 Sonnet一舉擊潰OpenAI o1,堪稱最強推理模型。Claude 3.5 Sonnet是首個在公測中提供此功能的模型,可以像人類一樣使用計算機,不僅可以查看屏幕、移動光標,還可以點擊按鈕、鍵入文本。",
????????"4 iPhone 17 系列最新爆料:史上最輕薄的蘋果手機來了:iPhone 17 系列可能會帶來自2017年發布iPhone X以來最大的設計更新。爆料稱蘋果將會在2025年發布iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max三款常規機型。最受關注的機型非iPhone 17系列中“可能的”全新產品線iPhone 17 Air/Slim系列莫屬。iPhone 17 Air/Slim系列手機將搭載采用臺積電3nm工藝制造的A19芯片,配備一塊6.6英寸可變刷新率ProMotion顯示屏,最高支持120Hz刷新率。",
????????"5 當霸王茶姬們卷到香港去,留給它們的好鋪子卻不多了:一大批內地茶飲品牌正在爭相入港。目前,內地茶飲品牌在香港門店數量最多的是喜茶,自2018年進入香港后,經歷了閉店與重新擴張,喜茶目前在港開店6家。但從增速來說,2023年12月才入港的蜜雪冰城,如今開了5家門店,實屬最快。相較于內地,這個速度并不值得稱道。在香港,內地茶飲品牌的開店速度都十分克制。選址是內地茶飲品牌在香港拓店時考慮的最核心要素。",
????????"6 「純血鴻蒙」,真的能跟安卓、蘋果三分天下?:華為HarmonyOS Next(原生鴻蒙)正式發布,命名為HarmonyOS 5,是鴻蒙操作系統第五個大版本,也是第一個實現完全自主的版本,沒有摻雜其他操作系統,僅支持鴻蒙內核和鴻蒙系統的應用。HarmonyOS 5在設計和UI上有了很大的變化,特別是在系統的流暢度和各層級界面、各種不同App之間的切換動畫和動效,都有了更加細節和真實的考量。HarmonyOS 5通過算法,用“光·形·色·力·時空”模擬出了真實世界的物理規律和光影效果。",
????????"7 剛剛,深圳380億IPO敲鐘:怡寶母公司華潤飲料正式登陸港交所掛牌上市。此次IPO,發行價14.5港元/股,開盤高漲13%,市值380億港元。這是今年港股募資第二大IPO,引入瑞銀資產、香港中旅、中郵保險、橡樹資本、博裕資本等9家基石投資者。相比華潤飲料,怡寶純凈水更為人熟悉。上世紀八十年代起家于深圳蛇口,怡寶在90年代末才正式加入華潤集團大家庭,2001年開啟經典小綠瓶包裝后,怡寶純凈水很快遍及大街小巷。",
????????"8 「禁欲系」消費,騙哭了多少新中產:長期主義消費雖然范圍廣闊,卻有共同的宗旨:主打一個人到中年,不吃“便宜”的苦。這一下子就走進了中產的精神世界。畢竟《30歲的長期主義,錢別亂花,要買就買最好的》。既然是最好的,那貴也是在情理之中。每個長期主義爆款標題下配的照片,都是清一色的輕奢/高奢經典款。單價上千的中產三寶lulu、拉夫、始祖鳥,算不上長期主義的優等生,最多只是入門級。",
????????"財經快訊播報完畢,感謝您的收聽!"
????]
????task_response?=?initiate_text_to_speech_task(text_list)
????task_id?=?task_response.get('task_id')
????if?not?task_id:
????????print("Failed?to?create?task.")
????????return
????print(f"Task?created?successfully?with?ID:?{task_id}")
????while?True:
????????task_status_response?=?query_task_status(task_id)
????????tasks_info?=?task_status_response.get('tasks_info',?[])
????????if?tasks_info:
????????????task_info?=?tasks_info[0]
????????????task_status?=?task_info.get('task_status')
????????????if?task_status?==?"Success":
????????????????print("Task?completed?successfully.")
????????????????task_result?=?task_info.get('task_result',?{})
????????????????speech_url?=?task_result.get('speech_url')
????????????????print(f"Speech?URL:?{speech_url}")
????????????????break
????????????elif?task_status?==?"Running":
????????????????print("Task?is?running.?Waiting...")
????????time.sleep(5)
if?__name__?==?'__main__':
????main()
這也說明,自從我們研發出百度云語音合成工具后,它對我們的新聞信息獲取方式產生了反作用。由此引發疑問,未來的工具又將如何塑造我們的生活?期待大家的點贊、轉發,并在評論區熱烈交流。
作者:小藍
鏈接:http://www.huanchou.cn/content/4636.html
本站部分內容和圖片來源網絡,不代表本站觀點,如有侵權,可聯系我方刪除。