KKLab 以生成式 AI 創作饒舌歌曲,簡單說明 AWS 如何協助 AI 應用的開發
生成式 AI 對話服務讓一般消費者直接體驗到科技的進步,但面向開發者端的時候,到底要如何選擇自己最合用的 AI 服務?要有多少的前期投資才可以滿足要求呢?跟微軟、Google 的方向不一樣,Amazon 旗下 AWS 希望透過提供 Bedrock、SageMaker 等服務來便利開發者,預先提供需要的硬體、軟體、API 等方案,讓開發者只需要專注到 app 本身的編寫就可以。
小編獲邀與 AWS 香港的代表,以及他們其中一個使用 AWS SageMaker 服務的開發商 KKLab 進行訪談,了解一下今天開發生成式 AI 時會遇到的問題,還有會用到的解決方案。這或許能夠為正在煩惱如何起動專案的你,帶來一點想法。
先來的就是一首饒舌作品《Machine Mind》,歌詞、編曲都由不同的 AI 模型生成,再由人類創作者整合出版,其中的「Lyricist.ai 靈魂寫手」更獲著名詞人林夕協助開發,不管是用字、押韻方面都有著一定水準。
KKLab 在 AI 和機器學習方面早早就有投入,累積了 10 年以上的技術經驗。在搶先測試使用 AWS 的 LLM 大語言模型、EC2 執行個體和 SageMaker 服務後,發現「靈魂寫手」的模型訓練時間由過往的數小時,大大加速至僅需要數分鐘就能完成。
以《Machine Mind》的創作過程為例,是先由人類創作者提供靈感片語和訊息內容作參考,進入不同 AI 服務裡就會各自生成歌詞和韻腳,接著就能開始生成旋律和精修韻腳,此時歌曲雛型就開始出來。再來就有編曲、demo 等的步驟,當然也會有反覆的修改,但因為都由 AI 重覆生成,所以溝通、理解的需時就大大減少了。
對於音樂創作人來說,這樣的工具到底會否對他們的生計帶來壓力呢?KKLab 認為不會,反而是能透過讓創作人專注更創作、提高整個業界的效率。回到「靈魂寫手」服務,他們的開發方向會是「填詞人的助手」,提供符合使用者提供的靈感和要求而生成的「選擇」,要使用哪個、如何使用都是以人類使用者自己的口味、感受、經驗,「靈魂寫手」只是簡化了中間需要花時間苦苦思考的過程。
特別是音樂作品、文藝創作,這些內容畢竟還是需要人類的創作做為起始、選用、潤飾,才會有所謂的個人風格、作品溫度的感性部分。
同樣的道理,Amazon Web Services 所做的也是一樣,要為開發者提供本來可能需要千萬資金才能組建起來的基建環境,以各種不同層級的服務來滿足今天開發者在 AI 產品的編程。打比方說 AI 開發案首要有基礎模型(Foundation Models),這需要大量人力物力來開發的元素,就可以藉由 Amazon Bedrock 去挑選現成的語言模型、影像模型和媒體模型的 API(Titan Text、Titan Embeddings、Jurassic-2、Claude、Stable Diffusion)來直接開始操作。如果是需要運算力,Amazon EC2 服務也能代勞,不用自行組建伺服器。
看到大家跟生成式對話機器人玩得不亦樂乎,證明了 AI 已經不再是遙不可及的超高科技,而是愈來愈貼近消費者端的產品,不妨也善用業界提供的各種服務來打造自己的吧。