人工智能自然语言处理,有哪些应用场景?
没天赋别怕,NLP技术分分钟让你变身音乐大师全文共2760字,预计学习时长6分钟或更长
图片来源:pexels
机器学习算法变革了视觉领域与NLP(自然语言处理)领域,那音乐领域呢?近年来,音乐信息检索(MIR)发展势头迅猛。本文将探讨如何将NLP领域的技术应用到音乐领域。
近期, 在Chuan、Agres和 Herremans (2018)联合发表的一篇论文中,他们论述了用Word2vec(NLP的一种常用工具)表示复调音乐的过程。下文将对该过程展开深入探究。
Word2vec有了词嵌入模型,就可以用代表语义的向量来表示词语,机器学习模型也能够更轻松地对其进行处理。而托马斯·米科洛夫等人在2013年提出的嵌入模型Word2vec,能够高效地创造语义向量空间(Mikolov et al., 2013)。
Word2vec模型的本质是一个简单的单层神经网络,该网络的构建方式有两种:1) 使用连续词袋(CBOW);2)使用Skip-gram 模型。这两种方式效率都很高,训练耗时也相对较短。此次研究用到了Skip-gram 模型,因为米科洛夫等人曾表示,该模型在处理较小的数据集方面更为高效。Skip-gram 模型选取当前词w_t作为输入层,并在输出层context window(上下文窗口)显示预测的关联词。
数据来自Chuan et al (2018)。上图表示的是单词t的预测结果及它的context window。
网上流传的一些图片让人误以为Skip-gram网络输出的只是context window中的一个单词,而非多个。那么怎样让Skip-gram表示整个context window呢?
训练Skip-gram网络时,我们使用了样本对,包括当前输入词和从context window随机选取的一个词。Skip-gram的传统训练目标是使用Softmax函数计算
,但这种方法运算量过大,成本过高。所幸,噪声对比估计 (Gutmann & Hyvärine, 2012)以及负采样 (Mikolov et al, 2013b)能够解决这一问题。先用负采样大致定义一个新目标,即将真实词的概率最大化,将噪声样本的概率最小化。之后只需要一个简单的二进制的逻辑回归,就能把噪声样本从真实词中分离出来。
Word2vec模型经过训练后,其隐层的权重主要表示经过学习的多维嵌入。
能否用单词形式表示音乐?音乐与语言本质上是相互联系的。二者均包含遵循一套语法规则的连续事件。更重要的是,二者均能使人产生预想。比如,如果有人说:“我要去披萨店买个……”,显然,你会预想他要买的是披萨。而如果有人现在哼一句“祝你生日”,然后戛然而止……正如话语一样,旋律也能引起人的预想,而这些预想能够通过脑电图进行测量,比如测量大脑中事件的相关电位N400(Besson & Schön, 2002)。
既然语言与单词间存在一定的相似度,那么语言表示常用模型可否有效地表示音乐呢?为了将MIDI(音序)文件转换为“语言”,要对音乐“片段”进行定义,这里的音乐片段相当于语言中的单词。将数据集中的音乐全部切分为相同长度,相互间不重叠的片段,每个片段长度为一个节拍。每个节拍的长度由MIDI 工具箱进行估算,不同片段的节拍长度可以不同。所有片段音高的等级都会保留下来,这里音高等级指的是不包含音阶信息的音高。
下图为肖邦作品67第4首,即A小调第47号玛祖卡舞曲第一小节,图中展示了如何决定片段的长度。在这里,一个节拍长度为一个四分音符。
数据来自Chuan et al (2018)——通过音乐片段创造词。
Word2vec学习调性——音乐的分布式语义假设在语言中,分布式语义假设是向量嵌入的驱动力。根据该假设,“在同一上下文中出现的词往往有相同的意思(Harris, 1954) ”。这些词转换到向量空间后,几何位置相近。那么Word2vec模型是否会用类似的方式表示音乐呢?
数据集
Chuan 等人用了包含八种不同音乐流派的MIDI 数据集,包含古典乐、重金属乐,他们从130,000支曲子中根据流派分类挑选出23,178首作为数据集。在挑选出的曲子中,总共分出了4,076种不同的片段。
超参数
Word2vec模型的训练只用到数据集中最常出现的500个片段(或词),其他词都用一个伪字代替。这一步骤提高了Word2vec模型的精确度,因为模型内的词可以包含更多的信息。此外还有其他超参数,如学习速率(设为0.1),window_size(设为4),训练步骤的数量(设为1,000,000),嵌入大小(设为256)。
和弦
要评价Word2vec模型是否成功地获取了音乐片段的语义,还需要了解和弦。
从音乐片段构成的词汇表中,识别出所有包含三和弦的音乐片段。用罗马数字标记这些片段的音级(这在乐理中很常见),比如,在C调中,和弦C为I级,和弦G为V级。之后,用余弦距离计算在向量空间中,不同音级和弦的相互距离。
在一个N维空间中,两个非零向量A和B之间的余弦距离的计算方式为:
其中θ为A和B的夹角,Ds为余弦相似度:
按乐理校对来讲,I级和弦和V级和弦之间的“调性”距离应当小于I级和弦和III级和弦之间的“调性”距离。下图表示一个C大调三和弦与其他和弦之间的距离。
数据来自Chuan et al (2018)——三和弦与主音和弦之间的余弦距离=C大调三和弦。
显然,I级三和弦与V级和弦, IV级和弦还有vi和弦之间的距离更小,这与音乐中这几个和弦间“调性相近”的理论吻合。也就是说,Word2vec模型学会了表现音乐片段之间的关系。
Word2vec空间中和弦之间的余弦距离似乎反映了和弦在乐理中的功能!
调
巴赫的十二平均律曲集(WTC)的24首前奏曲中,每首前奏曲都包含一个调,所以24首前奏曲涵盖了包括大调和小调在内的全部24个调。对于新的嵌入空间是否获取了有关调的信息的问题,可以通过研究十二平均律曲集求证。
把数据集扩大后,十二平均律曲集的各个前奏曲都被转换为其他大调或小调(取决于原来调的不同),导致每首前奏曲都出现了12种版本。将这些调的各个片段映射到先前训练的向量空间,使用K-Means进行聚类,就得到了新数据集中不同前奏曲的质心。将这些前奏曲转换为调,就保证了质心之间的余弦距离仅受调的影响。
在不同调的前奏曲中,质心之间产生的余弦距离如下图所示。正如预期那样,不同的五度和音的调性非常接近,图中对角线旁边较暗的区域即为证明。调性相差很大的调(例如F和F#)表现为橙色,说明Word2vec空间反映了调之间的调性距离,证实猜想成立。
数据来自Chuan et al (2018)——根据不同调的前奏曲之间的余弦距离绘制的相似矩阵。
类比
关于Word2vec有一个有趣的图像,表现的是向量空间中,国王→女王,男人→女人之间的转换过程 (Mikolov et al., 2013c),这也就说明了向量转换能够传达意义。那么向量是否也能传达音乐中的意义?
首先,我们检测了复调片段中的和弦,查看从C大调到G大调(I-V)和弦对的向量。不同I-V向量之间的夹角非常相似(见右图),甚至可以看作是五度和音构成的多维圆。这也再次证明,类比的概念可能存在于音乐领域的Word2vec空间中,但要得到更清楚的例子,还需要更多调查研究。
数据来自Chuan et al (2018)——和弦对向量之间的夹角。
其他应用-Word2vec能否生成乐曲?Chuan 等人 (2018) 简单探讨了Word2vec模型通过替代音乐片段来生成新的音乐的过程。他们表示,这只是一个初步测试,该系统可作为一种表示方法用于更综合的系统中,如LSTM。论文中还有更多细节描述,在此不作赘述。下图为研究结果。
数据来自Chuan et al (2018)——用几何位置相近的片段进行替换。
结论
Chuan、Agres与Herremans (2018)建立了一个Word2vec模型,可以捕捉复调音乐的音调属性,而无需将实际音符输入模型之中。他们的论文有力地证明了,在词嵌入中能够找到关于调与和弦的信息。那么可否用Word2vec表示音乐呢?答案是肯定的,可以用Word2vec表示复调音乐。这就打开了一种新思路:还可以将这种表现形式嵌入其他模型中,用以捕捉音乐的时间信息。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
生活中哪些东西运用到了人工智能和物联网?
谢邀!
人工智能1、虚拟个人助理
Siri,GoogleNow和Cortana都是各种渠道(iOS,Android和WindowsMobile)上的智能数字个人助理。
总归,当你用你的声响提出要求时,他们会协助你找到有用的信息;你能够说“最近的我国饭馆在哪里?”,“今日我的日程安排是什么?”,“提醒我八点打电话给杰里”,帮手会经过查找信息,转播手机中的信息或发送指令给其他应用程序。
人工智能在这些应用程序中十分重要,由于他们搜集有关恳求的信息并运用该信息更好地辨认您的言语并为您供给适合您偏好的结果。
微软标明Cortana“不断了解它的用户”,而且终究会开展出猜测用户需求的能力。虚拟个人助理处理来自各种来历的许多数据以了解用户,并更有效地协助他们组织和跟踪他们的信息。
2、视频游戏
事实上,自从第一次电子游戏以来,视频游戏AI现已被运用了很长一段时间-人工智能的一个实例,大多数人可能都很熟悉。
可是AI的复杂性和有效性在曩昔几十年中呈指数级添加,导致视频游戏人物了解您的行为,呼应刺激并以不行预知的方法做出反应。2014年的中心地球:魔多之影关于每个非玩家人物的个性特征,他们对曩昔互动的回想以及他们的可变方针都特别有目共睹。
“孤岛惊魂”和“使命呼唤”等第一人称射击游戏或许多运用人工智能,敌人能够剖析其环境,找到可能有利于其生存的物体或举动;他们会采纳保护,查询声响,运用侧翼演习,并与其他AI进行沟通,以添加取胜的时机。
就AI而言,视频游戏有点简略,但由于职业巨大的商场,每年都在投入许多精力和资金来完善这种类型的AI。
3、在线客服
现在,许多网站都提供用户与客服在线聊天的窗口,但其实并不是每个网站都有一个真人提供实时服务。在很多情况下,和你对话的仅仅只是一个初级AI。大多聊天机器人无异于自动应答器,但是其中一些能够从网站里学习知识,在用户有需求时将其呈现在用户面前。
最有趣也最困难的是,这些聊天机器人必须擅于理解自然语言。显然,与人沟通的方式和与电脑沟通的方式截然不同。所以这项技术十分依赖自然语言处理(NLP)技术,一旦这些机器人能够理解不同的语言表达方式中所包含的实际目的,那么很大程度上就可以用于代替人工服务。
4、购买预测
如果京东、天猫和亚马逊这样的大型零售商能够提前预见到客户的需求,那么收入一定有大幅度的增加。亚马逊目前正在研究这样一个的预期运输项目:在你下单之前就将商品运到送货车上,这样当你下单的时候甚至可以在几分钟内收到商品。
毫无疑问这项技术需要人工智能来参与,需要对每一位用户的地址、购买偏好、愿望清单等等数据进行深层次的分析之后才能够得出可靠性较高的结果。
虽然这项技术尚未实现,不过也表现了一种增加销量的思路,并且衍生了许多别的做法,包括送特定类型的优惠券、特殊的打折计划、有针对性的广告,在顾客住处附近的仓库存放他们可能购买的产品。
这种人工智能应用颇具争议性,毕竟使用预测分析存在隐私违规的嫌疑,许多人对此颇感忧虑。
5、音乐和电影推荐服务
与其他人工智能系统相比,这种服务比较简单。但是,这项技术会大幅度提高生活品质的改善。如果你用过网易云音乐这款产品,一定会惊叹于私人FM和每日音乐推荐与你喜欢的歌曲的契合度。
从前,想要听点好听的新歌很难,要么是从喜欢的歌手里找,要么是从朋友的歌单里去淘,但是往往未必有效。喜欢一个人的一首歌不代表喜欢这个人的所有歌,另外有的时候我们自己也不知道为什么会喜欢一首歌、讨厌一首歌。
而在有人工智能的介入之后,这一问题就有了解决办法。也许你自己不知道到底喜欢包含哪些元素的歌曲,但是人工智能通过分析你喜欢的音乐可以找到其中的共性,并且可以从庞大的歌曲库中筛选出来你所喜欢的部分,这比最资深的音乐人都要强大。
电影推荐也是相同的原理,对你过去喜欢的影片了解越多,就越了解你的偏好,从而推荐出你真正喜欢的电影。
拓展资料:
人工智能应用领域
机器翻译,智能控制,专家系统,机器人学,语言和图像理解,遗传编程机器人工厂,自动程序设计,航天应用,庞大的信息处理,储存与管理,执行化合生命体无法执行的或复杂或规模庞大的任务等等。
值得一提的是,机器翻译是人工智能的重要分支和最先应用领域。不过就已有的机译成就来看,机译系统的译文质量离终极目标仍相差甚远;而机译质量是机译系统成败的关键。
中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的。
另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。智能家居之后,人工智能成为家电业的新风口,而长虹正成为将这一浪潮掀起的首个家电巨头。
物联网物联网在生活中的应用比较多。例如,智能家居系统,还有交通方面的智慧汽车,还有城市里面的智慧城市,还有办公的建筑物的智慧建筑,又比如祥泰电气的消防物联网设备车务通、爱贝通、电梯卫士、关爱通等都是物联网技术的应用等等。
更多有关人工智能的资讯、深度报道、采访欢迎关注AI中国,无论你是小白还是大神,你想要的这里都有!
人工智能所作的诗词是哪一首?
人工智能所作的诗词是《偶得》
中国的智能音乐市场怎么样?
目前AI音乐的主要原理:
将成千上百首曲子录入人工神经网络,随后该网络对这些曲子进行分析,以计算出一段音符接续另一段音符的概率以及和弦的搭配,进而合成一首风格相近的作品,最后,自动生产程序会将其转换成音频素材。不同风格的曲子拥有不同的网络,从民歌风到听起来像商务会议上常出现的绚丽电子音乐的“企业风”。
技术巨头们也纷纷参与到人工智能的浪潮中。2016年12月7日,基于人工智能合成技术的Jukedeck MAKE面市,可以订制专属的歌曲。
2016年 6月,Google Brain发布Magenta项目,该项目旨在让电脑合成具有冲击力、艺术性、并且充满惊喜的音乐,但到目前为止,投入产出比并不理想。
2016年9月,谷歌旗下的英国人工智能公司DeepMind发布了一项实验的最终结果,该公司最初进行这项实验完全是出于兴趣。
DeepMind将钢琴曲样本放入WaveNet系统中以生成诸如演讲类的音频,虽然DeepMind并未披露该系统是如何运作合成音乐的,但该系统利用初始音频所合成的一段10秒钟的爵士乐颇为前卫。IBM也成立了一个名为“Watson Beat”的研究项目,音乐家可以通过它来改变自己的曲风,使歌曲听起来具有中东风格或者“幽灵风”。
未来:是助手还是革命者?人类对于新生事物的出现与发展往往也伴随着恐惧与猜疑,即使这个新生物是由人类亲手缔造的。人工智能在音乐工业的出现使音乐人在内容生产过程中得到了便利,但同时也有一些音乐人产生了对未来人工智能从助手身份一跃成为革命者取而代之成为行业主宰的恐惧。
人工智能目前来说不可能威胁到音乐人,毕竟音乐不是单纯的程序操作,而是一种个性化行为。
以目前音乐人工智能的发展阶段来看,虽然初具雏形,但离取音乐人代之还有很远的距离。索尼的FlowMachines与各类作曲人工智能只能对特定风格音乐进行模仿,无法产生真正属于自己的音乐;Landr虽然快速高效但在母带处理的细节上仍然无法与专业母带师相比,被部分网友称为智能“玩具”;微软小冰虽然做到在音准和感情上人类歌手相近,但其咬字和发音仍具有浓厚的机器色彩。
人工智能与人类的区别在于,人工智能只能是一种数字验算,而人类本身牵扯到生物学、心理学、化学等等,更不用说还有情感,而电脑是无法输入这些内容的,因此,在音乐或者可以说是艺术方面很难替代人类行为的。如同知名音乐制作人潘伟屹所说:“美图秀秀这些一键P图软件的广泛使用不会使那些专业修图师失业,同理音乐类人工智能可能在娱乐层面会有广泛使用,但音乐产业的一些高端操作仍然需要由人来完成,这是无可替代的。”
人类用情感铸就的音乐“饭碗”,用二进制计算语言思考的AI哪那么容易抢得过,但分一杯羹,一起创造未来,还是可以的。
《流浪地球》太空站中人工智能Ai的名字为什么取名叫摩斯Moss?
这主要是对英国科幻作家阿瑟.克拉克的名作《2001太空漫游》致以敬意。
刘慈欣曾经说过“我所有的作品都是对《2001太空漫游》的拙劣模仿”。阿瑟克拉克是公认的世界三大科幻小说家之一,另外两位分别是美国的海因莱因和阿西莫夫,其中阿西莫夫的《银河帝国》系列恐怕没有科幻迷们不知道的。
小说《2001太空漫游》中的人工智能名字叫哈儿,流浪地球中人工智能莫斯就是以哈儿为原型。起名莫斯应该是向发明摩斯电码的科学家塞缪尔莫尔斯致敬。
人工智能写诗,你怎么看?
前言:让人回归对自己的诗意和美的主宰吧,因为那关乎灵魂的主权。
不得不说这是科技上卓越进步,但也不得不说人类对自身的危险的挑战。人类的最后的之一——诗歌,可以被技术性的解构,创作和批量化的生产出来,人类无法在独享创作诗歌的荣耀。
我们的语言,情感,意境,灵性,意象,奇思妙想,以及各种创作手法,被变成了数据,变成了信息,而整个人类的诗歌遗产都一个个的被录入,被记忆,被分析,被分类,被组合。
那些微妙而不可琢磨的东西不再完全有人类的心灵去掌控,去描绘,去书写。而是出现了智能的替代,复制,甚至是对人类创作者的秒杀。
这个时候一种关于艺术的创作者和欣赏者的伦理问题开始抛了出来,有了能写诗的人工智能,是否还要有诗人存在?诗人的存在是否还有意义?诗人的诗不如人工智能的诗,那么诗人是否应该被鄙视?人工智能是否可以完全替代诗人的存在?诗人是否应该感到自卑?读者欣赏人工智能的诗歌的意义何在?诗歌的审美如何再重新定义等等,一堆的命题被抛了出来。
科技会不断发展,在诸多的领域已经代替了人工的存在,而在更多的高深的领域则越来越接近人,甚至呈现出超越人类的可能。但我想,人和技术永远要有一个界限,我们应该懂得,人创造技术,也应该成为技术的掌控者,而不应该成为技术的奴隶,更不应该使用技术去奴役别人。
诗歌的世界里,人工智能的创作,无论如何变化,我们始终要记得它只是一个机械,而不是真正的灵魂的拥有者。诗歌之所以是诗歌,之所以伟大,之所以绝美,之所以精彩保罗万象,其核心是每一个诗歌跳动的灵魂,每一个诗人的喜怒哀乐,爱恨情仇,每一个灵光闪动的瞬间,每一次的不可捉摸千变万化,每一次的细腻微妙都和整个世界充满关联,每一次的诗意萌发都是智慧与性情,内在与外在的融合,涌动,激荡,那是人类最为宝贵的东西,永远无法替代。
让人回归对自己的诗意和美的主宰吧,因为那关乎灵魂的主权。