脚本数据集

数据处理是高阶函数表现突出的一个领域。为了处理数据，我们需要一些真实数据。本章将使用脚本书写系统的数据集，例如拉丁文，西里尔文或阿拉伯文。

请记住第 1 章中的 Unicode，该系统为书面语言中的每个字符分配一个数字。大多数这些字符都与特定的脚本相关联。该标准包含 140 个不同的脚本 - 81 个今天仍在使用，59 个是历史性的。

虽然我只能流利地阅读拉丁字符，但我很欣赏这样一个事实，即人们使用其他至少 80 种书写系统来编写文本，其中许多我甚至不认识。例如，以下是泰米尔语手写体的示例。

脚本数据集 - 图1

示例数据集包含 Unicode 中定义的 140 个脚本的一些信息。本章的编码沙箱中提供了SCRIPTS绑定。该绑定包含一组对象，其中每个对象都描述了一个脚本。

{
  name: "Coptic",
  ranges: [[994, 1008], [11392, 11508], [11513, 11520]],
  direction: "ltr",
  year: -200,
  living: false,
  link: "https://en.wikipedia.org/wiki/Coptic_alphabet"
}

这样的对象会告诉你脚本的名称，分配给它的 Unicode 范围，书写方向，（近似）起始时间，是否仍在使用以及更多信息的链接。方向可以是从左到右的"ltr"，从右到左的"rtl"（阿拉伯语和希伯来语文字的写法），或者从上到下的"ttb"（蒙古文的写法）。

ranges属性包含 Unicode 字符范围数组，每个数组都有两元素，包含下限和上限。这些范围内的任何字符码都会分配给脚本。下限是包括的（代码 994 是一个科普特字符），并且上限排除在外（代码 1008 不是）。