, use

.' ) } } if (staticClass) { el.staticClass = JSON.stringify(staticClass) } const classBinding = getBindingAttr(el, 'class', false /* getStatic */) if (classBinding) { el.classBinding = classBinding } } ``` 在该 `transformNode` 函数内，首先执行是如下两句代码： ```js const warn = options.warn || baseWarn const staticClass = getAndRemoveAttr(el, 'class') ``` 定义 `warn` 常量，它是一个函数，用来打印警告信息。接着使用 `getAndRemoveAttr` 函数从元素描述对象上获取非绑定的 `class` 属性的值，并将其保存在 `staticClass` 常量中。接着进入一段 `if` 条件语句： ```js if (process.env.NODE_ENV !== 'production' && staticClass) { const res = parseText(staticClass, options.delimiters) if (res) { warn( `class="${staticClass}": ` + 'Interpolation inside attributes has been removed. ' + 'Use v-bind or the colon shorthand instead. For example, ' + 'instead of

, use

.' ) } } ``` 在非生产环境下，并且非绑定的 `class` 属性值存在，则会使用 `parseText` 函数解析该值，如果解析成功则说明你在非绑定的 `class` 属性中使用了字面量表达式，例如： ```html

``` 这时 `Vue` 会打印警告信息，提示你使用如下这种方式替代： ```html

``` 再往下是这样一段代码： ```js if (staticClass) { el.staticClass = JSON.stringify(staticClass) } ``` 如果非绑定的 `class` 属性值存在，则将该值保存在元素描述对象的 `el.staticClass` 属性中，注意这里使用 `JSON.stringify` 对值做了处理，这么做的目的我们已经说过很多遍了。再往下是该 `transformNode` 函数的最后一段代码： ```js const classBinding = getBindingAttr(el, 'class', false /* getStatic */) if (classBinding) { el.classBinding = classBinding } ``` 这段代码使用了 `getBindingAttr` 函数获取绑定的 `class` 属性的值，如果绑定的 `class` 属性的值存在，则将该值保存在 `el.classBinding` 属性中。以上就是中置处理对于 `class` 属性的处理方式，我们做一个简短的总结： * 非绑定的 `class` 属性值保存在元素描述对象的 `el.staticClass` 属性中，假设有如下模板： ```html

``` 则该标签元素描述对象的 `el.staticClass` 属性值为： ```js el.staticClass = JSON.stringify('a b c') ``` * 绑定的 `class` 属性值保存在元素描述对象的 `el.classBinding` 属性中，假设我们有如下模板： ```html

``` 则该标签元素描述对象的 `el.classBinding` 属性值为： ```js el.classBinding = "{ 'active': isActive }" ``` 对于 `style` 属性的处理与对 `class` 属性的处理类似，用于处理 `style` 属性的中置处理函数位于 `src/platforms/web/compiler/modules/style.js` 文件，如下： ```js function transformNode (el: ASTElement, options: CompilerOptions) { const warn = options.warn || baseWarn const staticStyle = getAndRemoveAttr(el, 'style') if (staticStyle) { /* istanbul ignore if */ if (process.env.NODE_ENV !== 'production') { const res = parseText(staticStyle, options.delimiters) if (res) { warn( `style="${staticStyle}": ` + 'Interpolation inside attributes has been removed. ' + 'Use v-bind or the colon shorthand instead. For example, ' + 'instead of

, use

.' ) } } el.staticStyle = JSON.stringify(parseStyleText(staticStyle)) } const styleBinding = getBindingAttr(el, 'style', false /* getStatic */) if (styleBinding) { el.styleBinding = styleBinding } } ``` 可以看到，用来处理 `style` 属性的 `transformNode` 函数基本与用来处理 `class` 属性的 `transformNode` 函数相同，这里大家要额外注意如下这句代码： ```js el.staticStyle = JSON.stringify(parseStyleText(staticStyle)) ``` 与 `class` 属性不同，如果一个标签使用了非绑定的 `style` 属性，则会使用 `parseStyleText` 函数对属性值进行处理，`parseStyleText` 函数来自 `src/platforms/web/util/style.js` 文件，那么 `parseStyleText` 函数会如何处理非绑定的 `style` 属性值呢？举个例子，如下模板所示： ```html

``` 如上模板中使用了非绑定的 `style` 属性，属性值为字符串 `'color: red; background: green;'`，`parseStyleText` 函数会把这个字符串解析为对象形式，如下： ```js { color: 'red', background: 'green' } ``` 最后再使用 `JSON.stringify` 函数将如上对象变为字符串后赋值给元素描述对象的 `el.staticStyle` 属性。我们来看一下 `parseStyleText` 函数是如何将样式字符串解析为对象的，如下是 `parseStyleText` 函数的源码： ```js export const parseStyleText = cached(function (cssText) { const res = {} const listDelimiter = /;(?![^(]*\))/g const propertyDelimiter = /:(.+)/ cssText.split(listDelimiter).forEach(function (item) { if (item) { var tmp = item.split(propertyDelimiter) tmp.length > 1 && (res[tmp[0].trim()] = tmp[1].trim()) } }) return res }) ``` 由以上代码可知 `parseStyleText` 函数是由 `cached` 函数创建的高阶函数，`parseStyleText` 接收内联样式字符串作为参数并返回解析后的对象。在 `parseStyleText` 函数内部首先定义了 `res` 常量，该常量就会作为 `parseStyleText` 函数的返回值，其初始值是一个空对象，接着定义了两个正则常量 `listDelimiter` 和 `propertyDelimiter`，其实把一个内联样式字符串解析为对象的思路很简单，首先我们要找到样式字符串的规则，如下： ```js

``` 可以看到在样式字符串中分号(`;`)用来作为每一条样式规则的分割，而冒号(`:`)则用来一条样式规则中属性名与值的分割，所以我们有如下思路： * 1、使用分号(`;`)把样式字符串分割为一个数组，数组中的每个元素都是一条样式规则，以如上模板为例，分割后的数组应该是： ```js [ 'color: red', 'background: green' ] ``` 接着遍历该数组，对于每一条样式规则使用冒号(`:`)将其属性名与值再次进行分割，这样我们就能够得到想要的结果了。明白了这个思路再去看 `parseStyleText` 函数的代码就会很容易理解。对于 `parseStyleText` 函数的逻辑我们不做过多解释，这里我们重点来说一下 `listDelimiter` 正则，如下： ```js const listDelimiter = /;(?![^(]*\))/g ``` 该正则表达式使用了 **正向否定查找(`(?!`)**，什么是正向否定查找呢？举个例子，正则表达式 `/a(?!b)/`用来匹配后面没有跟字符 `'b'` 的字符 `'a'`。所以如上正则表达式用来全局匹配字符串中的分号(`;`)，但是该分号必须满足一个条件，即 **该分号的后面不能跟左圆括号(`)`)，除非有一个相应的右圆括号(`(`)存在**，说起来有点抽象，我们还是举例说明，如下模板所示： ```html

``` 大家仔细观察如上 `div` 标签的 `style` 属性值中存在几个分号？答案是三个分号，但只有其中两个分号才是真正的样式规则分割符，而字符串 `'url(www.xxx.com?a=1&copy=3)'` 中的分号则是不能作为样式规则分割符的，正则常量 `listDelimiter` 正是为了实现这个功能而设计的。有的同学可能会问为什么 `url` 中会带有分号(`;`)，实际上正如上面的例子所示，我们知道内联样式是写在 `html` 文件中的，而在 `html` 规范中存在一个叫做 `html实体` 的概念，我们来看如下这段 `html` 模板： ```html link ``` 这段 `html` 模板在一些浏览器中不能正常工作，这是因为有些浏览器会把 `©` 当做 `html` 实体从而把其解析为字符 `©`，这就导致当你打开该链接时，变成了访问：`foo.cgi?chapter=1©=3`。具体的内容大家可以查看这里：[Ampersands (&'s) in URLs](http://htmlhelp.com/tools/validator/problems.html#amp)。总之，对于非绑定的 `style` 属性，会在该元素描述对象上添加 `el.staticStyle` 属性，该属性的值是一个字符串化后的对象。接着对于绑定的 `style` 属性，则会使用如下这段代码来处理： ```js const styleBinding = getBindingAttr(el, 'style', false /* getStatic */) if (styleBinding) { el.styleBinding = styleBinding } ``` 与处理绑定的 `class` 属性类似，使用 `getBindingAttr` 函数获取到绑定的 `style` 属性值后，如果值存在则直接将其赋值给元素描述对象的 `el.styleBinding` 属性。以上就是中置处理对于 `style` 属性的处理方式，我们做一个简短的总结： * 非绑定的 `style` 属性值保存在元素描述对象的 `el.staticStyle` 属性中，假设有如下模板： ```html

``` 则该标签元素描述对象的 `el.staticStyle` 属性值为： ```js el.staticStyle = JSON.stringify({ color: 'red', background: 'green' }) ``` * 绑定的 `style` 属性值保存在元素描述对象的 `el.styleBinding` 属性中，假设我们有如下模板： ```html

``` 则该标签元素描述对象的 `el.styleBinding` 属性值为： ```js el.styleBinding = "{ fontSize: fontSize + 'px' }" ``` 现在前置处理(`preTransformNode`)和中置处理(`transformNode`)我们都讲完了，还剩下后置处理(`postTransformsNode`)没有讲，每当遇到非一元标签的结束标签或遇到一元标签时则会应用后置处理，我们回到 `src/compiler/parser/index.js` 文件，如下高亮的代码所示： ```js {10-12} function closeElement (element) { // check pre state if (element.pre) { inVPre = false } if (platformIsPreTag(element.tag)) { inPre = false } // apply post-transforms for (let i = 0; i < postTransforms.length; i++) { postTransforms[i](element, options) } } ``` 该 `for` 循环遍历了 `postTransforms` 数组，但实际上 `postTransforms` 是一个空数组，因为目前还没有任何后置处理的钩子函数。这里只是暂时提供一个用于后置处理的出口，当有需要的时候可以使用。 ## 文本节点的元素描述对象接下来我们主要讲解当解析器遇到一个文本节点时会如何为文本节点创建元素描述对象，又会如何对文本节点做哪些特殊的处理。我们打开 `src/compiler/parser/index.js` 文件找到 `parseHTML` 函数的 `chars` 钩子函数选项，如下高亮代码所示： ```js {3-5} parseHTML(template, { // 省略... chars (text: string) { // 省略... }, // 省略... }) return root } ``` 当解析器遇到文本节点时，如上代码中的 `chars` 钩子函数就会被调用，并且接收该文本节点的文本内容作为参数。我们来看 `chars` 钩子函数最开始的这段代码： ```js if (!currentParent) { if (process.env.NODE_ENV !== 'production') { if (text === template) { warnOnce( 'Component template requires a root element, rather than just text.' ) } else if ((text = text.trim())) { warnOnce( `text "${text}" outside root element will be ignored.` ) } } return } ``` 这段代码是连续的几个 `if` 条件语句，首先判断了 `currentParent` 变量是否存在，我们知道 `currentParent` 变量指向的是当前节点的父节点，如果父节点不存在才会执行该 `if` 条件语句里面的代码。大家思考一下，如果 `currentParent` 变量不存在说明什么问题？我们知道如果代码执行到了这里，那么当前节点必然是文本节点，并且该文本节点没有父级节点。什么情况下会出现一个文本节点没有父级节点呢？有两种情况： * 第一：模板中只有文本节点 ```html ``` 如上模板中没有根元素，只有一个文本节点。由于没有元素节点，所以 `currentParent` 变量是肯定不存在值的，而 `Vue` 的模板要求必须要有一个根元素节点才行。当解析器在解析如上模板时，由于模板只有一个文本节点，所以在解析过程中只会调用一次 `chars` 钩子函数，同时将文本节点的内容作为参数传递，此时就会出现一种情况，即：“整个模板的内容与文本节点的内容完全一致”，换句话说 `text === template` 条件成立，这时解析器会打印警告信息提示模板不能只是文本，必须有一个元素节点才行。 * 第二：文本节点在根元素的外面 ```html ``` 我们知道 `currentParent` 变量始终保存的是当前解析节点的父节点，当解析器解析如上模板并遇到根元素外的文本节点时，`currentParent` 变量是不存在的，但是此时条件 `text === template` 是不成立的，这时如下代码会被执行： ```js else if ((text = text.trim())) { warnOnce( `text "${text}" outside root element will be ignored.` ) } ``` 即如果 `text` 是非空的字符串则打印警告信息提示开发者根元素外的文本将会被忽略。如果模板不符合以上要求则此时 `chars` 钩子函数会立即 `return`，不会继续做后续的工作，如果模板符合要求则将会继续执行如下代码： ```js // IE textarea placeholder bug /* istanbul ignore if */ if (isIE && currentParent.tag === 'textarea' && currentParent.attrsMap.placeholder === text ) { return } ``` 这段代码是用来解决 IE 浏览器中渲染 `

``` 如上 `html` 片段存在一个 `' ``` 可以看到 `

` 标签的 `placeholder` 属性的属性值被设置成了 `<textarea>` 的真实文本内容，为了解决这个问题，所以产生了如下代码：

```js
// IE textarea placeholder bug
/* istanbul ignore if */
if (isIE &&
  currentParent.tag === 'textarea' &&
  currentParent.attrsMap.placeholder === text
) {
  return
}
```

如果当前文本节点的父元素是 `<textarea>` 标签，并且文本元素的内容和 `<textarea>` 标签的 `placeholder` 属性值相同，则说明此时遇到了 IE 的 bug，由于只有当 `<textarea>` 标签没有真实文本内容时才存在这个 bug，所以这说明当前解析的文本节点原本就是不存在的，这时 `chars` 钩子函数会直接 `return`，不做后续处理。

再往下是这样一段代码：

```js
const children = currentParent.children
text = inPre || text.trim()
  ? isTextTag(currentParent) ? text : decodeHTMLCached(text)
  // only preserve whitespace if its not right after a starting tag
  : preserveWhitespace && children.length ? ' ' : ''
```

这段代码首先定义了 `children` 常量，它是 `currentParent.children` 的引用。接着判断了条件 `inPre || text.trim()` 的真假，我们一点点来看，假设此时 `inPre` 变量为真，那么如上代码等价于：

```js
text = isTextTag(currentParent) ? text : decodeHTMLCached(text)
```

如上代码中首先使用 `isTextTag` 函数检测当前文本节点的父节点是否是文本标签(即 `<script>` 标签或 `<style>` 标签)，如果当前文本节点的父节点是文本标签，那么则原封不动的保留原始文本，否则使用 `decodeHTMLCached` 函数对文本进行解码，其中关键点在于一定要使用 `decodeHTMLCached` 函数解码文本才行，为什么呢？来看如下代码：

```js
<pre>
  <div>我是一个DIV</div>
</pre>
```

我们通常会使用 `<pre>` 标签展示源码，所以通常会书写 `html` 实体，假如不对如上 `html` 实体进行解码，那么最终展示在页面上的内容就是字符串 `'<div>我是一个DIV</div>'` 而非 `'<div>我是一个DIV</div>'`，这是因为 `Vue` 在创建文本节点时使用的是 `document.createTextNode` 函数，这不同于将如上模板直接交给浏览器解析并渲染，所以需要解码后将字符串 `'<div>我是一个DIV</div>'` 作为一个文本节点创建才行。

我们再回头来看一下这段代码：

```js
text = isTextTag(currentParent) ? text : decodeHTMLCached(text)
```

这段代码还使用 `isTextTag` 函数检测了当前文本节点的父节点是否是文本标签，如果是文本标签则直接使用原始文本，而不会使用 `decodeHTMLCached` 函数对文本进行解码。这时我们考虑的就不应该是 `inPre` 变量为真的情况了，而是 `text.trim()` 这个条件为真的情况，当 `text.trim()` 为真时说明当前文本节点的内容不是空白，只要不是空白的文本并且该文本存在于文本标签之内，那么该文本就不需要进行解码操作，比如存在于 `<script>` 标签或 `<style>` 标签之内的文本。

我们再来看如下高亮代码：

```js {4}
text = inPre || text.trim()
  ? isTextTag(currentParent) ? text : decodeHTMLCached(text)
  // only preserve whitespace if its not right after a starting tag
  : preserveWhitespace && children.length ? ' ' : ''
```

如果条件 `inPre || text.trim()` 为假，则会执行如上代码中高亮的部分，那么如上代码相当于：

```js
text = preserveWhitespace && children.length ? ' ' : ''
```

首先我们要明确的是当条件 `inPre || text.trim()` 为假时代表什么，我们对该条件取反：`!inPre && !text.trim()`，取反后的条件很容易理解，用一句话描述就是 **不存在于 `<pre>` 标签内的空白符**，有的同学可能会有疑问，此时 `text` 一定是空白符吗？难道不可能是空字符串吗？当然不可能是空字符串，因为如果 `text` 是空字符串则代码是不会执行 `chars` 钩子函数的。那么对于不存在于 `<pre>` 标签内的空白符要如何处理呢？我们来看如下代码：

```js
text = preserveWhitespace && children.length ? ' ' : ''
```

如上代码是一个三元运算符，如果 `preserveWhitespace` 常量为真并且当前文本节点的父节点有子元素存在，则将 `text` 变量设置为空格字符(`' '`)，否则将 `text` 变量设置为空字符串。其中 `preserveWhitespace` 常量是一个布尔值代表着是否保留空格，只有它为真的情况下才会保留空格。但即使 `preserveWhitespace` 常量的值为真，如果当前节点的父节点没有子元素则也不会保留空格，换句话说，编译器只会保留那些 **不存在于开始标签之后的空格**。而这也体现在了编译器源码的注释中，如下：

```js {3}
text = inPre || text.trim()
  ? isTextTag(currentParent) ? text : decodeHTMLCached(text)
  // only preserve whitespace if its not right after a starting tag
  : preserveWhitespace && children.length ? ' ' : ''
```

默认情况下编译器是会保留空格的，除非你显示的指定编译器选项 `preserveWhitespace` 的值为 `false` 时才会不保留空格。

我们来做一下总结：

* 1、如果文本节点是非空白符，无论其在不在 `<pre>` 标签之内，只要其不在文本标签内就会对文本进行解码，否则不会解码。
* 2、如果文本节点是空白符
  * 2.1、空白符存在于 `<pre>` 标签之内，则完全保留
  * 2.2、空白符不存在于 `<pre>` 标签之内，则根据编译器选项配置来决定是否保留空白，并且只会保留那些不存在于开始标签之后的空白符。

再往下我们将来到 `chars` 钩子函数的最后一段代码：

```js
if (text) {
  // 省略...
}
```

这是一个 `if` 条件语句，可以看到该条件语句块内的代码只有当 `text` 变量存在时才会执行，所以当编译器选项 `preserveWhitespace` 的值为 `false` 时，所有空白符都会被忽略，从而导致不会执行如上这段 `html` 代码，所以也就没有空白符节点被创建。我们来看一下该 `if` 条件语句块内的代码，如下：

```js
let res
if (!inVPre && text !== ' ' && (res = parseText(text, delimiters))) {
  children.push({
    type: 2,
    expression: res.expression,
    tokens: res.tokens,
    text
  })
} else if (text !== ' ' || !children.length || children[children.length - 1].text !== ' ') {
  children.push({
    type: 3,
    text
  })
}
```

我们首先来看一下如上代码中 `if` 语句的判断条件：

```js
if (!inVPre && text !== ' ' && (res = parseText(text, delimiters)))
```

如果上面的 `if` 语句的判断条件为真则说明：

* 1、当前文本节点不存在于使用 `v-pre` 指令的标签之内
* 2、当前文本节点不是空格字符
* 3、使用 `parseText` 函数成功解析当前文本节点的内容

对于前两个条件很好理解，关键在于 `parseText` 函数能够成功解析文本节点的内容说明了什么，如下模板所示：

```html
<div>我的名字是：{{ name }}</div>
```

如上模板中存在一个文本节点，该节点的文本内容是字符串：`'我的名字是：{{ name }}'`，这个字符串并不是普通的字符串，它包含了 `Vue` 语法中的字面量表达式，而 `parseText` 函数的作用就是用来解析这段包含了字面量表达式的文本的，如果解析成功则说明该文本节点的内容确实包含字面量表达式，所以此时会执行以下代码创建一个类型为2(`type = 2`)的元素描述对象：

```js
if (!inVPre && text !== ' ' && (res = parseText(text, delimiters))) {
  children.push({
    type: 2,
    expression: res.expression,
    tokens: res.tokens,
    text
  })
}
```

并将该文本节点的元素描述对象添加到父级的子节点中，另外我们注意到类型为 `2` 的元素描述对象拥有三个特殊的属性，分别是 `expression`、`tokens` 以及 `text`，其中 `text` 就是原始的文本内容，而 `expression` 和 `tokens` 的值是通过 `parseText` 函数解析的结果中读取的。至于 `parseText` 函数的具体实现我们会在下一小节中讲解。

如果 `if` 语句的判断条件失败，则有三种可能：

* 1、文本节点存在于使用了 `v-pre` 指令的标签之内
* 2、文本节点是空格字符
* 3、文本节点的文本内容通过 `parseText` 函数解析失败

只要以上三种情况中，有一种情况出现则代码会来到 `else...if` 分支的判断，如下：

```js
else if (text !== ' ' || !children.length || children[children.length - 1].text !== ' ') {
  children.push({
    type: 3,
    text
  })
}
```

如果 `else...if` 语句的判断条件成立，则有以下几种可能：

* 1、文本内容不是空格，即 `text !== ' '`
* 2、如果文本内容是空格，但是该文本节点的父节点还没有子节点(即 `!children.length`)，这说明当前文本内容就是父节点的第一个子节点
* 3、如果文本内容是空格，并且该文本节点的父节点有子节点，但最后一个子节点不是空格，此时也会执行 `else...if` 语句块内的代码

当文本满足以上条件，就会被当做普通文本节点对待，此时会创建类型为3(`type = 3`)的元素描述对象，并将其添加到父级节点的子节点中。

实际上以上分析并不足以让大家理解这么做的目的，但是我们综合思考就会容易得出如下结论：

* 1、如果文本节点存在于 `v-pre` 标签中，则会被作为普通文本节点对象
* 2、`<pre>` 标签内的空白会被保留
* 3、`preserveWhitespace` 只会保留那些不在开始标签之后的空格(说空白也没问题)
* 4、普通文本节点的元素描述对象的类型为 3，即 `type = 3`
* 5、包含字面量表达式的文本节点不会被作为普通的文本节点对待，而是会使用 `parseText` 函数解析它们，并创建一个类型为 2，即 `type = 2` 的元素描述对象

## parseText 函数解析字面量表达式

在上一小节的讲解中我们了解到文本节点的内容是需要通过 `parseText` 函数解析的，为什么要使用 `parseText` 函数解析文本节点呢？这是因为文本节点中很可能包含字面量表达式，我们所说的字面量表达式指的是使用花括号(`{{}}`)或自定义模板符号所定义的表达式，例如如下 `<p>` 标签内的文本：

```html
<p>我的名字叫：{{name}}</p>
```

如上 `<p>` 标签内的文本在解析阶段会被当做一个普通的文本节点，可是该文本节点却包含了 `Vue` 的模板语法，所以需要使用 `parseText` 对其进行解析，为了让大家更好地理解 `parseText` 函数的作用，我们需要先了解 `parseText` 函数的最终目的。我们知道模板最终会被编译器编译为渲染函数，而如上文本节点被编译后将以如下表达式存在于渲染函数中：

```js
"我的名字叫："+_s(name)
```

可以看到编译的结果分为两部分，第一部分是普通文本：`"我的名字叫："`，另外一部分是把字面量表达式中的表达式提取出来并作为 `_s` 函数的参数，这里大家暂时把 `_s` 函数理解成与 `toString` 函数的功能类似即可，并没有什么特别之处。看到这里相信你已经明白 `parseText` 函数的作用了，没错它的作用就是用来识别一段文本节点内容中的普通文本和字面量表达式并把他们按顺序拼接起来。

接下来我们打开 `src/compiler/parser/text-parser.js` 文件，可以看到该文件只导出了一个 `parseText` 函数，所以这个文件的所有内容都服务于 `parseText` 函数，既然 `parseText` 函数会识别字面量表达式，那么自然需要一种识别机制，最容易想到的办法就是使用正则表达式，我们在 `src/compiler/parser/text-parser.js` 文件中能够看到如下正则常量：

```js
const defaultTagRE = /\{\{((?:.|\n)+?)\}\}/g
```

`defaultTagRE` 常量是一个正则，这个正则很简单，用来惰性匹配 `{{}}` 里的内容，并捕获 `{{}}` 里的内容。根据 `defaultTagRE` 常量的名字我们能够知道这是一个默认的正则，大家都知道我们在使用 `Vue` 的时候可以通过 `delimiters` 选项自定义字面量表达式的分隔符，比如我们可以将其配置成 `delimiters: ['${', '}']`，正是由于这个原因，所以我们不能一味的使用 `defaultTagRE` 正则去识别字面量表达式，我们需要根据开发者对 `delimiters` 选项的配置自动生成一个新的正则表达式，并用其匹配文本。我们在 `text-parser.js` 文件中能够看到如下这段代码：

```js
const buildRegex = cached(delimiters => {
  const open = delimiters[0].replace(regexEscapeRE, '\\$&')
  const close = delimiters[1].replace(regexEscapeRE, '\\$&')
  return new RegExp(open + '((?:.|\\n)+?)' + close, 'g')
})
```

这段代码定义了 `buildRegex` 函数，该函数接收 `delimiters` 选项的值作为参数，并返回一个新的正则表达式。我们观察新的正则表达式：

```js
return new RegExp(open + '((?:.|\\n)+?)' + close, 'g')
```

可以发现，新的正则表达式与 `defaultTagRE` 正则中间的部分是一样的，唯一不同的是新的正则使用 `open` 和 `close` 常量的内容替换掉用了默认的 `{{}}`，我们以 `open` 常量为例讲解该常量的值，如下：

```js
const open = delimiters[0].replace(regexEscapeRE, '\\$&')
```

假如开发者指定 `delimiters` 选项的值为 `['${', '}']`，如上代码相当于：

```js
const open = '${'.replace(regexEscapeRE, '\\$&')
```

另外如上代码中存在另外一个正则常量 `regexEscapeRE`，它的内容如下：

```js
const regexEscapeRE = /[-.*+?^${}()|[\]\/\\]/g
```

可以看到该正则所匹配的字符都是那些在正则表达式中具有特殊意义的字符，正式因为这些字符在正则表达式中具有特殊意义，所以才需要使用 `replace` 方法将匹配到的具有特殊意义的字符进行转义，转义的结果就是在具有特殊意义的字符前面添加字符 `\`，所以最终 `open` 常量的值将为：`'\$\{'`。这里简单说明一下，字符串的 `replace` 方法的第二个参数可以是一个字符串，即要替换的文本，如果第二个参数是字符串，则可以使用特殊的字符序列：

* $$ =====> $
* $& =====> 匹配整个模式的字符串，与RegExp.lastMatch的值相同
* $' =====> 匹配的子字符串之后的子字符串，与RegExp.rightContext的值相同
* $` =====> 匹配的子字符串之前的子字符串，与RegExp.leftContext的值相同
* $n =====> 匹配第n(0 ~ 9)个捕获组的子字符串，如果正则表达式中没有捕获组，则使用空字符串
* $nn =====> 匹配第nn(01 ~ 99)个捕获组的子字符串，如果正则表达式中没有捕获组，则使用空字符串

最终 `buildRegex` 函数将会构建一个全新的正则：

```js
new RegExp(open + '((?:.|\\n)+?)' + close, 'g')
```

等价于：

```js
new RegExp('\$\{((?:.|\\n)+?)\}', 'g')
```

也就等价于：

```js
/\$\{((?:.|\\n)+?)\}/g
```

如上正则与 `defaultTagRE` 正则相比，仅仅是分隔符部分发生了变换，仅此而已。

接下来我们将正式进入 `parseText` 函数的讲解，如下是 `parseText` 函数的签名：

```js
export function parseText (
  text: string,
  delimiters?: [string, string]
): TextParseResult | void {
  // 省略...
}
```

该函数接收两个参数，分别是要解析的文本内容以及 `delimiters` 选项的值，在 `parseText` 函数的开头是这样一段代码：

```js
const tagRE = delimiters ? buildRegex(delimiters) : defaultTagRE
if (!tagRE.test(text)) {
  return
}
```

这段代码定义了 `tagRE` 常量，这个常量就是最终用来匹配文本的正则，可以看到如果 `delimiters` 选项存在则使用 `buildRegex` 函数构建的新正则去匹配文本，否则使用默认的 `defaultTagRE` 正则。接着是一段 `if` 条件语句，使用 `tagRE.test(text)` 对文本内容进行测试，如果测试失败则说明文本中不包含字面量表达式，此时 `parseText` 函数会直接返回，因为什么都不需要做。如果测试成功，则代码继续执行，将来到如下这段代码：

```js
const tokens = []
const rawTokens = []
let lastIndex = tagRE.lastIndex = 0
let match, index, tokenValue
while ((match = tagRE.exec(text))) {
  index = match.index
  // push text token
  if (index > lastIndex) {
    rawTokens.push(tokenValue = text.slice(lastIndex, index))
    tokens.push(JSON.stringify(tokenValue))
  }
  // tag token
  const exp = parseFilters(match[1].trim())
  tokens.push(`_s(${exp})`)
  rawTokens.push({ '@binding': exp })
  lastIndex = index + match[0].length
}
```

上面这段代码是一段 `while` 循环语句，在 `while` 循环语句之前定义了一些常量和变量，这些常量和变量将会在 `while` 循环内使用。我们观察 `while` 循环的判断条件：

```js
(match = tagRE.exec(text))
```

这里使用 `tagRE` 正则匹配文本内容，并将匹配结果保存在 `match` 变量中，直到匹配失败循环才会终止，这时意味着所有的字面量表达式都已经处理完毕了。那么匹配结果 `match` 变量中保存着什么值呢？如果匹配成功则 `match` 变量将会是一个数组，该数组的第一个元素为整个匹配的字符串，第二个元素是正则 `tagRE` 捕获组所匹配的内容，假设我们的文本为 `'{{name}}'`，则匹配成功后 `match` 数组的值为：

```js
match = ['{{name}}', 'name']
```

但 `match` 并不是一个普通的数组，它还包含 `match.index` 属性，该属性的值代表着匹配的字符串在整个字符串中的位置，假设我们有这样一段文本：`'abc{{name}}'`，则匹配成功后 `match.index` 的值为 `3`，因为第一个左花括号(`{`)在整个字符串中的索引是 `3`。明白了这些我们就可以继续看 `while` 循环内的代码了，在 `while` 循环内的开头是如下这段代码：

```js
index = match.index
// push text token
if (index > lastIndex) {
  rawTokens.push(tokenValue = text.slice(lastIndex, index))
  tokens.push(JSON.stringify(tokenValue))
}
```

这段代码首先使用 `index` 变量保存了 `match.index` 属性的值，接着是一个 `if` 条件语句，它判断了变量 `index` 的值是否大于 `lastIndex` 变量的值，大家思考一下什么情况下会出现变量 `index` 的值大于 `lastIndex` 变量的值的情况？我们知道 `lastIndex` 变量的初始值是 `0`，所以只要 `index` 变量大于 `0` 即可，换句话说只要 `match.index` 变量的值大于 `0` 即可，我们还是以这段文本为例：`'abc{{name}}'`，我们知道当匹配这段文本时，`match.index` 的值将会为 `3`，它大于 `0`，所以此时如上 `if` 条件语句的判断条件满足，此时将会执行 `if` 语句块内的代码，在 `if` 语句块内有这样一句话，如下：

```js
rawTokens.push(tokenValue = text.slice(lastIndex, index))
```

如上这句代码中有这样一句代码：

```js
tokenValue = text.slice(lastIndex, index)
```

这句代码使用字符串的 `slice` 方法对文本进行截取，假如我们还拿上例来说，则如上这句代码相当于：

```js
tokenValue = 'abc{{name}}'.slice(0, 3)
```

可以看到这句代码的最终结果就是将原始文本中的 `'abc'` 字符片段截取了出来，并保存在变量 `tokenValue` 中，我们发现截取出来的字符片段就是字面量表达式前的普通文本，这段普通文本的文本内容除了会保存在 `tokenValue` 变量中之外还会被 `push` 到 `rawTokens` 数组中。另外我们注意到在这段 `if` 条件语句中还有如下这句代码：

```js
tokens.push(JSON.stringify(tokenValue))
```

可以看到这段代码使用 `JSON.stringify` 对截取出来的字符片段处理之后将其 `push` 到了 `tokens` 数组中。所以经过了这一系列处理之后，`rawTokens` 数组和 `tokens` 数组分别拥有了一个元素：

```js
rawTokens = ['abc']
tokens = ["'abc'"]
```

普通文本已经截取了出来，接下来该处理字面量表达式了，我们继续看 `while` 循环内的代码，如下：

```js {2}
// tag token
const exp = parseFilters(match[1].trim())
tokens.push(`_s(${exp})`)
rawTokens.push({ '@binding': exp })
lastIndex = index + match[0].length
```

如上高亮代码所示，这段代码首先使用 `parseFilters` 函数对匹配结果的捕获内容进行解析，假设文本内容为 `'abc{{name | someFilter}}'`，则 `match[1]` 的值为字符串 `'name'`，所以如上高亮的这句代码相当于：

```js
const exp = parseFilters('name | someFilter')
```

我们在前面的章节中已经讲解过了 `parseFilters` 函数的作用，如上代码中最终 `exp` 常量的值为字符串 `"_f('someFilter')(name)"`。接着会执行如下这两句代码：

```js
tokens.push(`_s(${exp})`)
rawTokens.push({ '@binding': exp })
```

这两句代码分别向 `tokens` 数组和 `rawTokens` 数组中添加了新的元素，假设我们的文本内容为 `'abc{{name | someFilter}}'`，则此时 `tokens` 数组和 `rawTokens` 数组的值已经为：

```js
tokens = ["'abc'", '_s(_f("someFilter")(name))']
rawTokens = [
  'abc',
  {
    '@binding': "_f('someFilter')(name)"
  }
]
```

最后还有一句代码需要执行，这句代码也是 `while` 循环的最后一句代码，如下：

```js
lastIndex = index + match[0].length
```

这句代码的作用是更新 `lastIndex` 变量的值，可以看到 `lastIndex` 变量的值等于 `index` 变量的值加上匹配的字符串的长度，我们以字符串 `'abc{{name}}def'` 为例，此时 `lastIndex` 变量的初始值为 `0`；`index` 变量的值为 `3`，指向第一个左花括号(`{`)；`match[0].length` 的值为匹配的字符串 `'{{name}}'` 的长度，所以 `match[0].length` 的值为 `8`，最终：

```js
lastIndex = 3 + 8 // lastIndex = 11
```

可以看到此时的 `lastIndex` 变量的值被更新为 `11`，恰好指向原始字符串中字符 `'d'` 的位置，为下一次 `while` 循环做准备。

在 `while` 循环的后面是如下这段代码：

```js
if (lastIndex < text.length) {
  rawTokens.push(tokenValue = text.slice(lastIndex))
  tokens.push(JSON.stringify(tokenValue))
}
```

这是一段 `if` 条件语句，其对比了 `lastIndex` 变量的值和原始文本长度(`text.length`)的大小，当 `lastIndex` 变量的值小于原始文本长度时该 `if` 条件语句内的代码将被执行。那么什么情况下 `lastIndex` 变量的值小于原始文本长度呢？我们知道每当 `while` 循环结束之前都会更新 `lastIndex` 变量的值并开始下一次循环，我们假设原始文本为 `'abc{{name}}def'`，当第一次 `while` 循环结束之前会更新 `lastIndex` 变量的值，使其指向字符 `'d'`，所以此时 `lastIndex` 变量的值为 `11`。然后开始下一次 `while` 循环，但大家不要忘了 `while` 循环的判断条件是：`(match = tagRE.exec(text))`，由于第二次 `while` 循环将会从字符 `'d'` 开始向后匹配，即匹配剩余的字符串 `'def'`，很明显该字符串中不在包含字面量表达式，所以 `while` 循环的判断条件会失败，循环终止。最终 `lastIndex` 变量的值停留在 `11`，而整个原始字符串的长度为 `14`，此时满足 `lastIndex` 变量的值小于原始字符串的长度，如上 `if` 条件语句内的代码将被执行。很明显，如上代码的目的是为了截取剩余的普通文本并将其添加到 `rawTokens` 和 `tokens` 数组中。当原始字符串 `'abc{{name}}def'` 被解析完毕后，`rawTokens` 和 `tokens` 数组的值将是：

```js
tokens = ["'abc'", '_s(name)', "'def'"]
rawTokens = [
  'abc',
  {
    '@binding': '_s(name)'
  },
  'def'
]
```

最后 `parseText` 函数将返回一个对象，如下代码所示：

```js
return {
  expression: tokens.join('+'),
  tokens: rawTokens
}
```

该对象包含两个属性，即 `expression` 和 `tokens`，拿上例来说，最后 `parseText` 函数的返回值将是：

```js
return {
  expression: "'abc'+_s(name)+'def'",
  tokens: [
    'abc',
    {
      '@binding': '_s(name)'
    },
    'def'
  ]
}
```

在如上这个返回值对象中，`expression` 属性的值就是最终出现在渲染函数中的代码片段。另外这里要强调一点 `tokens` 数组是用来给 `weex` 使用的。

## 对结束标签的处理

接下来我们讲解一下当解析器遇到结束标签的时候，都会做哪些事情，如下代码所示：

```js
end () {
  // remove trailing whitespace
  const element = stack[stack.length - 1]
  const lastNode = element.children[element.children.length - 1]
  if (lastNode && lastNode.type === 3 && lastNode.text === ' ' && !inPre) {
    element.children.pop()
  }
  // pop stack
  stack.length -= 1
  currentParent = stack[stack.length - 1]
  closeElement(element)
}
```

如上这段代码是 `parseHTML` 函数的 `end` 钩子函数，当解析 `html` 字符串遇到结束标签的时候，会调用该钩子函数并传递三个参数，不过我们发现在如上代码中并没有使用到 `end` 钩子函数的任何参数，这是因为当遇到结束标签时的处理逻辑根本用不到这些参数。那么在 `end` 钩子函数中都需要做哪些事情呢？关于这个问题在之前章节的讲解中我们多少都提到过了，我们知道每当解析器遇到非一元标签的开始标签时，会将该标签的元素描述对象设置给 `currentParent` 变量，代表后续解析过程中遇到的所有标签都应该是 `currentParent` 变量所代表的标签的子节点，同时还会将该标签的元素描述对象添加到 `stack` 栈中。而当遇到结束标签的时候则意味着 `currentParent` 变量所代表的标签以及其子节点全部解析完毕了，此时我们应该把 `currentParent` 变量的引用修改为当前标签的父标签，这样我们就将作用域还原给了上层节点，以保证解析过程中正确的父子关系。如下这段代码就是用来完成这些工作的：

```js
// pop stack
stack.length -= 1
currentParent = stack[stack.length - 1]
```

首先将当前节点出栈：`stack.length -= 1`，接着读取出栈后 `stack` 栈中的最后一个元素作为 `currentParent` 变量的值。另外我们注意到有这样一句代码：

```js
closeElement(element)
```

调用了 `closeElement` 函数，`closeElement` 函数的调用时机有两个，当遇到一元标签或非一元标签的结束标签时都会调用 `closeElement` 函数，该函数的源码如下：

```js
function closeElement (element) {
  // check pre state
  if (element.pre) {
    inVPre = false
  }
  if (platformIsPreTag(element.tag)) {
    inPre = false
  }
  // apply post-transforms
  for (let i = 0; i < postTransforms.length; i++) {
    postTransforms[i](element, options)
  }
}
```

它的工作有两个，第一个是对数据状态的还原，我们知道每当遇到 `<pre>` 标签的开始标签时，解析器会将 `inPre` 变量设置为 `true`，这代表着后续解析所遇到的标签都存在于 `<pre>` 标签中，一旦 `<pre>` 标签内的所有内容解析完毕后，解析器将会遇到 `<pre>` 标签的结束标签，此时 `platformIsPreTag(element.tag)` 将会为真，如上代码所示，会将 `inPre` 变量的值重置为 `false`。同样的道理，如果需要的话还会重置 `inVPre` 变量的值。`closeElement` 函数的第二个作用是调用后置处理转换钩子函数，即如上代码中的 `for` 循环部分，这段代码我们在前面的章节中已经讲解过了，这里不再细说。

我们回到 `end` 钩子函数，注意如下高亮的代码：

```js {3-7}
end () {
  // remove trailing whitespace
  const element = stack[stack.length - 1]
  const lastNode = element.children[element.children.length - 1]
  if (lastNode && lastNode.type === 3 && lastNode.text === ' ' && !inPre) {
    element.children.pop()
  }
  // pop stack
  stack.length -= 1
  currentParent = stack[stack.length - 1]
  closeElement(element)
}
```

这段高亮代码的作用是去除当前元素最后一个空白子节点，我们在讲解 `chars` 钩子函数时了解到：**`preserveWhitespace` 只会保留那些不在开始标签之后的空格(说空白也没问题)**，所以当空白作为标签的最后一个子节点存在时，也会被保留，如下代码所示：

```html
<div><span>test</span>   </div>
```

如上代码中 `<span>` 标签的结束标签与 `<div>` 标签的结束标签之间存在一段空白，这段空白将会被保留。但是这段空白的保留对于我们编写代码并没有什么益处，我们在编写 `html` 代码的时候经常会为了可读性将代码格式化为多行，如果这段空白被保留那么就可能对布局产生影响，尤其是对行内元素的影响。为了消除这些影响带来的问题，好的做法是将它们去掉，而如上 `end` 钩子函数中高亮的代码就是用来完成这个工作的。

## 注释节点的元素描述对象

解析器是否会解析并保留注释节点，是由 `shouldKeepComment` 编译器选项决定的，开发者可以在创建 `Vue` 实例的时候通过设置 `comments` 选项的值来控制编译器的 `shouldKeepComment` 选项。默认情况下 `comments` 选项的值为 `false`，即不保留注释，假如将其设置为 `true`，则当解析器遇到注释节点时会保留该注释节点，此时 `parseHTML` 函数的 `comment` 钩子函数会被调用，如下：

```js
comment (text: string) {
  currentParent.children.push({
    type: 3,
    text,
    isComment: true
  })
}
```

`comment` 钩子函数接收注释节点的内容作为参数，在 `comment` 钩子函数内所做的事情很简单，就是为当前注释节点创建一个类型为 `3` 并且 `isComment` 属性为 `true` 的元素描述对象，并将其添加到父节点元素描述对象的 `children` 数组内。

大家需要注意的是，普通文本节点与注释节点的元素描述对象的类型是一样的，都是 `3`，不同的是注释节点的元素描述对象拥有 `isComment` 属性，并且该属性的值为 `true`，目的就是用来与普通文本节点作区分的。

至此，对于解析器相关的内容我们就全部讲解完毕了，最终解析器把 `Vue` 的模板解析为抽象语法树(`AST`)，强烈建议读完本节的同学能够仔细阅读以下附录 [Vue 模板 AST 详解](../appendix/ast.md)，相信你一定会有更多的收获。