1.NSP原理篇
2.BERT(Transformer Encoder)详解和TensorFlow实现(附源码)
3.BERT源码阅读
NSP原理篇
对代码研发而言,码解需求的码解变更是恐怖的,那么是码解什么导致了代码维护困难?我们来看一个例子:
先做事情1,再做事情2,码解如果事情2的码解执行结果满足条件A就执行事情3,否则执行事情4。码解源码为代码如下:
需求变化为:先做事情2,码解再做事情1,码解如果事情1的码解执行结果满足条件B就执行事情4,否则执行事情3。码解我们通过的码解做法是按照上面的代码Ctrl C、Ctrl V出一份新的码解代码:
从上面例子中我们看到,%相同的码解代码只因为先后次序发生变化导致我们破坏开闭原则去修改源代码,这不仅浪费了人力(开发、码解测试、码解运维)而且为系统增加了不可控的风险。
如果不能将软件分解成像积木那样的小模块,而是焊死的一块铁板,那么系统将彻底丧失灵活性。tinyxml工程源码
我们需要的是这样的。
如何将问题拆开呢?我们通过上述焊接钢板和拼接积木的对比发现,焊接是将两个事物生硬地焊死了。对应到代码中,我们讲代码耦合了,耦合的代码如同焊死的钢板一样,刚性、不易变化、脆弱。我们要进行解耦合,可以从如何形成耦合开始思考。
三大结构就是最严重的耦合!!!先做事情A再做事情B,需求往往总是告诉我们这样的结论,可是需求又总是在变化。你今天写死了先做事情A再做事情B,自动生成源码明天就让你先做事情B再做事情A。同样选择结构和循环结构都是需求说明里面最严重的耦合。三大结构就像上面例子中钢板的焊点一样,将物体焊死成型。再举个例子,写死的三大解耦就像雕版印刷一样,不允许有任何修改,在某个文章里面汉“证”后面紧接着“书”,但是在其他情境里面“证”字后面的汉字“人”。雕版印刷无法复用之前的工作(可复用),无法在两个字之间插入新的汉字(可扩展),无法对两个字的顺序进行互换(可维护)。
三大结构是程序粘合剂,可以将两个正交模块进行粘合,这些粘合剂正是耦合的地方,也是我们解耦的开始。我们希望写程序能够像活字印刷一样对文章(业务)进行编排,可以复用之前的源码 编译8.1字、可以维护字的顺序、可以随时插入新的文字。
一个事物的架构取决于你如何看待这个事物。正如下面的鞋架一样,各个零件的设计取决于你如何看待鞋架这个事物的。架构是将系统解耦拆分为一系列符合特定接口的零件,再通过一定的机制将它们组合起来。
根据上面描述我们希望业务能够像活字印刷一样灵活编排,那么如何实现呢?我们先来看一下活字印刷为什么能编排呢?每个字都刻在长宽高相同的模子上,这样做到了形状与内容无关。在代码中我们如何实现形状与内容无关呢?我们看一下百度百科关于JavaBean的介绍:
任何可以用Java代码创造的对象都可以利用JavaBean进行封装。通过合理的组织具有不同功能的JavaBean,可以快速的生成一个全新的应用程序,如果将这个应用程序比作一辆汽车,那么这些JavaBean就好比组成这辆汽车的不同零件。对软件开发人员来说,JavaBean带来的最大的优点是充分提高了代码的可重用性,并且对软件的选题来源码可维护性和易维护性起到了积极作用。 用户可以认为JavaBean提供了一种随时随地的复制和粘贴的功能,而不用关心任何改变。 JavaBean是可复用的平台独立的软件组件,开发者可以在软件构造器工具中对其直接进行可视化操作。软件构造器工具可以是Web页面构造器、可视化应用程序构造器、GUI设计构造器或服务器应用程序构造器。有时,构造器工具也可以是一个包含了一些bean的复合文档的文档编辑器。从基本上说,JavaBean可以看成是一个黑盒子,即只需要知道其功能而不必管其内部结构的软件设备。黑盒子只介绍和定义其外部特征和与其他部分的接口,如按钮、窗口、颜色、形状、句柄等。通过将系统看成使用黑盒子关联起来的通讯网络,我们可以忽略黑盒子内部的系统细节,从而有效地控制系统的整体性能。
我用一句话总结JavaBean:形状与内容无关的编排单元。三大结构是将JavaBean进行业务编排的语法规则。下面讨论一下如何实现一个软件构造器从而能够对业务进行可视化编排。
目前用图形来标识三大结构的方式主要有:Flowchart和NS。下面对其进行比较。
NS图是用于取代传统流程图的一种描述方式。NS图类似流程图,但所不同之处是NS图可以表示程序的结构。依从上到下的设计,待处理的问题会分解成一些较小的副程序,最后只有简单的叙述及控制流程结构,NS图对应了上述的思维,利用嵌套的方块来表示副程序。NS图以SP方法为基础,仅含有下图5种基本成分。
软件设计是先拆开再组合的过程。
市场永远不会缺少劳动者,总是缺少思考者。
BERT(Transformer Encoder)详解和TensorFlow实现(附源码)
BERT,全称Bidirectional Encoder Representation from Transformers,源自Transformer的Encoder部分。其核心结构通过双向注意力机制,使得每个token能同时关注其前后文内容,形成双向上下文融合。相较于单向语言模型,BERT在复杂语言理解任务中展现出更强大的性能,如完形填空、问答系统、情感分析、目标导向搜索和辅助导航等。
BERT的训练机制包含两种创新的预训练策略:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。MLM通过在句子中随机遮蔽部分词汇,促使模型基于上下文进行预测,增强词汇理解和错误纠正能力。NSP则判断两句话在语料中的连续性,强化句子级别的语言表征能力。
在BERT的架构中,每个输入token生成一个输出表示,对于任务不同,输出会用到额外的输出层进行预测。例如,对于完型填空或问答任务,使用每个token对应的输出;对于情感分类任务,则使用“[CLS]”对应的输出。
微调阶段,BERT在大量语料上训练后,可用于NLP的各个任务中。对于语义分析任务,构建模型时将BERT输出中的“[CLS]”符号输入到Dense层进行分类处理。通过加载BERT模型、预处理模型以及进行微调,最终完成任务的训练和推理。
BERT源码阅读
BERT,全称为双向Transformer编码器表示,其源码主要包含以下几个关键步骤:
首先,环境准备至关重要,通过create_pretraining_data.py进行训练样本的生成。主体函数对原始文本进行切词处理,具体在tokenization.py中的create_training_instances()方法中实现。接着,通过调用write_instance_to_example_files()将处理后的样本保存。
模型构建阶段,modeling.py中的核心是BertConfig类和BertModel类。通过初始化这两个类,可以构建起BERT模型。值得注意的是,模型结构中包含Dropout层,但注意力层的dropout概率有所不同。
优化器的构建在optimization.py中完成,训练模型则通过run_pretraining.py中的model_fn_builder函数实现。同时,模型还包含处理Next Sentence Prediction (NSP)任务的loss函数,即get_next_sentence_output。
后续的fine-tuning环节,extract_features.py负责生成句子向量表示,而run_classifier.py和run_classifier_with_tfhub.py用于分类任务。至于问答任务,run_squad.py提供了相应的解决方案。