物理层论文

物理层数据变换技术

物理层位于OSI参考模型的最底层,它直接面向实际承担数据传输的物理媒体(即通信通道),物理层的传输单位为比特(bit),即一个二进制位(“0”或“1”)。实际的比特传输必须依赖于传输设备和物理媒体,但是,物理层不是指具体的物理设备,也不是指信号传输的物理媒体,而是指在物理媒体之上为上一层(数据链路层)提供一个传输原始比特流的物理连接。

物理层是OSI的第一层,它虽然处于最底层,却是整个开放系统的基础。物理层为设备之间的数据通信提供传输媒体及互连设备,为数据传输提供可靠的环境。

物理层的媒体包括架空明线、平衡电缆、光纤、无线信道等。通信用的互连设备指DTE和DCE间的互连设备。DTE既数据终端设备,又称物理设备,如计算机、终端等都包括在内。而DCE则是数据通信设备或电路连接设备,如调制解调器等。数据传输通常是经过DTE──DCE,再经过DCE──DTE的路径。互连设备指将DTE、DCE连接起来的装置,如各种插头、插座。LAN中的各种粗、细同轴电缆、T型接、插头,接收器,发送器,中继器等都属物理层的媒体和连接器。

物理层的主要功能有以下几种:⑴为数据端设备提供传送数据的通路,数据通路可以是一个物理媒体,也可以是多个物理媒体连接而成.一次完整的数据传输,包括激活物理连接,传送数据,终止物理连接.所谓激活,就是不管有多少物理媒体参与,都要在通信的两个数据终端设备间连接起来,形成一条通路.⑵ 传输数据.物理层要形成适合数据

传输需要的实体,为数据传送服务.一是要保证数据能在其上正确通过,二是要提供足够的带宽(带宽是指每秒钟内能通过的比特(BIT)数),以减少信道上的拥塞.传输数据的方式能满足点到点,一点到多点,串行或并行,半双工或全双工,同步或异步传输的需要.⑶ 完成物理层的一些管理工作。如机械特性、电气特性、功能特性、规程特性。

数据在通信双方间进行传输,最简单的方式是直接互联。但在大型网络中,让所有设备都两两相连是不实际的。取而代之的是通过中间节点的网络进行数据传输。这些节点并不关心数据的内容,而是提供一个交换设备,使数据从一个节点传到另一个节点,直至到达目的地。这些节点的互相连接形成了网络,而终端就连接在网络中的某个节点上。通常,网络系统所采用的数据传输技术有以下三种:电路交换、报文交换和分组交换

电路交换的原理是:在数据传输时,源节点和目的节点之间有一条利用中间节点构成的专用物理链路,此线路将一直保持到数据传输结束。若是这两个节点之间的通信量很大,则可同时建立多条连接。使用这种技术,在传输数据之前会事先建立一条端到端的线路。举个例子,在两个终端A,B之间有由a、b、c、d、e五个节点组成的网络,A 与a直连,B与b直连,而a、b节间无直接连接。A向a发出连接请求,要与B通信。此时,A到a的电路是专用的,早已存在。而节点a必须在通向节点b的路径中找到下一条支路。如果它选择了到c的电路,则在此电路上分配一个未用的通道,并告诉要连接b。于是,c在重复a的动作并如此循环直至连接到b,最终建立起到B的线路。这样,a、b之间就有了一条专有线路用于A、B间的通信。这种传输自然是相互的。数据经过节点时几乎没有延迟和阻塞,除非线路有意外或节点出现故障。数据传输完成后,由通信的某一方发出拆除电路请求,对方作出相应释放链路。电路交换有点在于数据传输可靠、迅速,且保持原有序列。但是,一旦通信双方占有一条通道后,即使不传送数据,其他用户也不能使用,造成资源浪费。电路交换适于数据传输要求质量高,批量大的情况。典型的是电话通信网络。

报文交换。为解决电路交换占用通道的缺陷,报文交换产生。其原理是:数据以报文为单位传输,长度不限且可变。数据传送过程采用存储-转发的方式。发送方在发送一个报文时把目的地址附加在报文上,途径的节点根据报文上的地址信息,将报文转发到下一个节点,接力式的完成整个传送过程。每个节点在受到报文后,会将之暂存并检查有无错误,然后通过路由信息找出适当路线的下一个节点的地址,再把报文传送给下一个节点。这个过程中,报文的传输只是占用两个节点之间的一段线路,而其他路段可传输其他用户的报文。于是,这种解决方案不会像电路交换占用终端间的全部信道。但是,报文在经过节点时会产生延迟。这段延迟包括接收报文所有位(bit)所需的时间,等待时间和发送到下一个节点所需的排队延迟.相对于电路交换,报文交换的优点有:线路效率高;节点可暂存报文并对报文进行差错控制和码制转换;电路交换网络中,通信量很大时将不能接收某些信息,但在报文交换网络中却仍然可以,只是延迟会大些;可以方便地把报文发送到多个目的节点;建立报文优先权,让优先级高的报文优先传送。报文交换也是存在缺点的。首先,它不能满足实时交互式的通信要求,经过网络的延迟可能会有不小的变化。其次,有时节点收到的报文太多以致不得不丢弃或阻止某些报文。最后,对交换节点的存储量有较高要求。

分组交换为了更好地利用信道资源,降低节点中数据量的突发性,在报文交换的基础上发展出了分组交换。在分组交换的网络中,每个分组的长度有一个上限,因此,一个较长的报文会被分割成若干份。每个分组中都包含数据和目的地址。传输过程和报文交换类似,只是由于限制了每个分组的长度,减轻了节点负担,改善了网络传输性能。分组交换的特点是:1、把数据传送单位的最大长度作出了限制,从而降低了节点所需的存储量。2、分组是较小的传输单位,只有出错的分组会被重发而非整个报文,因此大大降低了重发比例,提高了交换速度。3、源节点发出第一个报文分组后,可以连续发出随后的分组,而这时第一个分组可能还在途中。这些分组在各节点中被同时接收、处理和发送,而且可以走不同路径以随时利用网络中的流量分布变化而确定尽可能快的路径。终端与主机间的通信通常采用分组交换。

分组交换还分成虚电路分组交换和数据报分组交换两类。那这两类方式都有什么不同呢?其实,这种区别有些类似电路交换和报文交换。所谓虚电路方式就是在源节点和目的节点之间事先建立一条逻辑电路。由于这条线路不是专用的,于是就称只为“虚”的。两个终端之间,链路的建立、拆除和数据传输都很像电路交换,差别仅仅是电路是否专用。很明显,虚电路方式是面向连接的交换方式,常用于数据交换量大的情况。至于数据报方式,传输的每个分组都被称为数据报,每个数据报自身都携带足够的地址信息。在这种方式里,不需事先建立连接(不管是不是虚的)。具体过程不用多说,其实也就是变了样的报文交换。这个数据报方式是面向无连接的,通常用于交互式会话中每次传送的数据报不长的情况。

物理层数据变换有文字检索,图像和音频处理技术等。

早期的文字检索系统采用“布尔查询”的方法来进行全文检索。这种方法无疑将构造一个合适的查询的责任推到用户身上。用户必须详细的规划自己的查询,其复杂程度不亚于编程语言。这种检索方式并不提供任何的文档相关性测度,对于文档与查询的评价就只有“匹配”,“不匹配”两种而已。这两点问题决定了布尔查询不能被广泛应用。但是,由于布尔检索能够给用户提供更多的可控制性,今天我们仍然可以在搜索引擎的“高级搜索”中找到布尔查询的身影。

对于大规模的语料库,任何检索都可能返回数量众多的结果,因此对检索结果进行排序是必须的。因此,一个好的文字检索模型必须提供文档相关性测度。一个好的测度应该使与用户查询需求最相关的那些结果,排在最前面,同时允许尽可能多的,与用户查询有一定关系的结果被包括进来。目前,最为常用的文字检索模型有三种:矢量空间

模型 (Vector Space Model, VSM). 矢量空间模型最早由Gerard提出。在此模型中,一个文档(Document)被描述成由一系列关键词(Term)组成的矢量。模型并没有规定关键词如何定义,但是一般来说,关键词可以是字,词或者短语。在语音文档检索中,还可以是混淆类、音子、音子串等等单元。假设我们用“词”作为Term,那么在词典中的每一个词,都定义矢量空间中的一维。如果一篇文档包含这个词,那么表示这个文档的矢量在这个词所定义的维度上应该拥有一个非0值(对绝大多数系统来说,是正值)。当一个查询被提交时,由于这个查询也是由文本构成,所以也可以被矢量空间所表示。模型将对查询与文档,计算一个相似度需要注意的是,模型也没有对相似度给出确切的定义。它可以使欧氏距离,也可以是两个矢量的夹角的余弦。概率模型 (Probabilistic Mode) 概率模型的基本思想是估计文档与查询相关联概率,并对所有文档根据关联概率进行排序。这一模型最早由Maron和Kuhn在1960年提出。推理网络模型 (Inference Network Model) 推理网络模型是一种较上述两中模型更为一般化的模型,上述模型都可以归结为推理网络模型的一种实现。在此模型下,仅仅规定文档以某种“力度”产生某个来自查询的关键词,至于力度如何定义,则完全没有规定,即可以是概率,也可以是关键词权重。

在文字检索系统的具体实现中,需要快速地找到文档中所包含的关键词。相比文档来说,关键词的个数是较少的,因此,以关键词为核心对文档进行索引是更加可行的方法。这就是文字检索领域常用的常用的“倒排文档索引”技术。倒排文档索引可以被看成一个链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息。这些信息可以是文档中该词的频率,也可以是文档中该词的位置等信息。倒排文档索引的优势不仅在于关键词个数少带来的检索效率提高,还在于其特别易于同文字检索技术结合。在实际应用中,查询中所包含的关键词往往是很少的,完全不包含查询中的所有关键词的文档,一般来说是不会被列入结果集的。因此,以关键词为主键进行索引,只需要用查询中包括的关键词,进行几次简单的查询就能够找出所有可能的文档。倒排文档索引的具体数据结构可以进行进一步的优化。在关键词查询上,往往采用B-Tree或哈希表进行快速查询。而文档列表的数据结构则可以采用简单的无串行表进行存储,但是此种无串行表存在一个问题,就是当多个关键词对应的文档集需要进行比较的时候,比较效率将比较低。因此,在实际应用中往往采用二叉搜索树组织文档列表。

关键词对于区分文档的作用是不同的。例如一些虚词对于区分文档的内容与查询是

否相关并没有多大的意义。对于概率模型而言,可以有完备的理论来估计每篇文档生成某个词的概率,因而其主要工作集中于如何确定较好的概率估计方法。而对于矢量空间模型来说,确定关键词权重在很大程度上依赖于研究者的经验及对文档特性的分析。目前,对关键词权重的确定方法一般都需要获取一些关于关键词的统计量,而后根据这些统计量,应用某种认为规定的计算公式来得到权重。最常用的统计量包括:

tf,Term Frequency的缩写,表示某个关键词在某个文档中出现的频率。

qtf,Query Term Frequency的缩写。表示查询中某关键词的出现频率。

N,集合中的文档总数

df,Document Frequency的缩写,表示文档集合中,出现某个关键词的文档个数。idf,Inversed Document Frequency的缩写。

dl,文档长度

adl,平均文档长度

在矢量空间模型下,构造关键词权重计算公式有三个基本原则:如果一个关键词在某个文档中出现次数越多,那么这个词应该被认为越重要。如果一个关键词在越多的文档中出现,那么这个词区分文档的作用就越低,于是其重要性也应当相应降低。一篇文档越长,那么其出现某个关键词的次数可能越高,而每个关键词对这个文档的区分作用也越低,相应的应该对这些关键词予以一定的折扣。

早期的权重往往直接采用tf,但是显然这种权重并没有考虑上述第二条原则,因此在大规模系统中是不适用的。目前,常用的关键词权重计算公式大多基于tf和df进行构建,同时,一些较为复杂的计算公式也考虑了文档长度。现简要列举如下:TF-IDF 得分。严格地说,TF/IDF得分并不特指某个计算公式,而是一个计算公式集合。其中TF与IDF都可以进行各种变换,究竟何种变换较能符合实际需求,需要由实验和应用来验证。常见的变换方法有:

物理层论文

物理层论文

物理层论文

其中,最后一个公式,即:被大量系统证明是最有效的。

此外,较为常用的关键词权重算法还包括Okapi权重]和Pivoted Normalization 权重(PNW)。这些公式综合考虑了查询和文档中的词频,以及文档的长度。Okapi权重需要预设三个参数:k1,在1.0-2.0之间b,通常为0.75k3,在0-1000之间

物理层论文

而PNW则需要预设一个参数s,大部分情况下取0.20。

物理层论文

相关推荐
相关主题
热门推荐